“Delivering Research Data Management Services” 第1章和訳

このページは、 Pryor, Jones and Whyte(ed) “Delivering Research Data Management Services — Fundamentals of good practice” (Facet publishing, UK) の第1章 “A patchwork of change (Graham Pryor)” を和訳したものです。

出版元の Facet社のウェブサイトに 第1章のPDF が無料公開されており、これに基づき翻訳しました。

翻訳にはそれなりに注意を払ったつもりですが、訳文の正確さについて 特に保証しませんので、訳文に疑義がある場合は適宜原文を参照してください。

文中、[]は訳者の補足です。

原著者・出版社に特に許可を得ている訳ではないので、この訳文を転載したり、 第三者に頒布するのは止めてください。 この訳文を読んで内容に興味を持った方は、原著を購入してはいかがでしょうか。 Amazon で 9000円程度で購入できます(2014年3月現在)。

第1章 「変化のパッチワーク」 グラハム・プライヤー

1. 技術革命時代における発展

長年の間、データ洪水への対応は決まりきっていて、 もっともっと大量のストレージ容量を 大学研究コミュニティに投げるだけであったが、 遂に、高等教育部門を横断する足がかりを得るため、 体系的な研究データ管理(RDM)サービスの供給が始まった。 情報化時代のここ十数年の間、すなわち 1990年あたりから今まで 一体何が行われて来たのだろうか? そして高等教育部門が新種の支援基盤を(技術的にも人的にも) 導入する必要性を受け入れるのに何故長い時間が掛かったのだろうか?

ティム・バーナーズ=リーが WWW を立ち上げ、 初めて本当に公共的ななデータ検索・取り出しサービスを インターネットに導入してから丸9年、 英国政府の費用で2000年に行われたレビューは、 独創的で前例のないe-scienceイニシアチブを述べた。 これは、 自然科学と工学の分野から現れた、 ますますグローバル化する研究恊働を支援するのに十分な ITインフラの開発を奨励することを意図していた。 そのような恊働、つまり e-science そのものは、 巨大な計算資源、莫大なデータコレクション、高速でどこからでもアクセスできる リモート設備やセンサデータの組み合わせを 共用することに特徴があった。 3年後、 “Circular 6/03 (Revised) Digital Curation Centre” という政府通達に おいて、Joint Information Systems Committee (JISC) は 「現在と将来の利用者のために、 デジタルデータと研究結果をそのライフサイクル 全体に亘って管理する、 一般的な支援サービスの発展を導くための」 提案を募集した。 JISC がこのイニシアチブを促進するために使用した分析はこのようなものだった、 「現世代の e-science の実験と計算は、これからの5年間で、 人類史全体において集められたものよりも 多くの科学的データを生み出すだろう。 正しくキュレートされたなら、このデータは将来世代の科学者にとって 重要な資源になるだろう」。

こうした始まりから、 一次データの積極的なキュレーションは e-science コミュニティの中核的な要求であると認められたと 当然思うだろう。 その必然的帰結として、 電子的文書・データベース・出版物の長期的保存に固有の困難を管理するためだけでなく、 現在と将来のデータ利用者が、必要なデータを発見して、自分の好きなデータ 操作ツールや方法論を効果的に使用できることを保証するための、 いくらか新種のサービス提供が考案された。 Circular 6/03 にとても鋭く断固として書かれているように、 データキュレーションは「良いデータの作成と管理に必要なすべての過程と、 情報と知識の新しい供給源を生成するという価値を追加する能力を含む」。 その結論は、不可避的に、 持続的な「データ作成者・提供者、データ保管者(archiver)、そして 最も重要であるデータ利用者の相互作用」を 必然的に含んでいなければならない。 [archiving する人は archivist だが、ここでは archiver が 用いられている。archiver はコンピュータプログラムを指す筈だが、 ここでは文脈上 archivist と同じ意味にしか読めない]

ここまではまあ良い。 Jisc による形成的観察から更に9年、 王立協会の報告書 「開かれた事業としての科学: open science のための open data」 は、 「莫大な量のデータを取得し、格納し、操作し、運搬する新しい方法をもたらした、 急速で全面的な技術的変化」、 「科学者間の交流と恊働の新しい習慣」を奨励し 「科学的行為についての多くの既存の規範」の正当性を疑った革命、 に言及した。 けれどもこの報告書の威厳ある著者たちの見方では、 これらの新しい技術と恊働が真に成功した発展になるには、 研究の慣習において更に6つの変化がまだ必要である:

  1. データは個人のものだと看做す研究文化を変えること。
  2. 有用なデータのやり取りや新規の恊働方法に対して功績を認めるために、 研究の評価基準を拡大すること。
  3. データをやり取りするための共通基準の開発。
  4. 公刊された科学的論文に関係するデータに対して知的開放を命ずること。
  5. デジタルデータの使用を管理・支援するための、データ科学者の 強い軍団の作成。
  6. データセットの作成と利用を自動化し単純化するための 新しいソフトウェアツールの開発と使用。

同報告書に依れば、「それらの変革を実行するための手段は 利用可能である」が、変革はまだ達成されていない。と言うのも 「それら手段の使用に対する、 科学者、その所属機関および科学に資金や支援を提供している人々からの 効果的な参画」が不足しているからである。

王立協会の同報告書での焦点は、 開放性の原則を促進すること、そして open science における 新しい機運を生成することにあると認めるにしても、 この主張は、 開放の標準、ツール、基盤を実質的に改善した人々にとっては 幾らかの不安の種として受け取られた。 もし、 1990年代後半と今日との間で、 研究データの生成・共有・キュレーションの根本的変化 に対する反応において、 高等教育コミュニティによる進歩はほとんどなかった、 と推定するなら、 多数の重要なイニシアチブを間違いなく見落としている。 協会の主要なメッセージは、しかしながら、 「効果的な参画」というフレーズに表現されている。 このフレーズは、 RDMの過程・規約・標準・サービスの実行に必要な これらの手段の首尾一貫した全面的な採択、 と解釈するべきである。 更に、この潜在的には普遍的な採択は、 諸機関がこれらの手段を、 その機関の構造とビジネスにとって 十分な資金を与えられて確立された持続可能な構成要素として 受け入れた、ということを証明しなければならない。 もしそうなら、王立協会は大正解である。 前衛的地位を占領している少数派と、 「データ管理・共有に対する真剣な参画」が意味するもの と未だに取り組まなければならない多数派 との間の距離は過去数年の間に広がったように見えるので。 この情勢は意外ではないし、決して静的でもない。 研究大学のような、大きく多様で複雑な組織では、 そのような方策の遂行は相当な文化的変化を伴うものだ。 これは根本的変化の過程である。 王立協会は、その過程は 依然として保証(確保)されなければならないと 認めたが、 しかしもっとも活発でリスク傾向がある機関においてさえ それを急には達成できない。

機関的 RDM サービスの開発は、すでに 「ビジネスプロセスの再設計に似た反復サイクル」に 例えられている(Jones, Pryor and White, 2012)。 ここでは、商業部門から用語を借りて言うと、 より大きな生産性と価値を消費者に届けるために、 既存の工程の根本的な再考に基づくような、 何か新しい mission-critical な哲学、原則、 構造の導入が期待される。 典型的には、商取引では、組織階層の根源的で急速な簡素化、 非生産的・冗長的活動の除去を必然的に含むだろう。 高等教育ではそうではない。 総ての大学で(ただし最も「管理された」大学は別だが)、 広く行き渡った文化がかなりの抵抗を引き起こし、 これらの目標はすんなり達成しないだろう。 ここで、再設計工程を定義する「反復サイクル」はまさに、 RDM についての議論の(数多くの討論会における) 長ったらしい繰り返しが避けようなく必要であることを含め、 変化のためにその要因に対して繰り返し調整が入ることの必然的結果であり、 あなたの宣言はすっかりコミュニティの賛成を受けたとあなたが感じた時に 変化を支持することの永続的な必要性[ひとつの変化が受け入れられたら 更なる変化に挑戦しろということか]、 であることがわかる。 我々は、単に高等教育の否定的な見方を示したり 罪を着せたりする目的では これに言及しない。 しかし、これらの困難に最初から気付いていることが 如何に重要かを指摘し、その展望によってがっかりしないようにするために 言及する。 変化への潜在的な動きはゆっくりと、しかし着実に進行中であり、 その動きはいずれあなたの主張を強化するだろうから。

2. 6つの必要な変化?

たとえば、王立協会の 6つの必要な変化の1番目を取り上げよう。 「データは個人のものであるという見方をする研究文化から離れること」。 これは、物理学のような幾つかの「巨大科学」においては 必要な慣行として既によく確立しており、 そこでは巨大な量の研究データの解析は国際的に共有されることに依存している。 ゲノム科学の分野では、配列やその他の ゲノムデータに素早くアクセスできることは ヒトゲノムプロジェクトの指導的な原則であった。 英国では、2009年に、 「科学を効果的に機能させる、また社会が科学的発見から完全な利益を 獲得するには、科学データをオープンにすることが重要である」ことを 確信した科学者グループが Panton 原則 を書き上げた。 この原則はその後、 Open Knowledge Foundation Working Group on Open Data in Science (open science の促進に関心を持っている科学者・出版社・学生やその他の人々の 多様なグループである) のメンバの助力によって、 洗練され、より広い公的なプラットフォームに持ち込まれた。 このように、これはまったく未だに自己制御式学問の文化 [研究に関わる事すべてを研究者自身が行うという習慣のことか] を表しており、 王立協会の報告書において奨励されている大規模公的事業ではない ものの、 それにも拘らず、 それは態度と慣習における変化の現実的表現であり、 その変化は いずれ、機関的・国家的・世界的規模での支援のためのプラットフォームと構造を 必要とするであろう。

変化が必要な他の5つの領域のそれぞれについても、 同様に、進歩の証拠を示すことができる。 たとえば、研究評価の領域では、 Research Excellence Framework (REF) の Main Panel C (高等教育機関で実施されている研究を評価するための、新しい国家的仕組み) が幅広い研究成果を受理することを計画しており、それには データセットや多目的データセットのようなデジタルな成果が含まれる。 これは、 研究出版物の提出の伝統的なやり方から離れる動きの 小さな始まりである。 そしてこれは 4つの主な評価パネルのひとつのみにしか適用されないが、 そうだとしてもそれはとても著しい変化である。 2013/02/25 に発表された諮問文書において、 [Letter on open access and submissions to the REF post-2014 http://www.hefce.ac.uk/news/newsarchive/2013/news78750.html ] HEFCE は2014 REF の後に更なるステップを講じるための準備として、 オープンアクセスとして出された学術出版物の提出についての見解を求めた。 [寄せられた意見は 2013年7月に Consultation on open access in the post-2014 Research Excellence Framework として公表されている。 http://www.hefce.ac.uk/media/hefce/content/pubs/2013/201316/Consultation%20on%20open%20access%20in%20the%20post-2014%20Research%20Excellence%20Framework.pdf ] HEFCE は、 高等教育向けの 4つの 英国資金提供団体を代表して、 またオープンアクセス形態で公表される研究成果の割合を著しく増加させるという 目標を持って、 REF のオープンアクセス要求を満たす成果は 機関リポジトリを通じてアクセス可能であるべきだと要求する自らの意図を 宣言した。 もちろん彼らはここではデータよりも出版物について述べている。 しかし、実際にはそれぞれの提出機関は 「[出版物だけでなく]すべての関連成果を識別し アクセスできるような(他のウェブサイトへのリンクを通じて利用可能な アイテムを含む)ウェブ設備を維持している[のでデータも公開可能である]」ことを 彼らは明白にしている。 いっそう重要なこととして、 すべての提出機関に対して、それを可能にするインフラ提供の 要求を明確にした結果、 研究プロセスの効率化に対して データが果たす役割について 言及されるようになり、 [自機関の設備が] オープン出版と同様にオープンデータに対しても 十分な能力があるのかどうかを判定しようという 動きが生じている。 [最後の一文は意味がよく理解出来なかったので妄想訳した。]

専門化された国家的サービスの成長は、また、機運の集まりを示している。 我々は既に Digital Curation Centre (DCC) の創設について言及した。 もしデータ管理フレームワークに対して標準や他の信頼出来るガイドが必要であると 考えているのであれば、 DCC のウェブサイト の簡単検索はすばやく、 メタデータやデータ交換プロトコルについてどのベンチマークが 国際的に進歩したか、その範囲を示すだろう。 もし、どのソフトウェアプラットフォームがあなたにとって最適なのかの 判断を助けてくれるものを探しているならば、 OSS Watch (無償の国家的サービスとして英国で資金提供されている)が OSS の使用、開発、ライセンスについて中立な助言と案内を提供している。 もしクラウドサービスがあなたのインフラのポートフォリオ内で 要点になっているのであれば、 JANET Brokerage Service が、 機関がクラウドストレージと外部データセンターサービスへ移行するのを助けるような、 独自の手引き、恊働購買力、そして資産調査を提供する。

Jisc の Managing Research Data Programme の成功は、 データの困難に直面している研究機関を促し援助することに対する 国の機関の決意の更なる証拠である。 実際には、その 2011-2013年のプログラムは、 RDMインフラの開発と拡張に焦点を当てた、 17 の大きな機関プロジェクトを可能にした。 追加の 8つのプロジェクトは、研究グループ、プロジェクト、学部が、 データ管理計画の実行とシステムの支援によって、 分野の最良実践と研究系資金援助団体の 要求を満たすことを助けている。 これらは本当に重要な足がかりであり、 より多くのイニシアチブが維持されるに従って、 アイディアと経験の融合と成功事例の交換が、 その部門全体で増加している兆候が既に見られる。 けれども、それらプロジェクトの評判は悪い。というのも、 プロジェクトの資金を使い果たす前にそれらの持続可能性を確実にするような critical mass と機運を得る能力がないから。 Jisc MRD プロジェクトは、自らが資金提供したデータ管理プロジェクトがそれぞれ、 高品質の研究支援を提供するという 認定された機関的任務の一部を担うことを期待していたのだが、 限りある資源に関する重度の競合があるような環境においては、そういう変化は どこででも保証される訳ではない。 しかし、 “Science as an Open Enterprise” (”Open Data White Paper: unleashing the potential”(英国内閣府, 2012) に おいて政府の決意の影響力を更に付与されている) において予測されていたこの種の変化( ティム・バーナード・リーが提案した データ標準に対する5つ星スキームを含めて)は、 以下を前提としたものだった。すなわち、 大学が、彼らの研究成果を配達するため、 洗練された支援のメカニズムと 制限のない手段[の構築]を約束したことを。 国の機関の一部で数年間努力してきて、 より素早く幸福な状態に向かうためには、今や、 時間のかかる遅くて細切れの進化の動きよりも革命的な何かが必要である。 そのような変転は普通は新鮮な外部の刺激の干渉により 可能になるという事実は歴史が示している。

3. 方針の枠組み、命令と期待

王立協会の報告書が公表される前年、大きな刺激は不足していなかった。 Research Councils UK (RCUK) は 自身の “Common Principles on Data Policy” によって 2011 年のための 雰囲気を作った。威力不足であるけれども、 透明性に対する7条の公約に対して共通の目標を与えるという点で、また その研究基盤全体に一貫性のあるアプローチを初めて記述したという点で、 これは類例のないものである。 公的に援助された研究データは公共財であると宣言された。 「公共の利益において生産された研究データ、 それは公に利用可能にされる べきである、可能な限り少ない制限で、 知的所有権を毀損しないようなタイムリーで責任ある仕方で」。 機関は適当なデータポリシーとプランを持っており、 認められた価値のあるデータを保存するための手段を講じるだけでなく、 他の研究者がそれを理解し再利用するための十分なメタデータが 割り当てられている、 という前提によって、 機関に対する行動は実施された。 公的資金を公的資金研究データの管理と共有の支援に使用することは 道理にかなったことであるとさえ認められた。 その目的のためにオファーされている新ファンドはないにもかかわらず、 — しかし、結局のところ、それらは原則であって、計画ではない。

しかしながら、 より教育的な方針枠組みがすぐに続くことになった。 2010年9月 に “Research Data Policy” の修正版 を公表した後、 Economic and Social Research Council (ESRC) は2011年春に新しい要項を導入した。それによって 研究助成金の申請者は、 データ共有についての声明書、および データ管理・共有計画を提出することを要求されるようになった。 ESRC は既に、 エセックス大学の UK Data Archive (UKDA) という形で、 資金提供している研究者に対して広範な支援を提供しており、 その支援はこの新しい義務を和らげた。 修正版ポリシー文書に説明されているように、データセンター職員は、 研究者がデータ管理・共有の計画を立てるのを適切に手助けしたり、 最終格納場所や再利用を含む ongoing な支援を そのプロジェクト全体に亘って提供したりする。 本書において後で説明するように、国家的データサービスが使えるかどうかは、 RDMサービス供給のために機関的資源の配置を問題とする際には 常に重要な要素として考えるべきである。

しかしもし、大学の管理者が研究協議会のデータ方針内の より革命的な特色に気付いた瞬間について知りたいのなら、 [お答えしよう、] これもまた2011年に生じたことだが、 5月1日に Engineering and Physical Sciences Research Council (EPSRC) がその “Policy Framework on Research Data” を 公開した時がそうである。 その枠組みは7つの中核的な原則を説明しており、 それらは直接的に RCUK 原則の中核に対応しているのだが、 そのうち2つは特に重要であると思われる: ひとつは、 「公的に資金援助された研究データは一般的に、 タイムリーで責任ある手段で 可能な限り広く、自由に利用可能にされるべきである」。 ふたつには、「研究プロセスはそのようなデータの不適切な公表によって ダメージを受けるべきではない」。 (http://www.epsrc.ac.uk/about/standards/researchdata/Pages/policyframework.aspx) 両方とも機関と所属研究者によって実行されるべき行動を含んでおり、 両方とも、 それらの行動を可能にするためのメカニズムが存在していることを 仮定している。 どちらも非常に極端には聞こえない、 EPSRC には(ESRCとは違い)支援インフラがないことを除けば。 これはEPSRC研究交付金を受領している大学は自分自身で適切なサービスと 支援を供給しなければならないことを意味している。

その実現化は、それだけでは、 RDMサービスの開発を確約しなければならないことを 各機関に納得させられるようには思えない。 結局のところ、高等教育はその時々の原則であふれている。 けれども啓示の瞬間は来た[つまりEPSRC のポリシーが公表された]。 それには9つの「明白な期待」が含まれており、 資金提供者[EPSRC]は資金受領者である 100以上の組織にそれを示した。 中でも最も刺激的なのは「期待9」であった。 それは以下のことを平易に宣言した。すなわち、 資金受領組織は「 公的支援研究データのキュレーションを支援するために 適切な資源が提供されることを確実にする; それらの資源は既存の公的資金の流れの内部から配分される、 研究協議会から直接または間接的に特定のプロジェクトのために受け取るか、 まとまった交付金として高等教育援協議会から受け取るかは問わず」。

皆の注意を得たにも拘らず、 その注意がただちに再度過ぎ去らないようにするために、 EPSRC は、[ポリシー公表の]その前の月に、 EPSRC ポリシー予定表の 全大学の副総長と校長に 前もって知らせるために[レターを]書いた。 2012/02 に発送された 2番目のレターで繰り返されているように、 その予定表は2つのデッドラインに依存している: 2012/05/01 までに各機関は、 EPSRC の期待をポリシーとプロセスに適切に割り当てるための、 明白な工程表を持たなければならなかった。 2015/05/01 までにそれらの期待について完全に遵守する状態に至るべきである。 もし、後者の期限までに、ある機関が完全遵守になっていないことが 判明した場合や、研究データの正しい共有を故意に妨害しているか EPSRC の期待を満たすことに深刻に失敗していると見ることができた場合は、 その機関には ERSRC の支援を受ける資格が無いという宣言を最終的に導く プロセスが始まることになる。 EPSRC は約8000の学術研究者を 40億ポンド(6000億円)の金融資産から 支援しているから、これは無視出来ない。

それなら、 「公的支援研究データのキュレーションを支援するための適切な資源」 を確保することを要求されている大学にとって、 残りの8つの EPSRC の期待は何を意味しているのだろうか? 工程表の作成には必然的に自己分析が含まれており、 それは各機関が、自機関の現在の状態と、 遵守を達成するために必要な手順を発見することを可能にする。 言い方を変えれば、研究データ支援に必要な行動は何か、 誰が実行するのか、いつやるべきか、どれだけのコストが掛かるのか、 を尋ねる必要があるのだ。 事実上、表1.1 に示されているように、 EPSRC 工程表の作成はより大きな RDMサービス計画の核になり得る。

表 1.1 EPSRC の期待と大学の反応

EPSRC の期待 ありうる大学の反応
1. 研究組織はこれらの原則と期待に関して内部の認識を促進し、 所属の研究者と学生が、その規制環境、および 研究データの保留を正当化するため( そうする必要がきっと生じるはずである)に使うことができる 免除について全般的な認識を持つ事を確実にする。
  • 広報と指導を提供する(おそらく、 新任の研究者や院生に対する研修を含む、 ワークショップや訓練を通して)。
  • (機関リポジトリが存在する場合は)機関リポジトリを通して、 データに宣言やリンクを 加えるためのメカニズムを提供する。
  • 研究および研究データに関するポリシーに、 資金提供者および法的規制による義務を示す。
2. 公表された研究論文は、 支持する研究データはどのように、どのような条件でアクセス できるのかを説明した、短い宣言を含むべきである。
  • 要件を公表する。それには新任の研究者への研修が含まれる。 またそれを研究および研究データに関するポリシーに示す。

3. 個々の研究組織は、 公的支援による研究データ資産、および第三者によるそのような データへのアクセス要求に関して、 効果的な内部認識を維持するための 特定のポリシーと関連手続きを持つ。

EPSRC に支援された総ての所属研究者・学生は、 この領域における研究組織のポリシーを遵守することを 要求される。 または、例外的な状況では、なぜできないのかの正当性を提供 することを要求される。

  • 例外扱い出来ないすべての公的支援研究データを 記録して発見可能にするための手段を実現すること。 これは広範囲に及ぶ結果をもたらすだろう、 たとえば、 第三者のアクセス要求の詳細も記録するような データカタログの作成と維持など。
4. デジタル形式で生成されていない公的支援研究データは、 そのデータを受け取るための妥当なアクセス要求が生じた時に、 そのデータの共有を促進するような形で、格納される。 (この期待は、 このようなデータを適宜デジタル形式に変換して格納するための ポリシーを施行することによって満たされるだろう)
  • そのような物理的材料を識別するための監査を実施する。
  • デジタル形式に変換することに必然的に含まれる 費用、利益、リスクを考慮すること。 他の「物理的」手段と比較して好ましい選択肢を選ぶこと。

5. 研究組織は、保有する研究データを説明するような、 適切に構造化されたメタデータ が公表されること (通常はデータが生成されてから12ヶ月以内に)、 そしてインターネット上で自由にアクセス可能にすること を保証する。

いずれの場合でも、メタデータは、何のデータが存在するのか、 なぜ、いつ、どのように生成されたのか、そしてどのように アクセスするのかを、他人が理解できるように、 十分でなければならない。 メタデータ内で参照されている研究データがデジタル物体 の場合は、 メタデータが頑強なデジタル物体識別子を 含んでいることが期待される (たとえば DataCite 組織 http://datacite.org を通して 利用出来るような識別子)。

  • 適切で受け入れ可能なメタデータ標準と手続きを識別する。
  • 妥当なメタデータ割り当てのための手続きと責任を施行する。
  • インターネット上でデータを発見出来るようなメカニズムを 確立し維持する。
  • 研究者に、要求事項と提供されている支援について助言する。
  • データ管理者や研究者に、メタデータを割り当てることについて 指導や訓練を提供する。
  • 研究データポリシーの中に要求事項を入れる。
6. データへのアクセスが制限されている場合は、 公表されているメタデータはその理由も示すべきであり、 また入手するためのアクセスのために満たさなければならない 条件を要約するべきである。 たとえば「商業的に秘密の」データがあり、 商業組織がそれに合法的な関心を持っている場合、 そのデータは、 適切な法的強制力のある非開示合意を条件として、 他者に利用可能にされるべきである。
  • 指導を提供する、特に新任の研究者への研修において。
  • 研究データポリシーに要求事項を入れる。
7. 研究組織は、EPSRC支援研究データが、 研究者の「特権的アクセス」の期間が終了した日から、 または、他の人がそのデータにアクセスした場合は、 そのデータへのアクセスが第三者によって要求れされた 最後の日から、 最低10年間は安全に保全されることを保証する。 公的支援データを、 英国よりも低い水準の法的保護しかない法域には 保持しないことを保証するために、 あらゆる合理的な手順を実行する。 [個人情報などの漏洩に関して言っている?]
  • アーカイブ、キュレート、発見とアクセスを可能にするために、 長期的な手段が解決されなければならない。
  • 利用可能なオプションが配備され(たとえば機関リポジトリ、 国家的データセンター、クラウドサービス)、投資が行われる 領域を評価する必要性。
  • データの保全、およびその定期的な再検討と、 安全と適切な廃棄のための方法 についての役割と責任を識別する。
8. 研究組織は、データのライフサイクル全体を通して 効果的なデータキュレーションが提供されることを保証にする。 ここで「データキュレーション」と「データライフサイクル」は DCCによって定義されている通りである。 データライフサイクルに亘ってデータキュレーションに関係する 責任の全範囲は明白にその研究組織に割り当てられる。 そして研究データが制限されたアクセス状態にある時、 その研究組織は適切な安全管理を実施して管理する。 研究組織は特に、 データキュレーション工程の品質保証は特別に割り当てられた 責任であることを保証する。
  • 事実上、8番目の期待は、機関が包括的な研究データ管理サービスを 作ることを要求している!
  • この期待の後半によって実施されるように、このサービスには、 全面的なデータ管理計画、 発見可能性とアクセスのためのメタデータの割り当て、 長期的保全、などを可能にするための新しい役割と責任を伴った 幅広い関係者と活動が、必然的に含まれるように思われる。
  • 統治と交流の新しいルーチンの導入に加えて、 本質的な技能が不足している場合には新しい人員募集の 可能性も含めて広範囲に亘る計画と投資が要求される。

このような分析は、 データ管理に対するこれらの極端ではない期待 を満たすことは、 研究プロセスだけでなく、関連する多様な活動、 役割、組織上の構成要素を 必然的に含む ことを明白にする。

少なくとも 3つの主要な視点が表現されなければならない、 目的のサービスの出現の適合のために、それらの間で一致した意見 [ここ意味不明]:

  1. 研究実施に従事する内部コミュニティ
  2. 機関的管理
  3. 情報システム、サービス、支援の提供者。

これらの視点のそれぞれは逆に多面的であり、もしかすると 事業の複雑性を増やす。 最大の不均一性は研究支援の視点であろう。 研究支援には図書館、情報技術サービス、 研究統括、記録管理機能から職員を受け入れることができる— 個々の研究チーム内にさまざまな種類の専門的支援スタッフがいることを 忘れなければ。 一般に、これらのグループは以前に密着したチームとして一緒に仕事をしたことはなく、 そして彼らはお互いの活動についてほとんど知らないだろう; 共有のルーチンと目的を既に追求しているということは 同じくらいありそうにない。 逆らい難い資金提供者の命令によって仲間にさせられることで、 人間関係の機微と組織動態の完全に新しい 組み合わせに取り組む必要があるという事態に 直面しなければならなくなるだろう— 研究データ管理の教義に親しくなるという主要な困難に加えて。

4. 近代化の支援と機関の関心

この困難は単独で対処しなくとも良い見込みである。 またもや 2011年春のことだが、 Higher Education Funding Council for England (HEFCE) からの資金提供を受けて、DCC は初の 機関恊働活動プログラムを実施した。 このイニシアチブはしかし、 高等教育における現在の問題に取り組むための、 また違った資金提供団体の試みのひとつの特色であった。 HEFCE の初期の焦点はここでは研究データではなかったけれども、 その大学近代化資金 (2010-11 に 10000 の余分の学生居住地を支援するために設立され、 共有サービスと他の革新的な実践を通して 効率性と節約を採択するために大学を奨励した) は、英国の 21 大学との一連の類例なき恊働活動に乗り出すのに 十分な資源を、DCC に提供した。 これらの恊働活動(institutional engagements と呼ばれている)は、 効率的な研究データ管理の遂行における 機関の能力(RDM目標を言葉で表現し、それを達成するための彼らの能力) と容量(持続的で効率的なインフラの作成) を改善するという唯一の目的をもって 企画された。 それらの自由な、60日間の恊働活動は、選ばれた 21 の大学に、 RDM サービスとインフラのための事例を作ること、 支援スタッフの役割の再処理と彼らに新しい技能を身につけさせること、 および 利用可能なツールとテクニックについての知識を転送することに関して 手伝いを提供した。 しかしながら、この選ばれた一群の機関は英国の研究主導大学の 5分の1程度しか代表していないが、 個々の恊働活動の条件は、 その経験と成果は公表し、より広いコミュニティと積極的に共有する、 というものであった。

このプログラムの第一段階は終了したが、DCCは候補機関とのつながりを維持している。 また DCC は恊働活動第二弾を開始した。それは より成熟したデータ管理環境の必要性を反映したもので、 その一方では同時に後衛 “long tail” の成長を認識している。 この洗練された恊働活動プロセスはいまや、 ポリシーやインフラの問題に対して特有の技術的解決を対象とする 一連のテーマ的単位を提供する。これは、 既に RDM サービスを作り始めた機関も興味を引かれそうである。 しかし加えて、 支援運動を実施し、戦略を立て、そのスキルベースを再構築することに関して 後発の人を手伝うようにデザインされた、 補足的な生産物のパッケージがある。 この幅広い基盤によって、DCC は助言と手引きの主要な源であり続ける— 出現してきたデータ実践者コミュニティの複数の層の間で交換するための 媒体としてますます行動することによって。

5. 世界的な展望

このコミュニティの会員資格はますます国際的になっている、 と言っても英国以外外は主にオーストラリアと米国なのだが。 両国は、 資金提供者、政府、そして研究コミュニティ内からの圧力が 研究者と機関に影響を与えたのを目撃した。 データの共有と公開、同様にデータの選択・評価・保存を、 一定の期間行うことを、 資金提供者と受領者の間の契約条件として強いたのである。 これらの目標と命令の間の緊張と、適切な反応を再資源化する能力は これらの2カ国の場合においては幾分か異なって言及されている。

豪州と米国の研究データ国家戦略は既に対照的であり (Treloar, Choudhury and Michener, 2012)、これは 両国の政府と研究セクタの環境が大きく違うためである。 豪州のアプローチは国家的データサービス ANDS を開発することであった。 これは、セクタ全体に亘るデータの格納、連合、サービスの協調的フレームワークを 開発する。 内部的な機関的データ管理の手引きと紹介の提供を通じて、 ANDS のパートナー機関は、 データ管理計画フレームワーク、データ再利用ツール、データ管理技能を備えた チームの開発、の実現について、 一緒に前進することを期待されている。

この共通アプローチの採用は、相当な中央資金と3年間の高水準 プロジェクト計画を備えていたこともあり、RDMの輪郭を出現させた。 「ツール、ポリシー、能力を備えたインフラの開発能力と結合した、 国家的サービスと一貫的機関研究データインフラの組み合わせ」 (Treloar, Choudhury and Michener, 2012) を通じて。 第8章で、 それらの機関インフラの一例について、 モナシュ大学の事例研究を添えて、 より詳細な様子を提供する。

ANDS はオーストラリアの研究環境において改善を駆動するために作られたのだが、 その庇護の元に開発されたデータ登録解決法、 Research Data Australia (これは 豪州研究データコレクションのための発見サービスを提供するものである) は、 ANDS サービスの要素のひとつであるが、しかし、 国外のデータコミュニティにおけるサービス開発にも影響を与えている。

英国の大学が、研究データ管理により関与するようになり、 貢献のための能力を開発するにつれて、 UK Research Data Discovery Service に対する申し立てもまた 増大してきている— 研究のやり方を変えることに更なる資材[予算?]を追加しろ、という 申し立てが。 ANDS のアプローチが成功を示していること、および、そのソフトウェアは比較的 成熟していることを認めたので、Jisc と DCC は 2013年に 試験的な登録サービスを完成させる予定である。それは、英国の大学と 、主要な国立および 分野指向のデータセンターによって保持されている研究データの記録を 集積するサービスである。

NSF が 2011年から、助成申請にデータ管理計画を含めるように 要求するようになったにもかかわらず、 米国における変化の動きは、 命令や指令による動きは少なく、 研究支援コミュニティ自身内で 現れたイニシアチブからの動きが多かった。 ほら、先見の明のある図書館員は特に、 データ中心科学から彼らのサービスが受ける影響について 気付いていたし、 彼らの技術的・人間的インフラを再構成することによって すばやく反応した。 英国ではインターネットの普及によって研究者と図書館との溝が広がっていた。 インターネットは情報の入手と使用に関してより自助努力的な研究文化を 育んだのである。 その一方、 米国では、図書館が、 職員をデータ科学者として再訓練することによって、 また Data Conservancy のような多分野、 多パートナーのプログラムを主導することによって、 主導権を掴むことになった (Data Conservancy は 10 の協力機関を含む 2000万ドル、約20億円 のプロジェクトである)。 明らかに Data Conservancy は、科学的データキュレーションという目的を 持っていることから判るように、 分野横断的な発見を達成する 図書館主導の組織的枠組みを理解している。 2013年2月に、オバマ政権は、研究資金提供機関に対して、 連邦政府が資金援助した研究の成果である出版物やデータに対して 公衆がアクセスできることを保証するように要求した。 この異例に高水準の介入は、 データの保全と、科学的使用のためにデータを使えるようにするという Data Conservancy の任務に対して更に 強さを与えるだろう。 あらゆるこのような宣言は、 研究課題においてより積極的な協力者として 自分自身を再発明することに熱心な進取的な図書館員によって 利用されるのである。

Data Conservancy や他のデータ事業はまったく内向的ではないし、 典型的なインフラとサービス供給からなる RDM サービスの立案者のための 更なる情報源を提供するだろう。 DataONE プロジェクト は、たとえば、主にデジタル図書館界から供給されたチームとともに、 生物・環境科学においてデータの保存とデータへのアクセスの改良のための 連合されたデータネットワークを作り出すことを課されている。 DataONE 計画は、 北米以外の大陸にある多数のノードをネットワークに追加することを 許すことで、 世界的インフラを実現するという観点から語っている。

簡単に言えば、DataONE は研究者に、 データとそれに関係するメタデータを格納するための 場所を提供する。 しかし、そのサービスを効率的に使用する手段を研究者に身に着けさせる ために、 DataONE プロジェクトは 相互に関係する多数の活動に取り組んでいる。 データ管理の計画、データ取得の技術・手順・方法、 データ解析とワークフローは、開発中の領域のほんの一例である。 そしてこの[DataONE という] RDM サービス計画に関与するすべての機関は、 賢明にも DataONE や類似の国際プロジェクトを 自分たちのナレッジベースに加えるだろう。

6. 知られていない領域

RDMサービスの作成を計画することは、以前には分離・区分されていた 集団や機能をまとめるだけでなく、高い確率で彼らを 以前は関係が薄かった経営陣や会計用語・会計手続きに接触させる。 時には混乱が生じる可能性があるし、実際に彼らは混乱しているように見える。 それゆえ我々は、 あなたが遭遇すると思われるいくつかの用語の簡潔な説明をこの序論に含めた。 このことは、各用語があなたの立ち上げプロセスを特徴付けることを 必ずしも意味しない。 たとえば、 必要な資源を確保するための損益検討書の開発を選んでもよいし、 完全な事業・運用計画の代わりに 簡単なロードマップだけを使う方針に決めてもよい。 やり方は既に整備されている組織構造と手続きに依存するだろう。 以降の記述は用語を明確にするためのものであり、 用語法を指図する意図はない。

戦略 (Strategy)

論理的な出発点として、 RDM戦略は、 長期的目標と目的、そしてそれを達成するのに必要な行動の方針を設計する、 野心的な宣言であるべきである。 それは、目的を達成するために必要な人的・財政的資源への言及を含むだろう。 しかし本質的には、詳細な予算を決めるよりは現場の設定に係る行為に近い。 戦略の承認は、ほとんどの場合で、機関の中心的事業任務の範囲内で 続行することへの賛同であると理解できる。 戦略はまた、ポリシーとサービスの開発を、 損益分析の提起の誘因として正当化する。

損益分析 (Business case)

ビジネスケースは、正式には、RDMプロジェクトやプログラムに資源を 投入するための議論を表している。 典型的には、 上級管理職による考慮のために提出された、 詳細ではあるが解りやすい文書である。 [文書ではなくて]口頭の説明でも良いだろう。 それは、RDMインフラとサービスを実行しようとする背景と文脈、 予想される利益、考慮されたオプション (採用、却下の理由を含む)、コストの予測、ギャップ分析とリスク予測 (何もしないことのコストとリスクを含む)を説明する。 ビジネスケースを正式に承認することで、 上級管理職は資源の開発と中期的予算の準備を許可する。 この点から見て、 戦略を支えるためのポリシーに取り組み始めることも また適切である。

事業計画 (Business plan)

事業計画は、 RDM開発の中心的方向、および資源を投入して実行するべき活動を 合わせたものであるので、 明確な時間枠とよく定義された文脈の範囲内で、 そのプログラムのための主要な参照文書に使える。 ビジネスプランは外部的または内部的に焦点化されるだろうが、 機関のRDMサービスを開発するという観点では、 主要な焦点は内部にあると考えてよいだろう。 共同体のパートナー、 研究資金援助者、商業投資家、出版社、分野の協力者、という形で、 世界的規模での外部的な関心は存在するものの。

ビジネスプランは、 RDMプログラムの全構成部分を 緊密に構造化されたプロセスとタイムテーブルへと一緒に引き込むことによって、 経営陣によって承認された契約期間に影響を与える。 それには、RDMビジョン、戦略概要、重要な成功要因、気付かれた利益の説明が、 財政的・人的資源の詳細計画、工程表と運用計画、 法律を遵守するための手段の説明、法定と資金提供者の義務、 持続可能性、終了計画と共に含まれる。 RDMビジネスプランは5-10年の期間を扱うと思われるけれども、 識別された重要な成功要因を適切に保つこと (そしてそれを達成すること)を確実にするために、 毎年再検討されるべきである。 承認された予算の繰り越しを保証するために、 機関の計画サイクルの中で再提出することが推奨される。

工程表 (Roadmap)

“roadmap” という用語は、最近 EPSRC のデータ管理期待に関連付けられて いる訳だが、 一定の水準のRDM効率性を達成するために必要な一連の行動を 説明するために使用されている。 理想的には、それは中心的な期待、現在の設備や供給ギャップを説明する; すなわち、 期待を満たし、それらのギャップを改善することを一定の時間枠に亘って なし遂げるための道標であり、 個々の関係者とグループの役割と責任を説明するものであり、そしてそのコストを 示したものである。 それはとりわけ、 EPSRCポリシーの遵守を達成する方法を確認するのに使われている けれども、 roadmap はrdmサービス戦略の幅広い開発のためのベースラインとして 考えられるように思われる。そして同様に、ビジネスケースや ビジネスプランの一要素(そして潜在的な代用物)として 扱うことができる。

運用計画 (Operating plan)

運用計画はビジネスプランのサブセットとして働き、 既定の運用期間(典型的には予算年度)に亘る RDMプログラムやRDM組織の関係部門 (たとえば作業グループ、プロジェクトチーム、図書館、IT部門) の目的と活動を説明する。 それは通常は毎年作成(または更新)され、年次収入予算要求の基礎にされる。 しかしながら、その焦点が次年度予算提出に当てられる一方で、 運用計画には[単年度よりも長期の] 1年以上3年以下の期間の活動・予算予測を 含めて、機関が業績予測と収支を柔軟に調整できるようにするべきである。 運用計画はまた、 ポリシーの変更、会計環境の動向、戦略への適合から生じた 事業計画の修正を強調する(そして承認を求める)ための メカニズムである。

RDMの実行と成長は必然的に機関内の多様な利害関係者を巻き込むので、 運用計画は、 彼らがそれぞれチームや部門レベルで資源配分のための 準備ができるようにするための手段であり(RDM 部門が部門ごとに分離された 予算に依存しそうな場合は)、 同時に、一貫的・包括的な資金提供への要求を可能にするための 媒体として役割を果たす。 運用計画の開発における著しい部門横断の対話の必要性は、それゆえ、 決定的に重要である。実際、RDMサービスが既存のユニットと機能に対して接ぎ木 されている場合は、それぞれの集団は、RDM 戦略に対する自らの貢献を、 別個の部門的計画の構成部分として示すだろう。

方針 (Policy)

RDMポリシーは、 機関が合意した原則が、 望ましい成果を達成するために必要な決定と行動を導くことを 説明する。 方針は戦略なのか計画なのかで混乱する必要はない、 なぜならそれは、それらの成果を達成するために何をするかを説明しないから。 しかしながら、RDMポリシーには、意思の公的な宣言として、 経営陣と上位の利害関係者のコミットメントの表現として 価値がある。 さらにそれは、ポリシーに対して責任があるだけでなく、 ポリシーを可能にするのに必要な資源とインフラを交付するための手段の 実行に対して責任がある意思決定者を識別する。

資本予算/資本的支出 (Capital budget/expenditure)

資本予算は、 (サーバやネットワークのような)物品 または(データセンターやリポジトリのような)物理的設備 の新規導入や入れ替えのような、 主要なアイテムにおける長期投資を可能にするために用意される。 他の単発的コストは資本上の財源にふさわしい; 財政部門からこの問題についてアドバイスを求めることは賢明である。 資金提供者の中には研究助成がデータセンターやRDMサービスの 開発のための資本予算に寄与することを許しているところもある。 資金がこの用途に充てられる前に、 資金提供者のポリシーの明確化が求められることを推奨する。

資本的支出のための提案を考える時に、 どれが最も財政的に得るものが大きいか決定するために、 機関は提出を順位付けしそうである。 それゆえ、 RDM開発プログラムの費用対効果を示すために、 承認されたビジネスケースにおける基本原則を準備しておくことが重要である。

資本財を構成するものは機関ごとに違って良い。 また、 歳入項目への指定が達成可能でより有益かどうかを確かめることは 常に価値がある。 また、資本財は減価償却され維持が要求されることを忘れないことは 重要である。 購入品の両局面はここで説明されるべきであるが、しかし、 維持のための実際の予算は歳入予算に現れるだろう。

歳入予算/支出 (Revenue budget/expenditure)

歳入(または運用)予算は、 RDMサービスの開発と交付に必要な 年次活動費用をまかなう。 これには資本財を除く、人的その他の資源の概算費用が含まれる。 上記のように、RDMチームの潜在的に多様な性質は、 歳入予算の作成において著しい部門横断的協調を呼びかけることができる。

7. 総括

この章では、RDMサービスの供給を、困難のパッチワークとして紹介した。 21世紀の高等教育部門にとっては、デジタル技術の発展は研究実施を 不可逆的に変容させた; またデジタル技術は文脈を変えた、 研究のグローバリゼーションを加速させた新しい研究手法を可能にする 手段になったために。 伝統的な研究支援サービスに対するデジタル時代の衝撃的影響は、 それは第一に大学図書館の観点から理解されたのだが、 変化に対するすぐれた自発性である; 中には、図書館職員にとっては ほとんど死ぬ気で取り組むべき状況だと言う人もいるかも知れない。 確かに、目下、サービス供給と消費者ニーズの間には溝がある。 これは、図書館と研究政策との間の溝に見えるだけでなく、 データの巨大さと多様性に直面した時のITサービスの際立った無力の 証拠でもあるけれども。 しかし我々が指摘した通り、この困難はこれらのより明白な挑戦者にとって だけ存在するのではない。 なぜならこの困難は、広範で類例がないくらい不均一的な一揃いのサービスとサポートに 及ぶから。

この困難はまったく新しい考え方を要求する。 Data-driven Infrastructure という報告書 (この報告書では 企業データと研究データの両方の管理について、多数のやり方が示唆されている) の概要において、 著者の Max Hammond は述べている、 大学は、いろいろなアーキテクチャを作ることで、 データ管理に対する要求の増大に取り組み始めているけれども、 「出現したコンセプトのひとつは、 主としてシステムよりも組織的データに重点を置く、 データ中心アーキテクチャであり、 機関データを扱っている工程間でのデータの共有を促進されるように 計画されている」。 我々が直面しているものは単なる技術的困難なのではない。 それは社会技術的な困難だけれども、しかし主にそれはデータの問題である。 それが新しいところである。

政府による規制が増加し、研究資金援助団体による 干渉がより高い水準になる状況において、 機関はもはや行動を引き延ばすことはできないし、 自分の目的に合うような RDM サービスに対する持続可能なアプローチを 見付けるために行動しなければならない。 本書は、 RDMサービスの構成要素に対する step by step ガイドを提供し、 データ駆動インフラの開発に対する幾つかの革新的アプローチを説明する 事例研究で終える。 考えられるやり方は多数あり、なされるべき決断も多い。 あなたがこれらに着手する時にうまくいくように願う。