“Managing Research Data” 第1章和訳¶
このページは、 Pryor(ed) “Managing Research Data” (Facet publishing, UK) の第1章を和訳したものです。
出版元 Facet社のウェブサイト上で 第1章のPDFが無料公開 されていましたので、それを訳してみました。
それなりに頑張って翻訳したつもりですが、翻訳の正確性について特に 保証するものではありませんので、怪しいところは適宜原文を参照してください。 また文中で2枚の図に言及していますが、このページには載せていませんので、 無料PDFを参照してください。
文中、[]は訳者の補足です。
原著者・出版社に特に許可を得ている訳ではないので、この訳文を転載したり、 第三者に頒布するのは止めてください。 この訳文を読んで内容に興味を持った方は、原著を購入してはいかがでしょうか。 Amazon で 8000円程度で購入できます(2013年8月現在)。
Contents
第1章 なぜ研究データを管理するのか? グラハム・プライヤー¶
考えてみたまえ。毎年およそ 35億ポンドの税金が、英国の大学が請負っている研究に費 やされているのだ。これはかなりの程度の投資であり、一般の人々は当然こう思うかも 知れない。この国家的財産が賢く活用されるようにあらゆる注意が払われるべきである 、と。また当然ながら人々は、このような贅沢な試みから得られた成果に対して、最適 な投資対効果を確保するのに必要な注意が注がれることを期待しているかも知れない。 では、これらの「成果」とは何なのか、実際にはどうやってそれらの価値を量るのだろ うか?
情報専門家にとっての難問¶
昔々、1979年に、デニス・ルイス(当時は ASLIB、英国情報管理協会の長であった)は 、のちに「図書館員の終末の日シナリオ」 (the Doomsday Scenario for librarians) として知られるようになった文章を執筆した。彼の主要な主張は、情報専門家は2000年 までに存在しなくなるだろう、というもので、その意味は、1979年に現役だった種類の 情報専門家(主に図書館員と情報科学者)は、暗に計算機科学に属するような新しい情 報世代によって駆逐されてしまい、かなり早期にいなくなってしまうだろう、というも のだった。結局は、完全にはそうならなかった。文書形態の知識を扱う伝統的な管理人 は、情報を評価・分類・保存処理・保管・検索するための技術の蓄積を利用して、デジ タル形式の知識の管理人へと自分自身をなんとか作り替えた—- 彼らは概して出版物を 扱うことに留まったけれども。しかしこの難問は今も消え去ってはいない。その難問は 規模においても複雑さにおいても容赦なく増大してきており、多くの面でその難問が再 現されている。そしてついに、今日において特に顕著であるが、学術研究の成果はもっ ぱら文書や出版物という形態を通して利用されるとはもはや考えられていない。私たち はここでデジタルデータについて語っている。それは、より伝統的な学術研究プロジェ クトと同様に効果的な管理が緊急に必要な知の事業の構成要素なのである。
この本は、図書館情報コミュニティに対して、地方、国、国際レベルでこの新しい難問 に対処するために何をしなければならないかを説明しようとするものである。また、情 報専門家の伝統的役割を幾らか急激に再編して、その専門性を維持することだけでなく 、数百年蓄積された知識管理能力から研究コミュニティがより完全に利益を得ることが できるようにもすることがなぜ重要なのか、を説明する。
この序章では、過去十年の間に情報の世界において生じた主要な変化で、研究コミュニ ティ内のものと、国及び国際的方針のレベルのものを概観する。ここで紹介する個々の テーマについて、より詳しくは次章以降で説明する。情報専門家にとっては、このよう なアプローチによって、新しい活動の舞台に習熟して理解不足を埋めることができたり 、また新しい仕事場やキャリアの機会が出現したり、という展望が示されると期待され る。それらは本書が提供する成果である。最初のメタファーをより適切に言い直すと、 私たちは今日、何を学術研究の成果として認めるべきなのか、そしてそれらを保存し享 受するために何をする必要があるのか、と問わなければならないのである。
データの洪水¶
21世紀において研究成果とは、圧倒的に、データである。データは主に電子的形態で生 産され、迅速かつ膨大な規模で生成されており、また注目するべきことにその増加量は 指数関数的な比率である。
この状況はすべての分野で見られるようになっているけれども、 最も劇的なのは自然科学であり、年増加率は約 30パーセントである。 生命科学では、単一のヒトゲノム用の生画像ファイルは 28.8 テラバイト と推定されており、これは 30000 ギガバイトに匹敵する(MacArthur, 2008)。 また高エネルギー物理学のコミュニティでは、 大型粒子加速器(LHC) 実験がジェノバの欧州原子核研究機構 (CERN) と 19 の英国の大学の協力のもとで行われているが、 LHC は年間 およそ15 ペタバイト( 1500万ギガバイト)のデータを 生産すると予想されている。 個人が私的にそれだけの量のデータを保管しようとすると、 170万枚以上の2層式DVDが必要になる。 しかし、国際的研究コミュニティで多量のデータを生成しているのは LHC だけではない。
研究プログラムは国家的、または国際的に資金が提供されて実施される。研究費用は膨 大な額に達することがある。 USAでは、自然科学と工学だけで2009年の研究費が 550億 ドル に達した(Britt, 2010)。一方欧州委員会は 2007年から2013年の間に500億ユーロ (615億ドル)を研究のフレームワークプログラムに投入しているところである。それら のプログラムから期待される生産物を世界的状況の中で考慮すれば、今ではよく知られ ている「データの洪水」という語の根源を容易に理解できる。その言葉はそれらのプロ グラムから直接生成されたデータだけではなく、データが世界中の関心あるコミュニテ ィに共有・利用されてさらに増殖することを含んだ説明である。
この点について、人文科学の研究者たちの、自分たちは実はデータを扱ってはいない、 という認知を思い出すのは適切である。その認知は、データはもっぱら自然科学の素材 であるという間違った信念に基づいた主張である。それに対して人文科学者としては、 自分たちはデータの代わりに情報と知識を扱うのだと主張するかも知れない。
しかしデータはすべての情報の基本素材である。情報はすべての知識分野において最低 レベルの抽象概念である。知識は、数、文字、画像などの記号の集合と同一であり、そ れらの記号は、一定の方法で文脈に置かれた場合、伝達可能な情報としての事実・図像 ・概念を表現するものである。そのうえ、デジタル時代においては、人文科学者が一貫 して所有権を主張するであろう情報や知識を他の人に伝達するには、キャンパスネット ワークを使うにしてもインターネット経由であっても、伝達可能なデータに変換した後 でなければ不可能である。
学術研究の特定の場において、データは、観測・実験・仮説の検証のプロセスを含む、 あらゆる組織的な調査の成果物である。文脈に沿って組み合わせて専門的に解釈した時 、データは新しい知識を生み出すだろう。だから私たちは皆、「データを生産する」の である。人文科学者であっても、自然科学者であっても、社会科学者であっても。デー タが人文科学者にとっても重要な仕事であるということは、 2008 年に、英国美術人文 科学データサービス(AHDS) から資金が引き上げられた時に、悲鳴が巻き起こったことに よって明白になった。 AHDSは美術と人文科学の研究・教育コミュニティを横断して、デ ジタル資源の発見、作成、保存を可能にするために設立された国内サービスである。
しかし、データは学術研究による主要な成果物ではあるが、分野によらず、氷山の一角 よろしく、ほんのわずかな比率しか表に出て来ないものである。大学で実施されている 研究の知的生産物として、最も目につきやすく、おそらく最もおなじみのものは学術論 文である。学術論文は実験結果や新しい仮説の証明を配達する手段として久しく確立さ れてきた。学術誌は研究論文を標準的に評価し、出版し配達するものであるが、立派な 雑誌に受理されるためには、しばしば長ったらしく骨の折れる研究プロセスからの成果 物を大幅に、選択的に凝縮しなければならない。ピアレビューを受けるために、多数の 競合論文から選ばれて掲載されるために、また有益でわかりやすくするために、出版さ れた研究は、論証するのに必須であったり、仮説を証明するのに必要な証拠を提供する ような、実験や調査のプロセスのある特定の側面のみを表現することしかできない。従 って、研究プログラム内で生成・収集された広範な実験的・検証的データから、選択・ 削減・濃縮するという厳格なルーチンは結局は出版できる文書を減らしてしまうことに なる。その文書は熟慮された重要な論点を配達することに繊細に調節されてしまい、そ の論文の元になった大容量のデータの大部分は隠されて利用できない状態のままになる 。
出版プロセスの制限に合わせるために研究の成果物を切り詰めることに対してこのよう に焦点が当てられた場合、プロジェクトの活動期間中に収集・生産された富に満ちたデ ータから可能な限りの価値が絞られることを期待するべきなのだろうか。それは望み薄 だろう。また、元々の研究者によって、また他の人によって更なる使用を促進するよう な状態のままにしておくことが合理的に期待出来るだろうか。たぶん無理だろう。
データの富と計画の長所¶
これらの初めの観察から、21世紀のデータの洪水という現象を対処も管理もしないまま にした場合、重大な財政上の浪費と機会損失が生じるだろうことは明白である。研究プ ログラムに投入された大量の投資(時間、知的な労力、現金)を考える時、生成された データから、よく磨かれた論文(または一連の論文)から抽出できるよりも多くのこと を引き出すことを期待しないべきなのか? 確かに、データの生産には高い費用が かかるので、データは 知的な鉱山から生じたくず鉱物のごとき廃物として扱われるべきではない。これもまた 単純な財政上の議論なのではない。当然の注意がなかったり、引き続き再利用・転用す るためにデータセットを体系的に成形しなかったりという、そのような元データの軽視 は経済的、社会的、科学的な前進における大きな機会損失を引き起こすであろう。研究 データの価値は単純なそろばん勘定では量れないのである。
大学からの研究成果物が私たちの生活や心身の幸福に直接影響を与えることは、単なる 偶然の出来事ではなく、国レベルで下される戦略的決定の結果である。たとえば、英国 工学物理科学研究協議会 (EPSRC) は、情報技術、構造工学、物質材料科学などの広範囲 の分野に研究資金を提供しており、また研究を社会や商業活動に関連する成果に結び付 けようと努めている。 EPSRC は、 2008年から2011年の計画において、エネルギー、電 子経済、次世代保健における進歩を維持するべく 19億ポンドの研究テーマを認定した。 それは公益に利する結果を生み出そうという決意と結び付いており、[単なる研究助成 と言うよりは]公共投資である。公益にどれだけ役立つか、ということは、研究から生 成されたデータの潜在的・決定的な価値を示すための重要な指標になる。
主要な資金提供者は、近年、より公然と、研究データは資産なのだから注意が注がれる のは当然である、と期待している。その期待は、研究助成申請にデータ管理計画を含め ることが要求されるようになったことからも明らかである。彼らのメッセージは明白で ある。データはもはや、家具屋における削りくずのように、作業台の上に置き去りにさ れるべきではない。学術生産物の完成品を価値のある管理された部品のように扱い、耐 用期間を延ばして使いやすさを保つことがますます期待されている。
このメッセージは、資金提供者たちが共通の利害を持っていることを示している。その ことを協調するために、英国科学協議会 (RCUK) はななつの「データポリシーの共通指 針」 (RCUK, 2011) を公開した。これは、個々の科学協議会のデータポリシーを包含す る枠組みを提供するという意図を持って作られたものである。「研究データの公表には 法的、倫理的、商業的制約がある」ことを認識する一方で、その指針はまたこうも強調 する、「公的資金による研究データは公共の財産であり、公共の利益のもとで生産され たものであって、知的所有権を傷つけることのない時機を得た責任ある方法のもとで、 可能な限り緩い制約で公開されるべきである」と。またその指針は、不適切または時期 尚早なデータの公開に対して慎重であること支持するように、また情報源についての適 切な謝辞を促すように、注意している。また、「公的資金による研究データの管理や共 有化の支援に公的資金を使用することは適切である」とも指摘している。この指摘は、 研究の資金提供者としての協議会の役割との関連性をきちんと示している。
今日英国では、ほとんどのドメインベースの研究資金提供者は 資金申請者が研究成果物のアクセス、管理、長期的キュレーションの計画を 説明した声明書を提出することを期待する。そのアプローチは 個々の資金提供者によってさまざまである。各アプローチについては DCCウェブサイトにある 個々の提供者の要求事項の批評的分析の中で説明されている (www.dcc.ac.uk/webfm_send/339)。 美学及び人文科学研究協議会(Arts and Humanities Research council, AHRC), 経済社会研究協議会(Economic and Social Research Council, ESRC), 自然環境研究協議会(Natural Environment Research Council, NERC) は それぞれデジタル資源の長期的持続可能性に対して 焦点を当てているけれども、生物医学の資金提供者、 生命工学および生物科学研究協議会(Biotechnology and Biological Sciences Research Council, BBSRC), 医学研究協議会(Medical Research Council, MRC), Wellcome Trust は、研究資源のデータ共有潜在能力により関心を持っている(DCC, 2011)。 アプローチがそのように異なることは、 おそらく個々の研究文化や研究目的の違いの現れ である。実際面ではそれはまた分野横断研究の申請書の著者に対して追加の難問を生産 しているかも知れない。その著者は、異なる資金提供機関が定義しているとても異なる データ管理計画の要項を満たす必要があるだろう。この様々な要項に取り組むための方 策は5章でやや詳しく議論する。
資金提供団体がまたナショナルデータセンターの形態でインフラサービスを提供する( これについては8章全体でより詳しく説明する)時、これに預けるためにデータを差し出 すことができる。またこれを通して研究者は構造化されたキュレーション管理プログラ ムの支援を享受するだろう。その時、データ管理計画は、データをそれらのセンターに 最終的に引き渡すための効果的な手段に使える。しかしそうでない場合、資金解放後に 合意された計画が厳格に履行されることを確実にするためのにんじんやムチはない。こ の監視機能の欠如は英国の資金提供者に特有のものではない。 USAでは NSF から以下の ように告知された。 2011/1/18 以降、NSFに提出されたすべての研究申請は 2ページか らなる補足のデータ管理計画を含まなければならない、と。それは「この申請は研究成 果の普及と共有についてのNSFの方針にどのように従うのか」(NSF 2010) を説明するも のである。このデータ管理計画は、申請がNSFの方針に則っていると NSFの検査官を説得 するかも知れない。しかしこれは、長期的なアクセスと再利用のために、生産されたデ ータを適切に作成し、管理し、保存することを確実にすることからほど遠い。[NSFの方 針に]従うという前倒しの宣言を確実に遵守させるための処罰は、まったく課されない のである。だからもし資金提供機関が厳格に対処しなかったり、大多数の分野がナショ ナルデータセンターのサービスを欠いているならば、私たちの研究データ生産物に対し て誰が当然払うべき注意を注いでいるのだろうか —- 学術研究コミュニティそれ自体 か?
研究のライフサイクル¶
研究のライフサイクルは、直線モデルや循環モデルとしてさまざまに説明されてきた。 しかし実際のところ、そのライフサイクルは、 調査に関する複数のサブサイクルから成り立っており、 そのサブサイクルは、 一連の活動の全体において急激な進歩を強化するのに役立つような 道具や方法論や反復される一連の手順を含んでいる。 このプロセスは後述の図1.1に描かれたパターンによってより簡単に 説明できる。 図には6つの局面が連続している。通常は発案や仮説から始まり、 生産物の引き渡しで終わる。生産物はほとんどの場合は出版されたレポートまたは 他の学術的文章という形式である。 かつてないほどの程度で出版されたレポートには付属的データが付随している。 そのデータは、研究プログラムの間に生産されたデータセットを含むファイル、 または補足的情報や手順を伴ったデータセットへのリンクという形態である。 それら自体は将来の調査を活発にするための活気を提供するだろう。
そのライフサイクルのどのフェイズおいても、 研究者はデータを集めて使用したり、またあるいは新しいデータを生成したりする。 最初のフェイズで、典型的には、仮説を構築したり研究プログラムを計画する時、 既存の公表データを集めて精査する。そのうちいくつかは準備のために使用され、 他のデータは新しい研究のための新しい材料として選ばれるだろう。 その後、研究プロセスには、公表されている情報源や同じ分野の協力者から 更なるデータを得る必要が生じるだろう。 そのデータをこの研究プログラムが示した新しい文脈内で推論的に再解析したり、 あるいはそのデータを権威あるベンチマークとして比較対象とし、 新しい研究の成果物を評価するために利用するのである。 このフェイズも調査や実験から新しいデータが生産される源として重要である。 図1.1に描かれているように、6つのフェイズはどれも、 それぞれデータの使用や生成に依存しているという点で、 ある程度はデータセントリックである。 とりわけ再利用フェイズは、 生産・選別・統合されたデータが新しい研究への機会を もたらすかも知れず、特にデータセントリックである。 この最後の機能は知識の集まりを発展させるのに たぶん最も重要であり、 更に説明する価値がある[ので説明しよう]。
ある研究者グループ、たとえばシステム生物学者にとって、他の人々の研究データが利 用できることは、自分たちの作業のプロセスにとって重要以外の何物でもない。システ ム生物学者というのはしばしば学際的な経歴を持っているものだが、彼らは相補的な専 門家たち(たとえば生命情報学者や生物物理学者や数学者)を含む複雑なチームの中で 作業している。彼らの仕事のやり方は、世界的な実験的・理論的研究コミュニティ内で 生成された巨大なデータセットから既存の知識を取り出し、それをモデル化して新しい 知識を生産する、というものである。例外的な事例かも知れないが、ここでまた効果的 なデータ再利用として広く引用されている事例に言及することは価値がある。それは、 前世紀の船舶の航海記録から抽出された気象記録をデジタル化したことによって、元々 はその目的のために生成されたのではないデータが今や気候変動の研究に使用されるよ うになり、新しい研究が可能になった、という例である。
その明白な「データ中心性」にもかかわらず、 図1.1のダイアグラムは 研究者を、データ管理者としてよりもむしろデータの利用者や生産者として表現している。 そして何かそれ以上のことを期待するべき理由はあるのか? 2009年に生命科学の研究者について Research Information Network (RIN) が行った研究で観察されたように、 「データのキュレーションは、研究のライフサイクルの中のほんの一要素にしか過ぎな い。計画を立ててデータ管理をすることがまだ標準的な慣習になっていないという証拠 はほとんどない」(RIN, 2009,49)。データの入手・生産には骨が折れて高くつく傾向が ある。集めるのに何年もかかる場合もあるし、しばしば、協力者や同じ研究をしている グループと込み入った関係を注意深く確立することに依存する。さらに、高度に革新的 な研究分野では、データの生産・操作のための新技術がまず開発される必要があると思 われる。これらの問題は研究者[の労力]を奪い取るだろうし、研究者がこの問題のた めに発揮できる技能は、しばしば限られたタイムスケールの中で行われる研究の実施の ためにデータを取得することであり、長期に亘ってデータの管理やキュレーションを行 うことではないだろう。
研究者にとって、職業的報酬をもたらすものは、データキュレーションの有効性よりも 、むしろ研究成果物の品質である。共有データから生み出されるかも知れない価値につ いて慎重に感謝される場合もあろうが、共有を目的としてデータを準備するのには労力 が必要であり、その労力はたいていは歓迎されない。なぜならそのような準備には、研 究を実施するための研究者の基本技能の中には必ずしも存在しない技能が必 要だからである。
データキュレーションのライフサイクル¶
しかし、完全で効果的なデータ管理プログラムの必要性は、研究ライフサイクルに 描かれたものとそれほど違いがない。 DCC のキュレーションライフサイクルモデル (図1.2, DCC, 2009) は、研究ライフサイクルに似ていて研究概念化ステージに決定的な開始点を 持っているが、 キュレーションの全必要フェイズが、正しい順序で 計画され実行されることを確実にするように 設計されている。
データ(十進形式とは対照的に、 二進形式で記録されたデジタル情報を意味している。 ここで二進形式とは、 コンピーティングデバイスが情報を格納し管理するために利用している 数値フォーマットである) は、キュレーションライフサイクルの 中心に示されている。 それはデジタルオブジェクト(たとえば、テキストファイル、画像ファイル、 音声ファイル) とデータベース(コンピュータシステムに 格納されたレコードまたはデータの構造化された集合) の両方を含む。 このモデルを支援するために、 たとえばメタデータの割り当てのような、 データの保存とキュレーションに必要な、 完全なライフサイクルの 活動を説明した 注釈が与えられている。 これらの活動は、他の一連または臨時の活動の説明と一緒に、 2章により詳しく説明されている。 再外周の輪において、研究ライフサイクルの暗黙の影響のもとで、 一連の活動はキュレーションの計画から始まり、 データの獲得と保管、最終的にキュレートされたデータに幾らか予測された変換をして 終わる —- 変換はそれ自身であり新しい始まりであるけれども。 加えて、3つの臨時の活動もデータキュレーションの概念に対して 極めて重要なものとして示されている。 というのも廃棄・再評価・移送は、 より長期的な視点を可能にするプロセスにとって本質的な、 不可欠の決断事項だからである。
データ廃棄に関する決断の手順では、 データセットの潜在的な長期的価値の変化だけでなく、 法律によって一定の種類のデータが保存期間が決まっていることに 注意が必要である。 法的規制により、ここでたとえば機密性が問題であるとすると、 データを確実に破壊する方法を使うように指示されさえするかも知れない。 すべての場合で、長期にわたりデータをキュレートするコストは深刻なな考慮を 要求するだろうし、 定期的な再検討はコスト抑制を達成する手段を提供する。 再評価もまた、データが正式なバリデーション手続きを満たすことに 失敗した場合に必要である。 と言うのも信頼出来ない、頑強でもないデータを保持し続けるのは 無駄だからである。 最後に、データの移送は、再評価または廃棄の決断に続けて実施されることがある。 そして通常は異なるフォーマットへの変換を必然的に含む。 もしデータが変更されたストレージ環境で機能し続けるべきであるなら、 変換は必須である。もしくは、 ハードやソフトの旧式化からデータの不変性を 保証する必要がある場合は変換が必要である。
ライフサイクルモデルの意図は明白である。研究データの管理、保存、 そして最も重要なのは、研究データに価値を追加し、また研究データから 価値を取り出すことを、最適化されたライフサイクルを通してどのように 達成するべきかを説明することである。 それは、効果的なデジタルキュレーションの 構成において必須要素は何かと尋ねるように 私たちを促すことで成される。 さらに、どうしてそのモデルで使われている用語はすべて データの取り扱いやデータそれ自身の必要性に関するものなのか、 に注目せよ。 これは図1.1で提供された見解を超えたステップである。 図1.1では、データは研究プロセスを育てて可能にするような 匿名の生産要素として示されている。 DCCモデルの方では、研究よりもデータの様相の変化が協調されている。 DCCモデルでは、データの獲得や仕上げは、 研究プログラムの個別的特質とは独立した構造を持っている計画に 従って行われることになっている。 このモデルにおいて、雰囲気[色調?]は養護を暗示する。 すなわち、データは精力的で継続的なプロセスに従って 養育され、大切に扱われ、保護される。 ここにはひとつ、固有の遺漏がある。 この一連の流れや活動については充分に詳しく説明されているが、 けれどもこれらの保全行動を可能にし実行することに対して 誰が責任を負うべきかについてははっきりしない。
維持されている専門家・長期的展望¶
デジタルキュレーションは、研究データセットの 長期的研究価値を保全するための能動的管理を必然的に含んでいる。 しかしデジタルキュレーションという概念はまだ、 研究コミュニティの大多数に対して限定的な魅力しか持っていない。 それらのコミュニティは、受け取っている資金が短期的で、人員の異動が 激しいからである。 典型的には、分野内、あるいは分野間で、人員たちは長い年月の間に流動的に、 連合し、離ればなれになり、また再連合する。 彼らが引き受けている研究が排他的かつ直線的な道筋を辿ることは稀であり、 ひとつのコミュニティとして見ると、[経時的に、資金や人員の異動に伴って] 彼らの忠誠と関心のパターンは変化を見せるだろう。 それゆえ、 データについてより長期的に計画を立てて扱うことに 継続的に携わったり、新たにその機会を得たりするには、 違った種類のコミュニティに属さなければならない。 すなわち、組織として安定的・持続的であり、 短期的な目標や資金配分の性質を越えて、共通の研究テーマやプロジェクトに対して 計画や見積もりを立てるための 自由と能力があるコミュニティである。 DCCキュレーションライフサイクルモデルで使用されている用語法はまた、 伝統的に研究者に関連づけられているものとは 違う種類のスキルセットを示唆している。 それは、データを能動的に使用することよりも、その代わりにむしろ データを管理することをほのめかしている。 それは必ずしも著者のDCC サラ・ヒギンスの意図ではなかった —- このモデルは[確かに、研究者ではなく]情報の実践家や活動家や図書館員と 最も強く共鳴するけれども。 彼女は次章でキュレーションライフサイクルに込められたさらなる洞察を 述べる。
自分のデータをより良く管理する必要性を認識したこれらの研究者は、 ジレンマに直面している。 彼らは、 データ管理(またはキュレーション)の技能に関して、 彼らの研究に必要な基礎的技能以上のものを 身につけて使用する責任を避けようとすることがある。 その一方で、 Joint Information Systems Committee(JISC)とRINが支援した調査において 研究者たちは一貫して述べている。すなわち、 研究グループ支援のために雇用された情報専門家は、 その機能をちゃんと果たすために、 専門分野の知識をかなりの程度必要とするだろう、と。 冷淡に解釈すれば、この推測はこの時点で、 データキュレーターに 研究者それ自身とほとんど同レベルの専門技能を期待し、 そのために、専門的に訓練された情報実践家のほとんどを、 大学の研究チームへ データ管理支援を提供することから除外する。 こうあるべきではない。けれども、このような軽蔑的な態度は、研究コミュニティの自 給自足的な文化によってひどく増強されており、自分自身や信頼する同僚をセントラル サービスよりも当てにするこの傾向は研究コミュニティの風土病である。
文化的障壁¶
StORe プロジェクト、これは JISC リポジトリプログラムからのイニシアチブだが、 このプロジェクトはこの文化を変化を妨げる重大な障壁であると立証した。 研究情報行動についての最近の研究の中で最も初期のもののひとつである、 7つの自然科学分野の 2006 StORe 調査は、 研究者たちが自分たちのデータを管理することに対して、 「それは私の責任である」 また、より見下すようにして、「大学は我々の学部に図書館員を割り当てた、 しかし私は彼女のサービスを使っていない」 というような断固とした宣言によって、 議論の余地のない権利を主張していることを 発見した (Pryor, 2006)。 このような根深い態度は、研究データの工程表と連動するべき使命を持った熱心な情報 専門家に対して深刻な難問を引き起こす。また、情報専門家が前進できる状態になる以 前に、彼らが克服するべき二又の難問を持っていることが明らかになる。第一の難問は 、その研究コミュニティとより対等に尊重しあうことを回復することである。その対等 性がなければ彼らは信頼を欠くだろう。第二の難問は、研究者や研究プログラムにとっ て実体的利益になりそうなものを作成することに対し、彼らは必須の貢献ができる、と いうことを信じさせ明示することを彼らに要求する。前者は後者に続くべきである。し かし情報専門家は能動的に先導しなければならない。彼らは研究者が訪ねて来 るのを待つことはできないのだ。 確かに、研究者は、情報獲得の難易のような問題について 憂慮していることを認めるかも知れない。 しかし、 彼らの研究グループの外部からの援助を求めることや、 Google を使った即席のセッションよりも多くのことに携わること に対して時間を取らない、それが研究のペースというものである [要するに、研究者には時間の余裕がない、ということか]。 それゆえ、これらの懸念について学ぶことや、その懸念を誠実な助言や援助を申し込む ための口実として利用して、率先して研究コミュニティと再接続するための第一歩にす ることは、情報専門家の責任である。
図書館員の流用¶
近年、専門的情報仲介者の伝統的役割は、 ユキビタスなオンライン資源に対する直接アクセスを与えるサービスに 大きく入れ替えられた。 故意ではなく、使いやすい検索エンジンに頼ることにより、 多くの研究者は図書館の主要な利用者ではなくなってしまった。 もちろんこの行動は研究者に潜在的なリスクをもたらす。 Google のような汎用の検索エンジンには限界があり、 研究者と情報専門家を再接続できれば逆に、 情報発見に対して有益な結果となり、研究プロセスは促進されるだろう。 それにもかかわらず、この依存状態の変化の結果として、 図書館と図書員は第一に学部学生たちの需要を助ける ことに結び付けられるようになった —- 何百年もの間彼らは、 鑑定・選択・注釈を含む、 情報と知識の分類・組織化における 技能の代表者として認められ、 より威厳ある役割を占有していたのに もかかわらず。 その役割において、彼らは長らく、 情報の保管と保全に関して専門技術の当然の供給源であった。 また、 情報の発見とダウンロードのためのオンラインツールが最近成長する までは、情報の取り出し、配布、共有、アクセス管理のための 彼らの能力は無敵であった。 この能力に関する真の目録は、本章を通して繰り返されるモチーフになるであろう。 この目録は研究データの管理に依然としてとても適切であり、 公開されうまく使われることを待っているツールキットを好意的に説明している からである。
USAの状況はいくぶんか英国よりも励みになる。 たとえば2010年春、バージニア大学図書館は、 新しい戦略的指令を実行し、 データ管理に対する構造的支援の提供により焦点を当てることを選んだ。 その主要な目的は、 図書館職員にデータリテラシーを構築し、 大学の研究者が実際に 自分たちのデータを管理している方法について知識を開発し、 能動的な相談と協調のための機会を作り出すこと、である。 例外なき予算縮小に直面している状況で、この戦略は、その機関にとって 最大の価値を間違いなく生産するサービスを明白にすることを要求した。 また同様に、 新しい体制の利益となるように 既存のサービスを中止・変更するという、 困難で根源的な決断を要求した。 誕生したものは、新しい科学的データ相談グループ (Scientific Data Consulting Group)である (University of Virginia, 2011) である。 このグループは主に、 「流用」(re-purposed)された既存の図書館職員から構成されている。 バージニアの研究コミュニティは このイニシアチブを受け入れている、と 仮定しなければならない。 [つまり、研究者の真意は不明だが、組織改革の状況から考えて、 データ管理に図書館員が口出しすることを研究者が受け入れた と判断するべきだ、ということか] これはミネソタ大でも同様である。
ミネソタでは、データ管理計画作成支援プログラムが NSFの宣言に先立って積極的に開始された。これは、2006,2007 年に同大で実施された、 研究者のニーズについての研究から出された結果に基づいて作られたものである (University of Minnesota, 2007)。 これらの研究に対する反応は概して肯定的であり、学部職員からのこのような 意見を得た、「もし組織化とかファイル管理とかのワークショップがあれば 行くんだけどね。ここの図書館はそれをうまくやるよね」 [図書館が持っているノウハウを学部職員等にも伝授しろ、ということか] 。 バージニア大学のイニシアチブもまた成功しているように見える。 バージニアの研究者たちがNSFのデータ管理計画の要件を満たすように 援助するための手引きが作られた。 そして同大学は、 研究者によるデータ管理計画生成を助けるような柔軟なオンラインツールを 開発中の、主要研究機関のグループに参加した。 このグループには 英国 DCC が含まれている。 ちなみに DCC はこのようなオンラインツールを 最初に開発した機関であり、それは www.dcc.ac.uk/dmponline から ダウンロード可能である。
危険な仕事¶
英国では、研究コミュニティの要求は同じくらい緊急である。 英国特有の懸念は、それらの満たされていない要求の一部が どのくらい公然で基本的なのか、である。 Incremental プロジェクトによって請負われた調査研究によって 記録された実践を見てみよう。Incrimental はケンブリッジ大学図書館と グラスゴー大学 Humanities Advanced Technology and Information Institute(HATII) の共同研究である。 一連の徹底的な聞き取り調査から、Incremental は、 厳しい危険な状態に置かれている研究データセットが存在する 範囲を文書化した。 おそらく最も深刻な驚異は、両機関の研究者は自分自身のデータさえ 見付けるのに困難を抱えているということである。 この原因は主として、 一貫していないファイル構造と命名規約を使用していること、 決定的に重要な研究データを安物で脆弱なメディア (フラッシュドライブのような)に格納するという 大規模で危険な実践、 ネットワークストレージ設備を少しの領域に不十分に配置すること、 である (Incremental, 2010)。 既にして困難であった状況は、 格納されたデータの性質や状態を説明するための文書が ほんの最小限しか作成されていないことや、 驚くべき事に、データバックアップのタイミングや手順についての認識が 著しく不十分であることによって、 一層酷くなったことがわかった。 Incremental は即座に実際的に反応した。 簡単で明白で人を引きつけて利用可能な援助と支援を求める研究者の需要に対して、 データの制作・保管・管理についての使いやすい映像の手引きを生産することで 対応し、 さらにデータキュレーションの原理と技術についての分野専門特有の訓練によって支援した。 しかし、この研究レポートでは、基本的なデータ管理が実践されていないことが当たり 前になっていることについて説明がない。現時点で各機関から提供されている技術的・ 人間的なインフラは、研究者たちのデータ管理の要求を満たすにはしばしば不十分であ り、その結果として研究者たちは、利用可能な限られた時間、技能、資源でもってでき る最大限のことをすることを強いられている、という認識を別として。
国のセンター、サービス、戦略¶
情報と研究、両コミュニティの間に架け橋をかけるための手本として、 Incremental は成功を示した。 しかしそれにもかかわらず、それは限られた視野とかなり具体的な場所に関する 試験的プロジェクトである。
英国では概して、情報専門家たちの実際の能力と、研究者たちの想像上の情報専門家た ちの能力不足との間の、明らかな隔たりを埋めるのに十分な資源を明確にすることは、 困難な仕事のままである。そのような状況のもとで、その難問に対してより良い位置に ある代替団体はひょっとしてあるのだろうか? Incremental は、 JISCの研究データ管理インフラプログラム(JISC,2010)のもとで資金提供された、 8つのプロジェクトのひとつであり、 Incremental の発見は他のプロジェクトに共鳴する。 このプログラムは、英国の高等教育部門に研究データ管理のよい実践例を提供するとい う戦略的な野心を備えた、気前良く援助されたプログラムである。しかし、この啓発的 なコミュニティを越えて、幾つかの国立機関がデータキュレーション分野においてすで に設立されている。とりわけデータセンターについては前述した。 そのひとつ、UK Data Archive(UKDA) は 40年以上運営され続けており、英国の社会科学 ・人文科学における最大のデジタルデータコレクションをキュレートしている。
専門技能を持つ尊敬されたセンターとして、これらのデータセンターはデータ管理の 実践についてのガイダンスだけでなく、そこに預けられたデータの保管、保全、 アクセス管理のために必要な高価なインフラも提供する。 センターはまた、 研究協議会(概してセンターの主要な資金源である) がデータ管理方針を開発することについて、 影響を受けたり与えたりもする。
たとえばUKDA の場合、ERSCの研究データ方針(ESRC, 2010)の草稿作成 に関与することで、 UKDA の職員が、 彼らの技能を利用して実地体験に耐えることができたし、 DCCのような他の専門的団体と相談して 研究助成金受領者やERSCやデータサービス提供者の責任を 明確にするような 情報豊富で実践的な文書の出版を主導すること ができた。 これは、 学術界内で大きな関心が寄せられることがほとんどない、 政治的命令の合成品というよりもむしろ支援や手伝いのためのツールとしての 方針を構築する訓練であった。 同様に、Natural Environment Research Center(NERC) の データセンターネットワークは、 統合化されたデータ発見サービスを支援する。 このサービスは、 NERC が資金援助している環境研究のいくつかの要素を扱っており、 幅広いデータ利用者と NERC研究コミュニティとの間の 信頼出来るインターフェイス を提供している。
英国内でホストされているセンターにはこの他に、 考古学データサービスと 欧州生命情報学研究所がある。さらに複数の分野専門サービスが 開発中である。たとえば医学研究協議会が資金援助しているプロジェクトを 支援するためのサービスがそうである。 しかし、それらの機関が 個々の専門分野で生産された知識の確実な管理人として 価値があり成功しているのにもかかわらず、 それらの機関は活発な研究分野の全体を代表してはいないし、 全分野の役に立つという訳でもない。 また、 優先的に受け付けるデータの範囲を選択するという手法が採用される場合には、 それらのサービスは各自の対象分野の全体を必ずしも包括しない。 また我々は、彼らの管理人としての職分を 保証された持続的なものだと独善的に考えるべきではない。 高い評価を得ていた AHDS が2008年に終了したのを見てみろ。 これは AHRCによる冷淡な予算削減の直接的な結果だと報告されている。
適切な研究データ管理のための実例は財政的または倫理的な見地から 改善することができる。 しかし、研究データの洪水を管理するための役割や責任に同意することや、 一貫性のある手法を可能にすることは、 依然として、 幅広い利害関係者の活発な協力や関与を必要とするような、 複雑な問題のままである。
英国では、研究データコミュニティに対して一貫性を注入するための イニシアチブは JISC によって講じられ、DCCを通じて実施されている。 DCC はJISCから資金を得ている団体で、 JISC の継続的アクセスとデジタル保全戦略 の中心的な構成要素として2004年に立ち上げられた(www.dcc.ac.uk/about-us/history-dcc)。 2010年後半に、 英国研究データサービスを作成するための さらなるイニシアチブを収容するために DCC の役割は拡張された。 このサービスは Higher Education Funding Council for England(HEFCE) から資金提供されていて、 それによって2011年から、 新しい研究用国家クラウドコンピューティング・ストレージインフラ の支援のもとでデータ管理サービスを提供する予定である。 [現時点でどういう状況なのか不明。Google で検索すると、2009年ころの 文書が多く出て来る。www.ukrds.ac.uk にアクセスすると、化粧品通販サイトに 転送される(2013/8/28時点)]
デジタル世界の反対側では、オーストラリア国立データサービス (ANDS) が10年計画に着手した。この計画は オーストラリアの研究データのコレクションを 凝集的な研究リポジトリネットワークに変換するというものである。 同時に、オーストラリアの研究データ管理者を訓練して、 よく整備されたデータ管理方針に従って 研究データの生産・管理・共有ができる 熟練者になるための技能を身につけさせる。 研究データ管理者という概念はここでは包括的な概念である、 この概念のもとで ANDS プログラムは、 研究データの所有権に関する幅広い問題と、 [データの]所有・保守に伴う役割・責任について取り組もうとしている。 [ANDSは] 実験データ、研究データ、公表済みデータの キュレーションにおける「冴えたやり方」を国家的規模で奨励する ために加工された 野心的なプラットフォームである。
ANDS は、トップダウン型の政府援助のプログラムであり、最初は2007年に 教育科学訓練省によって提案され (Australian Government, 2007)、 そして 2008年に連邦工業革新科学研究省(DIISR)によって導入された。 DIISRは、協働的研究インフラ国家戦略 National Collaborative Research Infrastructure Strategy(NCRIS) のもとで ANDS を設立するための 協定をモナシュ大学と締結した。
2年間で4800万オーストラリアドル(4700万アメリカドル、約46億円)の資金を 「オーストラリア研究データ入会地 Australian Research Data Commons (ARDC) インフラを作成し開発するために」 提供することが 2009年に合意された (ANDS, 2011)。 オーストラリアおよび USA における研究データ管理のための国家戦略について より詳しい議論は本書の第 9章で提供される。
しかし、[国家戦略が]どれほど前向きで善意に満ちていたとしても、 従来のような独立した研究者をなだめすかして、このような国家戦略に参加して 支持してくれるよう誘導が成功することを期待出来るだろうか? [成功のためには]かなりたくさんの実際的な支援が量産されなければならない、 [その支援にかかる]債務が担保されて すべての潜在的利害関係者に対して (中でも特に、体系的に管理されたデータという概念への参加は、自分達にとっては新 しくて厄介な仕事が増えることと同じことかも知れない、と考える関係者に対して)利 益があることが充分に実証されるまで待たずに。 ある人たちは、彼らの研究データに対するこの新しい関心を、 [データに対する彼らの]伝統的な 権利と実践に対する脅威とさえ考えるかも知れない。 しかし、雇用機関が知的所有権を主張するにも関わらず、 大学の研究者が生産・収集したデータは、 彼らの知的な資産であり、 効果的な研究者としての業績の基礎であり、 キャリアの前進の土台となる原料であると みなされる。 現実的不安であろうが想像上の不安だろうが、 データに関して認められた所有権が危険にさらされている という不安は事前に緩和されなければならない。
審判の日の後に¶
このような難問は私たちを近代的なデータ専門家や情報専門家の役割に戻す。 それらの専門家は、今もなお、 図書館員や情報科学者の時代遅れの洞察の残骸から産まれるが、 しかし国家的、国際的戦略が量産されるようになる時には彼らは 旗手役として最も相応しい候補である。 1979年に描かれた図書館員にとっての終末シナリオが間違いであったことは 疑問の余地なく証明された。 この職業は、デジタル時代の進歩につれて新しい役割を発見したり開発したりして、 適応し変化し続けて来た。ずっとそうやって来たのである。 そして我々はメディアライブラリアンやシステムライブラリアン について耳にするようになった。電子図書館の導入に立ち会ったり 最近では情報リポジトリの施行を見たりした。 これは絶え間なく変化し続けてきている役割なのである。
しかしこの流れと変化のほとんどすべては出版された情報の文脈に見られるものである。 データには見られない。 確かに、私たちのより因習破壊的な機関に雇用されているデータライブラリアンは 少数である。英国内に5人いると、そう遠くない昔に推定された。 彼らは主として「図書館コミュニティ出身で、データのキュレーション、 保存、保管の訓練を受けており、それらを専門的に扱う」(Key Perspectives, 2008) 個人である。 しかし図書館業界はまだその変転に対して心から傾倒せずともよい。 我々の大学の図書館学校は、 大雑把に知識管理や情報管理と呼ばれているものについて しっかりした教育を提供するだろう。 しかし、[その具体的内容である]ウェブ検索エンジン、 情報システムやデータベースデザインに関する 込み入った訓練をしても、 この新しい専門家たちは 研究指向の大学でのデータ管理者の職務に耐えられるような視野を ちゃんとは身に付けない。 にも関わらず、彼らが[ITスキルに加えて] 情報の分類・組織化・鑑定・選択・注釈・保全・保管・取り出し ・配布・共有・アクセス管理についての本質的に適切な技能の長いリストを 身につけたら、 優位な立場を独占的に占有するような職業となる。 重要なので繰り返すが、 実際は複数のリストである[a long list と some list がどう違うのかわからん]。 そして[そのリストの]ひとつは、 DCCのデータキュレーションライフサイクルモデルに対する暗黙の活動を 密接に反映している。
本書の後続の章ではより詳しく、この導入部で提起された多くの問題に取り組む。 そしてさらに、 データ管理計画やデジタルキュレーションの持続可能性というような 典型的なテーマについて、 旧世界[欧州]と新世界[米国]における国家方針・国家戦略の分析を含めて、 実際的な助言を加える。 [本章の章題である]「なぜ研究データを管理するのか?」という疑問については 答えを理解して頂けたものとして話を進める。 我々は、本書の読者が即座に納得すること、 そして良い議論に基づいて、読者がまた研究データ管理運動の熱心な支持者に なりたいという気になることを期待する。