科学的キーワードを LTER メタデータに追加する際の虎の巻

この文書は US-LTER の “Best Practices for Adding Science keywords to LTER Metadata” の抄訳です。

原文は http://im.lternet.edu/VocabBestPractices にあります。

科学的キーワードを LTER メタデータに追加する際の虎の巻

2013/05/22

メタデータの文書にキーワードを加える目的は、あなたのデータを 使いたいという研究者がそのデータを効率的に発見出来るようにするためである。 統制語彙のキーワードを追加するとデータを他の似たようなデータに 結び付けることができ、そのデータの科学的価値は大いに高まることになる。 データセットにキーワードを付け始める前に、既存のキーワードや タクソノミー(用語の体系)のことを勉強しておくべきである。 既存のキーワードは http://vocab.lternet.edu で見ることができる。 利用可能なツール等は http://im.lternet.edu/vocab_resources にある。

ここで、メタデータの文書にキーワードを付ける際の作法を述べる。

  • 最大限具体的なキーワードを使用すること。 各キーワードにはより上位の用語が含意されているので、 できるだけ具体的な下位の用語を選ぶと「見付けやすさ」と 「区別しやすさ」を両立できる。たとえば、”transects” よりも “vegetaion transects” を選ぶようにするとよい。
  • 合理的な妥協。 データセットは多種多様であるので、その独自性を漏れなくキーワードに 説明しようとすると、事実上検索が不可能になってしまう。 従って、統制語彙に含まれているキーワードを使用するように妥協する必要がある。 例えば、齧歯類の個体群生態学の研究をしているとして、統制語彙に 「齧歯類」が含まれていなくて「小型哺乳類」が含まれている場合、 どうしたらいいだろうか。 単純に「齧歯類」という非統制語彙をキーワードに追加するよりも、 次善の用語「小型哺乳類」を代わりに使用する方が良い。 別に「齧歯類」を使用しても構わないが、同時に統制語彙から近い意味の 用語を選んで追加すること。非統制語彙では検索できない場合があるから。
  • なるべく多種類のタクソノミー(用語のグループ)からキーワードを選ぶ。 理想的には、統制語彙の中の各タクソノミーから最低ひとつのキーワードを 選ぶべきである。データセットによっては特定のタクソノミーが合わない ことがあるが、その場合は無視する。 ユーザが特定のタクソノミーで検索する場合にもデータが見付けられるように するため、キーワードを幅広く選ぶことはいい考えである。
  • 非統制語彙をキーワードに使用する場合は、正しい書き方にする。 国際標準 NISO Z39.19 (単言語の統制語彙に関するガイドライン) はキーワードの書式について推奨事項を含んでいる。 例えば、キーワードは名詞を用いるのが好ましく、加算の概念である場合は 複数形を用いるべきである(ただし疑問文を作る時に “how much” が使われる 語の場合は単数形)。 詳しくは NISO Z39.19 の第6節を参照せよ。

キーワードを統制語彙に追加する

あるキーワードを統制語彙に追加するべきだと考えるなら、 そのことを提案してほしい。提案書には以下を記載する。

  1. キーワード
  2. 定義
  3. そのキーワードを追加するべき根拠
  4. そのキーワードを既存のタクソノミー中のどこに配置するべきかの提案
  5. そのキーワードの関連語や同義語
  6. そのキーワードを使用している既存のデータセットの数
  7. そのキーワードを使用している LTER サイトの数

下記の基準は、LTER 統制語彙作業部会が新しい用語を追加するかどうかを 検討する際に適用するものである。

新しい LTER キーワードの選定基準

内容 根拠 やるべきこと 問題を示す略号
キーワードは LTER ネットワーク 全体で多数のデータセットに 適用するべきである キーワードはデータを発見する ためのものであるから、データを 発見できるキーワードは 利用価値が高い 多数のサイト、多数の データセットで使用さ れているキーワードを 提案せよ NR - 複数のデータ セットで重複して 使用されていない
キーワードは複数のサイトで 使用されるべきである サイト横断検索を可能に することが目的のため 複数のサイトで使用 されているキーワードが 提案されていること A - 他のサイトでは 使用されていない
孤立した形容詞の提案は避ける 孤立した形容詞は「何の」 という疑問を含意する。 例えば「地上の」は「地上の何?」 という疑問を引き起こす。 名詞または動詞は提案して いいが、孤立した形容詞は不可。 目的語付きの形容詞(例えば 「地上のバイオマス」)は可。 ADJ - 孤立した形容詞
具体的であること あいまいであったり明白でない 用語は一貫した割り当てが難しい 具体的で曖昧さがなくて 定義の明快な用語を用いる V - あいまい
既に統制語彙に含まれている 概念と重複しないこと 重複したキーワードを 使うと一貫性がなくなる ほぼ同意義の用語の重複は避ける AWE - 代用できる語 が既にある
キーワードは明快に 定義されているべきである 定義や文脈が欠けていると 専門用語は判断や評価が難しい 良い定義を提供する NC - 説明や定義が必要
同義語として挙げられている語は 推奨の語と正確に調和しているべき である 同義語は関連する推奨語と 異なる概念であると言及 されるべきでない 推奨語によって説明されている 概念と正確に一致するような 同義語を選ぶこと NS - 同義語ではない
キーワードは検索で頻繁に 使用される語であるべきである 検索で使用されないキーワードは あまり有用ではない 検索で頻繁に使用される キーワードを提案する NU - 検索で使用 されていない

データセットに何が含まれているか指示するキーワードは、 データに相応しい科学的トピックを指示するキーワードよりも 有用であるように思える。 言い換えると、データを発見しやすくするキーワードは、ほとんどの場合、 「何について(about)」のデータなのか(たとえば「気候」)よりも 何のデータが「入っているか(contain)」(たとえば「気温」) を表す語である。 “about” (つまり主題に関する)キーワードは有用ではあるが、 それらは一貫性を保って割り当てることが難しい。というのも ある程度は人によって判断が変わるし、データというものは 多くの科学的トピックに応用可能で、データを収集していた時には 思いもよらなかったトピックに応用できる可能性もある。 とは言うものの、統制語彙の中にはほとんど “about” キーワードによって 出来ているタクソノミーが既に存在する。 従って我々は、”contain” キーワードを LTER 統制語彙に追加する提案を 推奨しており、”about” キーワードの提案は(排除はしないが) 止めるようにお願いしている。