科学的キーワードを LTER メタデータに追加する際の虎の巻¶
この文書は US-LTER の “Best Practices for Adding Science keywords to LTER Metadata” の抄訳です。
原文は http://im.lternet.edu/VocabBestPractices にあります。
科学的キーワードを LTER メタデータに追加する際の虎の巻¶
2013/05/22
メタデータの文書にキーワードを加える目的は、あなたのデータを 使いたいという研究者がそのデータを効率的に発見出来るようにするためである。 統制語彙のキーワードを追加するとデータを他の似たようなデータに 結び付けることができ、そのデータの科学的価値は大いに高まることになる。 データセットにキーワードを付け始める前に、既存のキーワードや タクソノミー(用語の体系)のことを勉強しておくべきである。 既存のキーワードは http://vocab.lternet.edu で見ることができる。 利用可能なツール等は http://im.lternet.edu/vocab_resources にある。
ここで、メタデータの文書にキーワードを付ける際の作法を述べる。
- 最大限具体的なキーワードを使用すること。 各キーワードにはより上位の用語が含意されているので、 できるだけ具体的な下位の用語を選ぶと「見付けやすさ」と 「区別しやすさ」を両立できる。たとえば、”transects” よりも “vegetaion transects” を選ぶようにするとよい。
- 合理的な妥協。 データセットは多種多様であるので、その独自性を漏れなくキーワードに 説明しようとすると、事実上検索が不可能になってしまう。 従って、統制語彙に含まれているキーワードを使用するように妥協する必要がある。 例えば、齧歯類の個体群生態学の研究をしているとして、統制語彙に 「齧歯類」が含まれていなくて「小型哺乳類」が含まれている場合、 どうしたらいいだろうか。 単純に「齧歯類」という非統制語彙をキーワードに追加するよりも、 次善の用語「小型哺乳類」を代わりに使用する方が良い。 別に「齧歯類」を使用しても構わないが、同時に統制語彙から近い意味の 用語を選んで追加すること。非統制語彙では検索できない場合があるから。
- なるべく多種類のタクソノミー(用語のグループ)からキーワードを選ぶ。 理想的には、統制語彙の中の各タクソノミーから最低ひとつのキーワードを 選ぶべきである。データセットによっては特定のタクソノミーが合わない ことがあるが、その場合は無視する。 ユーザが特定のタクソノミーで検索する場合にもデータが見付けられるように するため、キーワードを幅広く選ぶことはいい考えである。
- 非統制語彙をキーワードに使用する場合は、正しい書き方にする。 国際標準 NISO Z39.19 (単言語の統制語彙に関するガイドライン) はキーワードの書式について推奨事項を含んでいる。 例えば、キーワードは名詞を用いるのが好ましく、加算の概念である場合は 複数形を用いるべきである(ただし疑問文を作る時に “how much” が使われる 語の場合は単数形)。 詳しくは NISO Z39.19 の第6節を参照せよ。
キーワードを統制語彙に追加する¶
あるキーワードを統制語彙に追加するべきだと考えるなら、 そのことを提案してほしい。提案書には以下を記載する。
- キーワード
- 定義
- そのキーワードを追加するべき根拠
- そのキーワードを既存のタクソノミー中のどこに配置するべきかの提案
- そのキーワードの関連語や同義語
- そのキーワードを使用している既存のデータセットの数
- そのキーワードを使用している LTER サイトの数
下記の基準は、LTER 統制語彙作業部会が新しい用語を追加するかどうかを 検討する際に適用するものである。
新しい LTER キーワードの選定基準¶
内容 | 根拠 | やるべきこと | 問題を示す略号 |
キーワードは LTER ネットワーク 全体で多数のデータセットに 適用するべきである | キーワードはデータを発見する ためのものであるから、データを 発見できるキーワードは 利用価値が高い | 多数のサイト、多数の データセットで使用さ れているキーワードを 提案せよ | NR - 複数のデータ セットで重複して 使用されていない |
キーワードは複数のサイトで 使用されるべきである | サイト横断検索を可能に することが目的のため | 複数のサイトで使用 されているキーワードが 提案されていること | A - 他のサイトでは 使用されていない |
孤立した形容詞の提案は避ける | 孤立した形容詞は「何の」 という疑問を含意する。 例えば「地上の」は「地上の何?」 という疑問を引き起こす。 | 名詞または動詞は提案して いいが、孤立した形容詞は不可。 目的語付きの形容詞(例えば 「地上のバイオマス」)は可。 | ADJ - 孤立した形容詞 |
具体的であること | あいまいであったり明白でない 用語は一貫した割り当てが難しい | 具体的で曖昧さがなくて 定義の明快な用語を用いる | V - あいまい |
既に統制語彙に含まれている 概念と重複しないこと | 重複したキーワードを 使うと一貫性がなくなる | ほぼ同意義の用語の重複は避ける | AWE - 代用できる語 が既にある |
キーワードは明快に 定義されているべきである | 定義や文脈が欠けていると 専門用語は判断や評価が難しい | 良い定義を提供する | NC - 説明や定義が必要 |
同義語として挙げられている語は 推奨の語と正確に調和しているべき である | 同義語は関連する推奨語と 異なる概念であると言及 されるべきでない | 推奨語によって説明されている 概念と正確に一致するような 同義語を選ぶこと | NS - 同義語ではない |
キーワードは検索で頻繁に 使用される語であるべきである | 検索で使用されないキーワードは あまり有用ではない | 検索で頻繁に使用される キーワードを提案する | NU - 検索で使用 されていない |
データセットに何が含まれているか指示するキーワードは、 データに相応しい科学的トピックを指示するキーワードよりも 有用であるように思える。 言い換えると、データを発見しやすくするキーワードは、ほとんどの場合、 「何について(about)」のデータなのか(たとえば「気候」)よりも 何のデータが「入っているか(contain)」(たとえば「気温」) を表す語である。 “about” (つまり主題に関する)キーワードは有用ではあるが、 それらは一貫性を保って割り当てることが難しい。というのも ある程度は人によって判断が変わるし、データというものは 多くの科学的トピックに応用可能で、データを収集していた時には 思いもよらなかったトピックに応用できる可能性もある。 とは言うものの、統制語彙の中にはほとんど “about” キーワードによって 出来ているタクソノミーが既に存在する。 従って我々は、”contain” キーワードを LTER 統制語彙に追加する提案を 推奨しており、”about” キーワードの提案は(排除はしないが) 止めるようにお願いしている。