科学的キーワードを LTER メタデータに追加する際の虎の巻 ======================================================== この文書は US-LTER の "Best Practices for Adding Science keywords to LTER Metadata" の抄訳です。 原文は http://im.lternet.edu/VocabBestPractices にあります。 科学的キーワードを LTER メタデータに追加する際の虎の巻 ------------------------------------------------------- 2013/05/22 メタデータの文書にキーワードを加える目的は、あなたのデータを 使いたいという研究者がそのデータを効率的に発見出来るようにするためである。 統制語彙のキーワードを追加するとデータを他の似たようなデータに 結び付けることができ、そのデータの科学的価値は大いに高まることになる。 データセットにキーワードを付け始める前に、既存のキーワードや タクソノミー(用語の体系)のことを勉強しておくべきである。 既存のキーワードは http://vocab.lternet.edu で見ることができる。 利用可能なツール等は http://im.lternet.edu/vocab_resources にある。 ここで、メタデータの文書にキーワードを付ける際の作法を述べる。 * 最大限具体的なキーワードを使用すること。 各キーワードにはより上位の用語が含意されているので、 できるだけ具体的な下位の用語を選ぶと「見付けやすさ」と 「区別しやすさ」を両立できる。たとえば、"transects" よりも "vegetaion transects" を選ぶようにするとよい。 * 合理的な妥協。 データセットは多種多様であるので、その独自性を漏れなくキーワードに 説明しようとすると、事実上検索が不可能になってしまう。 従って、統制語彙に含まれているキーワードを使用するように妥協する必要がある。 例えば、齧歯類の個体群生態学の研究をしているとして、統制語彙に 「齧歯類」が含まれていなくて「小型哺乳類」が含まれている場合、 どうしたらいいだろうか。 単純に「齧歯類」という非統制語彙をキーワードに追加するよりも、 次善の用語「小型哺乳類」を代わりに使用する方が良い。 別に「齧歯類」を使用しても構わないが、同時に統制語彙から近い意味の 用語を選んで追加すること。非統制語彙では検索できない場合があるから。 * なるべく多種類のタクソノミー(用語のグループ)からキーワードを選ぶ。 理想的には、統制語彙の中の各タクソノミーから最低ひとつのキーワードを 選ぶべきである。データセットによっては特定のタクソノミーが合わない ことがあるが、その場合は無視する。 ユーザが特定のタクソノミーで検索する場合にもデータが見付けられるように するため、キーワードを幅広く選ぶことはいい考えである。 * 非統制語彙をキーワードに使用する場合は、正しい書き方にする。 国際標準 NISO Z39.19 (単言語の統制語彙に関するガイドライン) はキーワードの書式について推奨事項を含んでいる。 例えば、キーワードは名詞を用いるのが好ましく、加算の概念である場合は 複数形を用いるべきである(ただし疑問文を作る時に "how much" が使われる 語の場合は単数形)。 詳しくは NISO Z39.19 の第6節を参照せよ。 キーワードを統制語彙に追加する ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ あるキーワードを統制語彙に追加するべきだと考えるなら、 そのことを提案してほしい。提案書には以下を記載する。 1. キーワード 2. 定義 3. そのキーワードを追加するべき根拠 4. そのキーワードを既存のタクソノミー中のどこに配置するべきかの提案 5. そのキーワードの関連語や同義語 6. そのキーワードを使用している既存のデータセットの数 7. そのキーワードを使用している LTER サイトの数 下記の基準は、LTER 統制語彙作業部会が新しい用語を追加するかどうかを 検討する際に適用するものである。 新しい LTER キーワードの選定基準 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ +-----------------------------------+-----------------------------------+-------------------------------+-----------------------+ | 内容 | 根拠 | やるべきこと | 問題を示す略号 | +-----------------------------------+-----------------------------------+-------------------------------+-----------------------+ | キーワードは LTER ネットワーク | キーワードはデータを発見する | 多数のサイト、多数の | NR - 複数のデータ | | 全体で多数のデータセットに | ためのものであるから、データを | データセットで使用さ | セットで重複して | | 適用するべきである | 発見できるキーワードは | れているキーワードを | 使用されていない | | | 利用価値が高い | 提案せよ | | +-----------------------------------+-----------------------------------+-------------------------------+-----------------------+ | キーワードは複数のサイトで | サイト横断検索を可能に | 複数のサイトで使用 | A - 他のサイトでは | | 使用されるべきである | することが目的のため | されているキーワードが | 使用されていない | | | | 提案されていること | | +-----------------------------------+-----------------------------------+-------------------------------+-----------------------+ | 孤立した形容詞の提案は避ける | 孤立した形容詞は「何の」 | 名詞または動詞は提案して | ADJ - 孤立した形容詞 | | | という疑問を含意する。 | いいが、孤立した形容詞は不可。| | | | 例えば「地上の」は「地上の何?」 | 目的語付きの形容詞(例えば | | | | という疑問を引き起こす。 | 「地上のバイオマス」)は可。 | | +-----------------------------------+-----------------------------------+-------------------------------+-----------------------+ | 具体的であること | あいまいであったり明白でない | 具体的で曖昧さがなくて | V - あいまい | | | 用語は一貫した割り当てが難しい | 定義の明快な用語を用いる | | +-----------------------------------+-----------------------------------+-------------------------------+-----------------------+ | 既に統制語彙に含まれている | 重複したキーワードを | ほぼ同意義の用語の重複は避ける| AWE - 代用できる語 | | 概念と重複しないこと | 使うと一貫性がなくなる | | が既にある | +-----------------------------------+-----------------------------------+-------------------------------+-----------------------+ | キーワードは明快に | 定義や文脈が欠けていると | 良い定義を提供する | NC - 説明や定義が必要 | | 定義されているべきである | 専門用語は判断や評価が難しい | | | +-----------------------------------+-----------------------------------+-------------------------------+-----------------------+ | 同義語として挙げられている語は | 同義語は関連する推奨語と | 推奨語によって説明されている | NS - 同義語ではない | | 推奨の語と正確に調和しているべき | 異なる概念であると言及 | 概念と正確に一致するような | | | である | されるべきでない | 同義語を選ぶこと | | +-----------------------------------+-----------------------------------+-------------------------------+-----------------------+ | キーワードは検索で頻繁に | 検索で使用されないキーワードは | 検索で頻繁に使用される | NU - 検索で使用 | | 使用される語であるべきである | あまり有用ではない | キーワードを提案する | されていない | +-----------------------------------+-----------------------------------+-------------------------------+-----------------------+ データセットに何が含まれているか指示するキーワードは、 データに相応しい科学的トピックを指示するキーワードよりも 有用であるように思える。 言い換えると、データを発見しやすくするキーワードは、ほとんどの場合、 「何について(about)」のデータなのか(たとえば「気候」)よりも 何のデータが「入っているか(contain)」(たとえば「気温」) を表す語である。 "about" (つまり主題に関する)キーワードは有用ではあるが、 それらは一貫性を保って割り当てることが難しい。というのも ある程度は人によって判断が変わるし、データというものは 多くの科学的トピックに応用可能で、データを収集していた時には 思いもよらなかったトピックに応用できる可能性もある。 とは言うものの、統制語彙の中にはほとんど "about" キーワードによって 出来ているタクソノミーが既に存在する。 従って我々は、"contain" キーワードを LTER 統制語彙に追加する提案を 推奨しており、"about" キーワードの提案は(排除はしないが) 止めるようにお願いしている。