2013年2月3日日曜日

データベース統合に関わってごちゃごちゃと考えるあれこれ



*注意:これからここに書くことは個人的な見解であり、所属する団体の
見解ではありません。(折角なのでざっくばらんに書きます。)

この4月から私が主に関わってきたプロジェクトは、
4省で連携して、日本中のデータベースを統合していこうというプロジェクトです。
壮大でしょ?
http://integbio.jp/ja/

日本国内だけで見ても、多種多様なデータベースがあるので、それらを統合していこうという
プロジェクトです。
ちなみにアメリカだったり、ヨーロッパだと既に、データベース統一のための組織があって
そこで働く人達が中心となって、データの統合をしているようです。
それらのサイトを見ると、確かに理路整然とデータがまとめられています。

例:ChEMBL:https://www.ebi.ac.uk/chembl/
例:NCBI:http://www.ncbi.nlm.nih.gov/

日本においてもこういった組織を作ろうという議論がされたことがあるらしいのですが、
色々な事情があって、作られたことも、今後作られる予定もないらしいです。
同じ戦略では良くないとか、予算や人的資源の関係で現実的ではないとか
いった理由のようです。
しかしながら、国家戦略的に考えてもライフサイエンスの研究において、どの組織が
どのような研究を行い、どのようなデータベースを開発してきたのか、正しく把握する必要が
出て来ました。他にも様々な理由からデータベース統合化の動きは起こったようですが、
ここでは割愛します。
参考URL:
『我が国のデータベース構築・統合戦略』
http://events.biosciencedbc.jp/article
ライフサイエンスデータベースの統合・維持・運用の在り方
http://www.mext.go.jp/b_menu/shingi/gijyutu/gijyutu2/shiryo/__icsFiles/afieldfile/2009/01/27/1218217_8_1.pdf


ただ、何のためにデータベースを作ったのかといったら、まとめあげられるデータを
整理した形で保存し、正しく迅速にデータを取り出し、研究に活用する必要があったからだと思うのです。
それらのデータは基本的に所属する組織もしくは、分野特異的なものであったはずですが、
特に同質なデータについては、それらのデータを再統合して整理して
見やすい形で提供するといった要求が発生するのは、ボトムアップ的に考えても納得出来ます。

で、どうすんの?ということですが、
特に4省連携のデータベース統合においては、4つのステップを踏んでいます。

1.カタログ連携
 どんなデータベースがあるの~?といったことを手作業で調べあげて、データベースごとに
説明文やメタデータを付与して整理します。
http://integbio.jp/dbcatalog/

2.横断検索連携
 データベース内のデータを一つ一つプログラムを書いて拾い上げて索引ファイルを作り、横断検索という形で提示します。(詳しくは後述)

3.アーカイブ構築連携
 各機関で制作されたデータベースをアーカイブ化して保存。統一したフォーマットでダウンロード
可能です。特に更新が止まってしまったデータベース、管理者がいなくなって放置されているデータベースに有効です。

4.データベース再構築連携
 各機関で作られたデータベースを統一したフォーマットで再構築された状態を実現する。

今後は4の比重が大きくなるだろうと思われます。ただ、統一したフォーマットなんて簡単な言葉で
表現をしていますが、そんなに簡単な問題ではありません。特に統一したフォーマットについては
RDFというものに重きを置いて、実装を進められている方が多いです。RDFなんじゃらほい?ということですが、RDF(Resource Discription Framework)簡単に言うと、データベース中のデータを一つのノード
(中身の入った○)として、そのノード間の関係を記述したものです。

例:(遺伝子A)ー原因となるー(疾患B)
  ノード  関係性   ノード

で、それぞれの関係性があれば、どんな風にも書き加えて(どんどん繋げて)いくことが出来るので、柔軟なことが魅力で結構多くのデータがRDF化され、活用もされつつあります。
ただ、どこまでをそのノードにするのか、そして、関係性を記述する語彙はどうするのか
そういったことの統一性が取れないと、データを統合していく意味が薄れ、
しかも、未開拓な分野なので、それを使いやすいGUIまで持ってくるとすると、一苦労です。
バリバリプログラムが書ける人なら良いですが、そうでない人が、じゃあRDFにしてね、といった時にその利点を明確に示すまでには、まだ時間がかかるのではないかと個人的には思っています。
(反論募集中)
私のラボではスウェーデン出身のナイスガイが、こちらのプロジェクトの結果と
外部のRDF 例:bio2RDF http://bio2rdf.org/
を使って、アプリケーションを作っているので、もう少ししたら(現在機能をかなり改善しています)

宣伝します。一つの解決策としての提示になっていると思います。

そんなこんなで、私は2の横断検索連携を行って来ました。
横断検索連携はプロセスであるという方も多いです。でも、今後どんな形での統合データベース
になっても、検索機能というものからは逃れられないと思うので、これに尽力していました。
詳しくは以下のスライドをご覧ください。



横断検索のUIは連携機関ごとに作っています。
それは、UIと検索対象とDBごとの重み付けが異なるからです。
NBDC : http://biosciencedbc.jp/dbsearch/index.php?lang=ja
Medals : http://medals.jp/
Sagace : http://sagace.nibio.go.jp/

もちろん、速さや精度で改善すべき点は多々あり、一つのデータベースに対して検索対象
であるDBに対して一つ一つプログラムを書いてデータを取得して、リンク切れ等もこまめに
チェックしているので、なかなか大変です。
そして、スライド中でメタデータという提案をしています。
これは、もう既に出来上がっているデータベースのそれぞれのデータに対してそのデータが
何であるのかということを明確に記述するための仕組みです。
これが何が良いのかといえば、スライド中にも書いたように、一度書いていただければ
そのデータを共通のクローラーで読み取って、データを取得出来ます。
検索サイトではそのメタデータを検索結果に表示することで、可読性をあげています。
具体的には一度埋め込んでいただければ、生物種、疾患名、最終更新日、関連リンク
を反映させる予定(今年度中)です。

スライド中では、見た目だけの話しかしていないのですが、どのページがどの情報を持っていたという記述はRDFに変換することも可能です。一度メタデータとして埋め込んでもらえれば
他の用途に使いたい時でも、(例:特定の疾患の関連するデータを取ってきたい)
使えるわけです。そして、疾患名は、人によって表記が色々なこともあるので、そういった時に
一度IDで書いて貰えれば、それまで異なる呼ばれ方をしていた疾患データを繋げることができます。また、もう一つのミソは、この活動が広まれば、データベースを統合するということの
重要性を個々のデータベース管理者に知ってもらうことが出来る可能性があります。
それで、スライド中にも出てきますが、もし、schema.orgに認められて大手の検索サイトで
情報を拾ってくれるようになれば、埋め込んでいただいたデータが、GoogleやYahoo!で表示
される可能性があります。(ほら未来があるかも・・・?)

専門的ではない話が多くて恐縮ですが、バイオインフォマティクスが扱える分野は
今偏っていると思うのです。それは、データを統一した形式にまとめて解析する必要があるから。
しかし、世の中にある生物の研究分野も専門分野も多種多様です。正直手付かずな部分も
多く、そういうの、どーすんの?といった分野もあります。

個人的には今いるのが医薬基盤研なので、今後は疾患、薬、に着目していきたいと思っています。
基礎研究と疾患を繋げる必要性は必ず出てくる。思わぬ研究分野で思わぬ繋がりが必要な
分野も出てくるのではないかと思っています。患者さんがその疾患のメタデータを埋め込んでくれればそこでの症状と、治療法とその研究をしている機関を一度に表示させることも出来るわけです。

疾患名を基軸としてデータを
繋げられたらいいのではないのかというのが、最近のごちゃごちゃとした考えです。
疾患や薬を基軸とした絞り込みや、特定のファセット項目での絞り込みの結果を
統一した表記で提供できたら良いのではないかというのが将来展望です。
連携機関としては、繋げたことの意義とこれからも残るものを提示したいと
思っています。


生物資源だったら、特定の疾患で検索した時に、理研でも大学でも医薬基盤研でも
所属する機関や省庁関係なしに、それらが持っているデータの情報を一度に提示出来る
ようになる可能性があります。色々な大学や機関でバンク系の事業は進んでいて、そこでの
表示方法は様々だからメタデータで必要な情報を抜き取れる形にして、
まとめサイトがあることは、絶対に便利だと思います。(ついでに、発注が現在できるかどうか
の情報まで出たらもっとナイス、と思っていましたが、これについては賛否両論があって
難しそうです。)

なので、ぜひ、皆さんのDBにも気軽にmicrodataを埋め込んでみてください。
書き方が分かりにくいとかそういったことは、容赦なく言ってください。

http://wiki.lifesciencedb.jp/mw/index.php/BH12.12/schema.org

ライフサイエンスの分野以外だったら、googleで取ってきてくれるデータもあるので
お試しください。
http://support.google.com/webmasters/bin/answer.py?hl=ja&answer=99170&topic=1088472&ctx=topic


DBを統合する難しさは、DBを統合した後、それを活用するのが専門家であるということにも
一つあると思います。Generalなものは求めてられていないので、特定の分野での
意義を示す必要がある。特定の分野?というと、自分の研究していたもしくは現在の
所属機関の研究に近いものを提示することになる。
そうすると、統合DBであるというアピールにはわかりにくくなる。
本当にDBを統合したことで生まれた利益なんだということを示す必要があるのだけど、
そういったことを論文にしないと成果として認められにくい昨今においては
DBを統合することの意義をどう示して、どう評価してもらうのかというのも難しいと思っています。
そういった矛盾も孕んでいるように思っています。
でもせっかく作るなら、意味のあるものを作りたいし、使われるものであってほしいし、
DBを統合する働きをしたから初めて出来た成果でありたいし、未来に残るものであってほしい。

こういうことを悶々と考えてしまったわけですが、本当はお酒でも飲みながら
連携機関の人々と、ざっくばらんにあーだこーだいうというのが大事なのだと
思います。BioHackathonでは、夜になると酒飲んで話しあいまくる時間があるのですが、
あーいった時間は絶対に必要だと思います。
先人たちが作り上げてきたものに、矛盾もあるだろうし、負の遺産もあるだろうし、
直さなければいけない点も多々あるし、やんなきゃいけない点も山ほどあるし、
プロジェクトの明日は分からないことも多いし、
個人個人によってDBを統合することのイメージ自体も異なっているみたいだし、
何だかなと思う。難しいって思い過ぎなのかな、悲観的になり過ぎなのかな。

私には何が出来るのかな、って考えた時に、今の取り組みになったのです。
でも、ただの修士を出た若造の考えることですから、見通しの甘い部分も
すごくあると思います。足場のきちんとした組織を作って、そこの立場が安定していて
方向性が明確ならば、もっと人も集まるだろうし、議論もしやすかろうと思う。
でも、きっと問題はそう単純じゃないのですよね?



最後に宣伝ですが、もう少ししたらアンケートを実施します。
この時期アンケートが多くて恐縮ですが、どんなデータがどのように
表示されたら、超嬉しいんだけど、ということをシンプルに知りたいです。
また後ほど宣伝しますので、ぜひご協力ください。

使われるものを作りたい。使うのがちょっと嬉しいものを作りたい。
基本的には、それだけかもです。