2011年11月29日火曜日

チェックボックスにプログラム(Ruby)で指定のものにチェックしてそのデータを取り出す方法ー後編

前回、チェックボックスにプログラムで指定のものにチェックしてそのデータを取り出す方法と書きながら全然載っていないじゃんと思ったあなた!
正しい。

さて、今回は本当にやります。ただ前回書いたようなライブラリがうまく導入されていないと動きませんので、
い、意味がないわけじゃないんだよ、引っかかったら前の投稿見て環境整えてちょ(はあと)

というわけで、

今日は後編です。

気を取り直して簡単な例で実装してみましょう。

サンプルプログラムを作って見ました。
以下のサイトにこんなアンケートを作ってみましたので、実行してみてください。
あなたの答えたアンケート結果は反映されましたでしょうか?
ちょっとむっとする答えが帰って来たら正解です。

さて、これをプログラムでやっちゃいましょう。

まず、ちゃんとデータを取ってこられるか確認しましょう。

require 'rubygems'
require 'mechanize'
require 'kconv'

agent = Mechanize.new

# サンプルクエッション
agent.get('http://maoringo.secret.jp/questionnaire.html')

p agent.page.body


いかがですか、面倒な感じのソースがダダダッと取得できましたでしょうか。
さて、本題チェックボックスに入れてみましょう。
では次に以下のプログラムを実行してみてください。

require 'rubygems'
require 'mechanize'
require 'kconv'

agent = Mechanize.new

#サンプルクエッション
agent.get('http://maoringo.secret.jp/questionnaire.html')
#上のhtmlのソースを見て 
のformを:name=>の中に入力 agent.page.form_with(:name => 'form1' ){|f| f.checkbox_with(:value => 'Apple').check # これもソース中ののvalueを入力 # f.checkbox_with(:text => /チェックボックス2/).uncheck # ちなみにuncheckも出来ます f.click_button#submitをクリック } p agent.page.body
どうです?結果がソースの形で表示されましたでしょうか?
本文中に解説は書いてしまいましたが、
お目当てのurlをagent.getに入れてお目当てのサイトのソースからformの名前を入れ
valueにチェックしたい項目の名前を入れるだけです。
(日本語に対応させたい場合は以下のサイトを参考にiconvをお入れ下さい)
詳しくはここに書きませんが、もちろん、:valueに他のものを入れることも出来ますし、
rubyのプログラムなので自分の持っているファイルから
当てはまるものをファイルから任意の文字列を取ってきてvalueに入れて
チェックすることも出来ます。
また、今回はチェックボックスを使用しましたが、目的のデータを取得するsearch
やファイルのアップロードや、リンク先をクリックしてページを遷移した先のデータを取得することも
可能です。
以下のサイトが詳しいっす。
http://w.livedoor.jp/ruby_mechanize/
質問、わかりにくい点ありましたら、お気軽にコメントオア@maoringoまでお尋ね下さい:-)

というわけで久々にプログラムっぽいこと書いたわけですが参考になれば幸いです。
他の言語だともっとあっさり出来たかも~と後から思ったけど、ま、いっか(・。・;

チェックボックスにプログラム(Ruby)で指定のものにチェックしてそのデータを取り出す方法ー前編


前編
チェックボックスを大量にクリックするはめになった私に @wakuteka よりMechanizeがあるよ☆彡
とのリプライをいただき、実装してみた試行錯誤してみたお話です。前編は導入編、
後編は簡単な実装編となっています。

チェックボックス、の前にRubyでWebサイトを解析する強力なライブラリ "Mechanize" の導入

基本的には以下のページで入れられます。なので、基本的には以下のページを参照してください。
ただ、私は自分の環境のせい(Window 32bit,Ruby 1.8.7,Cygwin) でいろいろひっかかったので、
似たような環境の方がいたら、参考になる情報も含んでいるかもしれません。
さて、導入編です。

最初導入なんかあっさり出来るんじゃん?って思っていました。

だって、インストール準備手順は(抜粋<引用>)
  1. Ruby 1.8.7 か 1.9.1 か 1.9.2 以降または Jruby を使う
  2. Mechanize が使用する nokogiri gem に必要な外部ライブラリ libxml2 と libxslt と iconv を yum や aptitude でインストールしておく
  3. Mechanize を gem install mechanize でインストール
Windows の場合は Nokogiri のバイナリパッケージとして関連外部ライブラリが一括インストールされるので、特になにもしなくて構いません。<引用終わり>



って書いてあるんだもの。

どこまでライブラリ入れてたか忘れたし、エラー見たほうがきっとはやいぞ、ってわけで

上記のページのサンプルプログラムを実行してみた。
require 'rubygems'
require 'mechanize'
require 'kconv'

agent = Mechanize.new
agent.get('http://www.google.co.jp/')
agent.page.form_with(:name => 'f'){|form|
  form.field_with(:name => 'q').value = 'Ruby'
  form.click_button
}
agent.page.link_with(:text => "オブジェクト指向スクリプト言語 Ruby".toutf8).click
puts agent.page.uri
puts agent.page.at('div#logo/img')['alt']
エラーがやっぱり出て、
 no such file to load -- rubygems (LoadError)
そうか、なかったですか。というわけで取り急ぎ入れる。

で、再度実行すると

/usr/lib/ruby/site_ruby/1.8/rubygems/custom_require.rb:36:in `gem_original_require': no such file to load -- mechanize (LoadError)
        from /usr/lib/ruby/site_ruby/1.8/rubygems/custom_require.rb:36:in `require'
        from getget.rb:1

と言われちゃった。あ、そっかmechanize入れないとというわけで 実行してみたら・・・・
$ gem install mechanize
Building native extensions.  This could take a while...
     14 [main] ruby 9752 C:\cygwin\bin\ruby.exe: *** fatal error - unable to remap \\?\C:\cygwin\lib\ruby\1.8\i386-cygwin\etc.so to same address as parent: 0x90000 != 0x200000
Stack trace:
Frame     Function  Args
023FAEF8  6102796B  (023FAEF8, 00000000, 00000000, 00000000)
023FB1E8  6102796B  (6117EC60, 00008000, 00000000, 61180977)
023FC218  61004F1B  (611A7FAC, 61243584, 00090000, 00200000)
End of stack trace
・・・・

といったエラーが出る。

調べてみたら

rebase問題

Cygwin で Ruby のプログラムを動かしていると,
...
D:\cygwin\bin\ruby.exe: *** unable to remap D:\cygwin\bin\cygssl.dll to same address as parent(0xDF0000) != 0xE00000
...

みたいなメッセージが延々と出力されてどうしようもなくなることがあります.

$ rebaseall
というコマンドを実行してやると回避できます.
これはRubyだけで起こる問題ではなく,Cygwin fork() の問題だそうです

へー、というわけでrebaseallで回避。cygwinのバカっ><。

でまたgem install mechanizeをするとエラーが(・。・;

ERROR:  Error installing mechanize:
        ERROR: Failed to build gem native extension.

        /usr/bin/ruby.exe extconf.rb
checking for libxml/parser.h... no
-----
libxml2 is missing.  please visit http://nokogiri.org/tutorials/installing_nokogiri.html for help with           installing dependencies.
-----
*** extconf.rb failed ***
Could not create Makefile due to some reason, probably lack of
necessary libraries and/or headers.  Check the mkmf.log file for more
details.  You may need configuration options.



libxsltについても同様にエラーが出たのでcygwinからまたインストールする。

テストプログラムを再度実行
結果:

http://www.ruby-lang.org/ja/
Ruby - A Programmer's Best Friend
でけた・・・(く)



2011年6月29日水曜日

CBRC 統合DB情報基盤サイトの調査(2)

統合DB情報基盤サイトについて調べていたのだが、WEBワークフローとActiveワークフローについて調べてみて、それらのクエリーと結果の表示の仕方と見方は分かったのだが、計算を並列に実行できることやクエリーの流れを意識できること、相互のソフトウェアによる結果比較が出来ることについて、具体的に何が特に良いのか、そして誰を対象としているのか(操作は若干行いにくい)、明確にすることが出来なかった。
よって、個々のソフトウェアやDBを調べて、有用そうなものをピックアップして、各ソフトウェアの実行結果を比較することの良さ、並列に実行することによる高速化の良さを見つけていきたいと思う。
また製作された先生と相談して、焦点やメリットを絞れれば番組として作っていきたいと思う。

ただCBRCの個々のソフトウェアやDBはあまり今まで紹介されていないので、情報基盤サイトを先に紹介するより、
個々のコンテンツを紹介したほうがよいのではないかと感じている。
そして、私自身がCBRCの個々のソフトウェアを調査したい。

また統合TVのタンパク質関係、RNA関係のコンテンツも充実させていきたい。

[候補]

Centroid Fold

RNA二次構造予測ソフトウェア

LAST

大規模ゲノム配列比較ソフトウェア

FORTE

プロファイル比較によるタンパク質立体構造認識法

POODLE

タンパク質ディスオーダー予測

SGCAL

糖鎖断片化解析ツール

PAPIA

並列タンパク質情報解析システム

WoLF PSORT

タンパク質細胞内局在化予測ソフト

何を優先したらよいのかしらん?

2011年6月26日日曜日

ggplot2で美円グラフを簡単に書く方法。

統計解析ツールRにはggplot2というパッケージがあり、このパッケージを使うことで
美しいグラフが書ける。最初から引用で恐縮だが、(以下引用)
Rによるオープン・データの可視化(2) - @IT http://www.atmarkit.co.jp/fcoding/articles/stat/04/stat04a.html

ggplot2は、Rユーザーの間ではデファクトスタンダードのツールとなっているグラフィックパッケージです。
ggplot2の設計思想には、SYSTAT Software Incの計算機科学者 Leland Wilkinson氏が提唱する「グラフィック文法(The Grammar of Graphics)」というものがあります。この「グラフィック文法」は、見栄えの良いグラフを作るという非本質的な作業にユーザーに注力させるのではなく、データが本来持っている姿をグラフに反映させることを目指して提唱されているルールです。
(引用終わり)

とのことらしい。とはいえ、ggplot2のヘルプは体系化されているものの、とっつきにくいので、簡単に
円グラフを綺麗にかきたいわん、というときに参考になればと思い、筆を取った。
とはいえ、残念ながらこれもこの記事<http://www.r-bloggers.com/ggplot-and-concepts-%E2%80%94-what%E2%80%99s-right-and-what%E2%80%99s-wrong/>を大いに参考にしている(笑)
最初にggplot2のライブラリをインストールしていないかたは、ggplot2のパッケージのインストールをしておいてほしい。
さあ、無限のかなたへ一歩ずつ。

library(ggplot2)
pet <- data.frame(animals=c("dog", "cat","hamster","rabbit"), val=c(80,50,10,7))
pet
#円グラフ
ggplot(pet, aes(x="", y=val, fill=animals)) + geom_bar(width=1) + coord_polar("y")
#ちなみにデフォルトの円グラフで書くとこんな感じになる。
pie(pet[,2],labels=pet[,1],clockwise=TRUE)

+ geom_bar(width=1)までで止めると棒グラフが書けます。 もう少し詳しい解説は後で追加するかも。デフォルトだとアルファベット順に要素が並んでます。 これで取り急ぎ、きれいな円グラフを書くことは出来ます。
ggplot2を使用した場合
ggplot2を使用しない場合(pie)

ほら、全然イメージ違うでしょ?

2011年6月15日水曜日

CBRC 統合DB情報基盤サイトの調査

上記タイトルの調査を行なっている。2~3回の調査で紹介できるものを見つけたい。
ここではCBRCで開発しているウェブツールの網羅的横断検索の手段という感じ?
そして並列・分散処理を行うことで計算機資源の有効活用で時間短縮が可能。

以下 CBRC 統合DB情報基盤サイトより(引用)

「ワークフロー」技術開発について
従来、ソフトウェアやデータベースごとにアクセスし手間と時間がかかっていた一連の処理をまとめ、自動的に分散し短時間に効率よく行うワークフローを開発します。CBRCでは、まずタンパク質の構造解析支援のワークフローを手始めに、利便性が高く、有用なものを目指して開発する予定です。

CBRCでは以下のタイプのワークフローを開発します

*WEBベースワークフロー                      
ブラウザー経由でWEBサーバにアクセス、入力し計算終了後結果をブラウザーで見ます。

*Activeワークフロー(ユーザ定義型ワークフロー)
ユーザのPC又はサーバにて、ワークフロープラットフォームを使用し、ユーザが望むワークフローを実行します。ユーザは様々な設定(実行部品の指定、パラメータ等)を指定することが可能です。
(引用終わり)

普段CBRCのセミナーを聞いている感じだと、既存のソフトウェア(配列相同性検索、構造予測検索など)
に対して、特定の領域に強かったり(ディスオーダー予測、同じ文字が続く場合の検索)
リガンド結合部位に着目した予測だったり、検索結果を早くしていたり、といった工夫を行った研究を
まとめてDBとして公開しているイメージである(あくまで私感)

それらを駆使して、通常の場合には一つのDB検索を行った結果はあくまで一つだが、その検索結果を利用してさらに検索をかける、もしくは検索を行なっている途中の段階の結果を利用して他のDB内の検索を行っているらしい。この結果を参照することでそれぞれのソフトウェアの強みがおそらく出て、他のソフトウェアの検索結果を参照できることと、思いがけない良い結果を他のソフトウェア経由で分かるのかもしれない。

Localでできるらしいワークフローknime_2.3.4を使用して実験中。
KNIME(ナイムとは 以下 http://d.hatena.ne.jp/makiyamakoji/20090714/p1 より引用)
KNIME(ナイムと発音する)は、モジュール型データ探索プラットホームです。これは、ユーザが視覚的にデータフロー(パイプラインともいう)を作成したり、解析ステップを選択的に実行したり、データとモデル上の対話的ビューを通して後から結果を調査することを可能にします。
(引用終わり)

2011年6月1日水曜日

統合TV お役立ち小ネタ

☆忘れがちな編集作業をここにメモ的に書いておきます。(20110914改訂)


*ロゴ等は
C:\togotv\100225_title_templateから取得。
使用する画像は
101224opening.png
101126endtitle_01.png
101126endtitle_02.png
TogoTV_mini_logo.png
メディアからインポートでもいいし、ドラッグアンドドロップでもタイムライン上に貼れる。

*常に統合ロゴは存在するようにすることに注意。
TogoTV_mini_logo.png

*タイトルは
最初
101224opening.pngを4秒
フェードを1秒
塗りつぶし角丸四角形を2つ
タイトルと日付(版)を入れる

最後
フェード(ブラック)を1秒
101126endtitle_01.pngを3秒
フェードを1秒
101126endtitle_02.pngを3秒

*チェックを入れてもらう前の確認事項(一部)
togoTV_mini_logoは画面切り替え以外全てに入っていること。
文字は全てヒラギノ丸ゴ Pro W4 の28point になっていること。
改行がうまくいっていること。

*カムタジアスタジオが落ちたときの対処法。
半落ち(動作が怪しい)の場合は事前に保存して切ってしまう。
終了を選択しても終了しなくなってしまった場合はタスクマネージャーを使ってカムタジアスタジオ
だけを強制終了してしまうのも一つの案。
以下その様子をキャプチャで示しておきます。
スタートボタン→プログラムとファイルの検索に”タスク マネージャー”と入力→タスクマネージャーを選択、起動

もしくはCtrl + Shift + Esc キーで起動。(こちらのほうが簡単かも)

Camtasia Studio を選択し、タスクの終了をクリック
タスクから消えていたら終了できたはずです。

PCのご機嫌を伺いつつ、再起動します。
(他にもいい案がありましたら教えてください)


あと、なんだかんだ言っていますが、カムタジアはステキなソフトだと思っています><。!!








動画のアップ方法で引っかかりがちなこと。
詳しい動画のアップ方法は司令部(牧場内部からのみ)
GHQ/wiki/HowToMakeTogoTV にあるのでそれを参考にすべし。
日記で改行が無くなってしまったら、半角が抜けていないか気にすべし。
色々引っかかったら、前のうまくいっている人のものをテキストエディタ等でコピペして、内容を変更するのが早いかも。
紹介の本文中 " が半角だとDiaryのアップに支障が出るので ” (全角)にすべし。

他にも気になることがあったら追加してちょ~~

2011年5月18日水曜日

TOGO TVブログ 小ネタ

Local Blast Mac版 を作っているのだが、大して新しいこともないので、小ネタを少々。

コマンドラインで操作をしながら吹き出しを入れる場合、コマンドが長い場合には
吹き出しを入れたままコマンドが動く状態にすると冗長で無くてよい。

画面切り替えの直前直後の分割された動画部分はその部分を削除すると
画面切り替えまで消えてしまうけど、消したい動画部分を画面切り替えを含まない部分に移動させて削除すると画面切り替えは消えないで済む。

2011年4月28日木曜日

色々な糖鎖関係のDBのIDを対応させる方法の試行錯誤1

古く、糖鎖のDBはCarbBankがつくっていたが、1995年に廃止され、リンクできなくなってしまった。
また、このDBは初期のDBだけあって、糖鎖の構造の書き方が不統一であったりして見にくかった。
そこで色々な糖鎖DBが開発されているのだが、まだフォーマットは統一まで至っていない。
今回は糖鎖の構造を調べたかったのでKCF(KEGGの提供するデータの構造を中心としたファイル方式)を利用することにした。


KCFは糖鎖の構造を見るのには便利なのだが
構造の情報しか無いので、例えばどの組織の糖鎖か
などという情報が欲しい場合にはアノテーションが不足している。











CarbBankのファイル方式CCSD(Complex Carbohydrate Structure Database)はその点アノテーションは豊富なのである。













また、CCSDは構造で固有のIDではなく、恐らく特徴も含めたIDなのでKCFファイル
と対応させようと思うと一(KCF)対多(CarbBank)になってしまっている。
KEGGから1つCCSDのIDを入れると一つKCFのIDを取り出してくれるのだが
一回一回やるのが面倒だったのでJava Scriptを書いてKEGGから取り出す必要があると思われた。

しかし、良く調べてみたら、バイオ系のミラーサイトから
http://biowebdb.org/
様々な糖鎖DBのIDを対応させてまとめてあるデータを入手できそうである。
レッツトライ。
http://www.biowebdb.org/pub/kegg/ligand/glycan/
これでやってみることにする。

2011年4月22日金曜日

調べ事メモ

汎化能力 (generalization ability)

学習時に与えられた訓練データだけに対してだけでなく,未知の新たなデータに対するクラスラベルや関数値も正しく予測できる能力.

http://ibisforest.org/index.php?%E6%B1%8E%E5%8C%96%E8%83%BD%E5%8A%9B

イルミナ ChIP-Seq は、クロマチン免疫沈降(ChIP)と大量並列シーケンステクノロジーを併用して
DNA 結合タンパク質の結合部位を同定します。イルミナのクロマチン免疫沈降シーケンスアプリ
ケーションを用いることで、正確かつ効率的にタンパク質の結合部位全体をマッピングできます。

http://www.illuminakk.co.jp/pdf/ChIP-Seq_DS.pdf

ChIP-Sequencing, also known as ChIP-Seq, is used to analyze protein interactions with DNA. ChIP-Seq combines chromatin immunoprecipitation (ChIP) with massively parallel DNA sequencing to identify the cistrome of DNA-associated proteins. It can be used to precisely map global binding sites for any protein of interest. Previously, ChIP-on-chip was the most common technique utilized to study these protein-DNA relations.

(Wikipedia)






2011年4月18日月曜日

Ruby irb Windowsのエラー対処法

ほとんど http://royontechnology.blogspot.com/2011_02_01_archive.html
を訳しただけですが。

Windowsでirbをしようとして以下のようなエラーが出た場合には

C:/Ruby192/lib/ruby/site_ruby/1.9.1/rbreadline.rb:2095:in `expand_path': non-absolute home (ArgumentError)
       from C:/Ruby192/lib/ruby/site_ruby/1.9.1/rbreadline.rb:2095:in `_rl_read_init_file'
       from C:/Ruby192/lib/ruby/site_ruby/1.9.1/rbreadline.rb:2078:in `rl_read_init_file'
       from C:/Ruby192/lib/ruby/site_ruby/1.9.1/rbreadline.rb:2499:in `readline_initialize_everything'
       from C:/Ruby192/lib/ruby/site_ruby/1.9.1/rbreadline.rb:3730:in `rl_initialize'
       from C:/Ruby192/lib/ruby/site_ruby/1.9.1/rbreadline.rb:4737:in `readline'
       from C:/Ruby192/lib/ruby/site_ruby/1.9.1/readline.rb:40:in `readline'
       from C:/Ruby192/lib/ruby/1.9.1/irb/input-method.rb:115:in `gets'
       from C:/Ruby192/lib/ruby/1.9.1/irb.rb:139:in `block (2 levels) in eval_input'
       from C:/Ruby192/lib/ruby/1.9.1/irb.rb:273:in `signal_status'
       from C:/Ruby192/lib/ruby/1.9.1/irb.rb:138:in `block in eval_input'
       from C:/Ruby192/lib/ruby/1.9.1/irb/ruby-lex.rb:188:in `call'
       from C:/Ruby192/lib/ruby/1.9.1/irb/ruby-lex.rb:188:in `buf_input'
       from C:/Ruby192/lib/ruby/1.9.1/irb/ruby-lex.rb:103:in `getc'
       from C:/Ruby192/lib/ruby/1.9.1/irb/slex.rb:205:in `match_io'
       from C:/Ruby192/lib/ruby/1.9.1/irb/slex.rb:75:in `match'
       from C:/Ruby192/lib/ruby/1.9.1/irb/ruby-lex.rb:286:in `token'
       from C:/Ruby192/lib/ruby/1.9.1/irb/ruby-lex.rb:262:in `lex'
       from C:/Ruby192/lib/ruby/1.9.1/irb/ruby-lex.rb:233:in `block (2 levels) in each_top_level_statement'
       from C:/Ruby192/lib/ruby/1.9.1/irb/ruby-lex.rb:229:in `loop'
       from C:/Ruby192/lib/ruby/1.9.1/irb/ruby-lex.rb:229:in `block in each_top_level_statement'
       from C:/Ruby192/lib/ruby/1.9.1/irb/ruby-lex.rb:228:in `catch'
       from C:/Ruby192/lib/ruby/1.9.1/irb/ruby-lex.rb:228:in `each_top_level_statement'
       from C:/Ruby192/lib/ruby/1.9.1/irb.rb:155:in `eval_input'
       from C:/Ruby192/lib/ruby/1.9.1/irb.rb:70:in `block in start'
       from C:/Ruby192/lib/ruby/1.9.1/irb.rb:69:in `catch'
       from C:/Ruby192/lib/ruby/1.9.1/irb.rb:69:in `start'
       from C:/Ruby192/bin/irb:12:in `'



システム環境変数の以下の変数を削除すればとりあえず解決します。)
HOME
HOMEDRIVE
HOMEPATH
HOMESHARE

CygwinのHOMEの設定がどうやら絡んでいるらしいです。
Cygwinの不具合はまだみてません(汗

2011年3月14日月曜日

もっと貪欲に生きよう。

2011年3月11日(金)、東北で大きな地震が起こった。関東でも茨城や千葉など特に太平洋側は大変そうだ。

今日から東京電力が定期的に停電をするとのことで、東日本は大きく混乱している。

私自身はお台場に住んでいて、近くのビルが火災にあったり、交流館に住んでいる留学生が
不安がっていたりして心配ではあったけど無事だった。
実家も群馬の南部で、ちょうど被害のかなり少ない地区であった。
一昨日、実家からの連絡で群馬に帰ってきた。まだ今地元の群馬にいる。

今回の震災で色々考えた。

当たり前のことが、当たり前でないこと、人が創り上げたものは大自然の力の前には無力だということが分かった瞬間だった。大きな地殻変動が起こったら、日本そのものが無くなってしまう危険性も
あるわけで、それはいつ起こるか分からない。

だが、何かが起こったときには、何かを見直すチャンスなわけで、日本人はそれぞれに、
自分たちを振り返る必要があるだろう。

我々に出来る最善のことはなんだろうか。

直接的に災害地を助けるためには、まずは節電、そして、募金らしい。
体制が整ってきたら、ボランティアに行ったり、献血をするのは意味のあることのようだ。

でも、それと同時に、私は、もっと日本の人々はもっともっと ”生きる” ということに貪欲に
なるべきだと思う。

今まで大変恵まれた環境にいたし、当たり前のように欲しい物は手に入った。なんとなくでも
生きられてしまう毎日。

でもそれらは、過去の人の、そして現在の人の多くの努力によって支えられていることだったのだ。
それを無自覚で生きられてしまうほど、錯覚してしまうほど、よく出来たシステムだったわけだ。
そうであることを求めてしまい、答えてしまう日本という国でもあったわけだ。

日本ってつくづく特殊な国だと思う。ほとんど単一民族でなり、国も他の国から離れている島国。
同じ民族がずっと同じ土地に暮らし続け、特殊な文化を形成し、他のものを取り入れるのは
柔軟。些か主体性に欠けるけど、変化には強い国民性かもしれない。
律儀な人が多くて、主張する人は少ない。
我々はこの特殊な環境で生きてきて、これからも特殊な環境で生き続けるのだ。

この未曾有の危機に世界の人々は手を差し伸べてくれているらしい。
ありがたいことだ。

とっても恵まれていたのに、王子様やお姫様のように、憂えていることをやめねばならぬ。
我々はもっと貪欲に生きなければならない。未来の為に。

と、私ももっと自分の足回り、自分の研究やプログラミングをしっかりしないといけないと思った。
自分の行なっていることそれぞれが未来につながることなので、
自分の努力次第で未来が変えられるかもしれないので。甘えを許しちゃいけない。
まだまだまだまだ甘い。ここまで多くの方が亡くなって苦しんでいる中、甘えてる場合じゃない。
自分の目の前のことを精一杯やることも、多分未来につながること、そう思った。

2011年3月9日水曜日

お役立ち系コマンド

ファイルやディレクトリの日付を表示するには、-lオプション付きでlsコマンドを実行する。これによって表示される日付は、そのファイルまたはディレクトリが更新された日付。


ls -ul は最終参照日時を表示。
ls -clはファイルまたはディレクトリの作成・状態変更日時を表示。


参考URL http://www.atmarkit.co.jp/flinux/rensai/linuxtips/262filedateck.html


中身のあるディレクトリの削除 
rm -r ディレクトリ名

2011年2月18日金曜日

語のメモ seqintra meeting (TOM/SAM, sudry, pvalue,refseq,ガンマ分布 etc.

general translocase of the outer membrane (TOM complex) and the sorting and assembly machinery (SAM complex), which is dedicated to β-barrel proteins. The SAMcore complex consists of three subunits, Sam35, Sam37, and Sam50, that can associate with a fourth subunit, the morphology component Mdm10, to form the SAMholo complex.
by http://www.jbc.org/content/281/32/22819.full

sundry 【形】
    いろいろな、種々{しゅじゅ}の、種々{しゅじゅ}さまざまな、いくつかの、数人{すうにん} 
    by eijiro

p値

【仮名】pち
原文】p-value

統計用語。ある実験中に群間差が偶然生じる可能性を示す尺度例えば、p値が0.01(p=0.01)というのは、この結果を偶然生じることが100回に1回あることを意味する。p値が小さくなるほど、それだけ群間差は治療により生じている可能性が高くなる。

by PDQ®がん用語辞書

有意確率 p value

統計的仮説検定において,帰無仮説のもとで得られた検定統計量実現する確率例えば,正規分布において標準得点が 1.96 以上となる確率は 2.5%。有意確率がまえもって定め有意水準より小さ場合帰無仮説棄却し,大き場合帰無仮説採択する。

by 統計学用語辞典


NCBI Reference Sequences The Reference Sequence (RefSeq) collection aims to provide a comprehensive, integrated, non-redundant, well-annotated set of sequences, including genomic DNA, transcripts, and proteins. RefSeq is a foundation for medical, functional, and diversity studies; they provide a stable reference for genome annotation, gene identification and characterization, mutation and polymorphism analysis (especially RefSeqGene records), expression studies, and comparative analyses.
by http://www.ncbi.nlm.nih.gov/RefSeq/


by統計学用語辞典

統計学用語辞典統計学用語辞典

ガンマ分布


Excel にはgammadist,gammainvという関数用意されている。

ガンマ分布
Γ ( λ ) はガンマ関数である。
ガンマ分布
図 1.ガンマ分布の概形

この分布で,λ = 1 すなわち,Γ ( 1, α ) は,f ( x ) = α e - α x となり,これは指数分布である。
平均 E ( x ) ,分散 V ( x ) は
E ( x ) = λ / α, V ( x ) = λ / α2
である。

ガンマ分布

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2010/10/25 18:58 UTC 版)
確率論および統計学において、ガンマ分布 (gamma distribution) は連続確率分布の一種である。ガンマ分布の確率密度関数は、ガンマ関数を用いて次のように表される。
 f(x) = x^{k-1} \frac{e^{-x/\theta}}{\Gamma(k)\,\theta^k} 
 \ \ \ \ \mathrm{for\ } x > 0
ここで、ガンマ分布の形状母数 k > 0、尺度母数 θ > 0 である。
ガンマ分布の累積分布関数は、不完全ガンマ関数を用いて次のように表される。
 F(x) = \int_0^x f(u)\,du  
  = \frac{\gamma(k, x/\theta)}{\Gamma(k)}
ガンマ分布の確率変数X とするとき、平均 E(X) および分散 V(X) は次のように表される。
\begin{matrix}
  E(X) = k \theta \\
\\
  V(X) = k \theta^2
\end{matrix}
ガンマ分布は再生性を有する。すなわち、パラメータに k1θ を持つガンマ分布の確率変数を X1、パラメータに k2θ を持つガンマ分布の確率変数を X2 とするとき、確率変数が X1 + X2 であるガンマ分布のパラメータは k1 + k2θ である。
k整数である場合、このガンマ分布はアーラン分布となる。特にk = 1 である場合、このガンマ分布はパラメータに θ を持つ指数分布となる。また、パラメータに θ を持つ互いに独立な n 個の指数分布の和は、パラメータに nθ を持つガンマ分布(アーラン分布)となる。
k半整数であり、かつ θ = 2 である場合、ガンマ分布はカイ二乗分布となる。

2011年2月15日火曜日

ごのメモ

配列プロファイル法(モチーフ法,フィンガープリント法)

あるファミリー中のタンパク質に共通するアミノ酸配列パターン(配列プロファイル,モチーフ,フィンガープリント,などの名称でよばれる) をあらかじめ定義しておけば,与えられたタンパク質の配列がそのパターンをもつかどうかを調べることによって,そのタンパク質がそのファミリーに属するか どうかを判定することができる.そのような方法を,配列プロファイル法,モチーフ法,フィンガープリント法,などとよぶ.

PMF(ペプチドマスフィンガープリント)法

タンパク質を消化して得られるペプチドのプロファイルを元にデータベースとの照合によりタンパク質同定を行います。
純度の高いタンパク質が得られる場合にお勧めです。

高い純度のタンパク質をトリプシン等の消化酵素で処理すると、酵素の特異性に従ってタンパク質は消化され、個々のタンパク質のアミノ酸配列に応じたペプチ ドに分解されます。生ずるペプチドの種類は、個々のタンパク質に特有のものですので、得られる複数の消化ペプチドの質量を測定することにより同定が可能と なります。
http://theravalues.com/services/pro_pmf.html

フットプリント法
footprinting
タンパク質がDNAに結合する部位を調査する手法。DNaseがタンパク質の結合したDNAは分解しない性質を利用し、タンパク質の結合したDNAをDNaseで処理し、ゲル電気泳動することでタンパク質の結合した部位がバンド上では抜け落ちたようになる。
http://dict.xii.jp/bio/cgi-bin/view.cgi?1316&bio_dictionary

Ubiquitin is a small regulatory protein that has been found in almost all tissues (ubiquitously) of eukaryotic organisms. Among other functions, it directs proteins recycling.
(Wikipedia)

2011年2月10日木曜日

語のメモ(ハイスループットスクリーニング)

ハイスループットスクリーニング (High throughput screening)

ハイスループットスクリーニングとは、膨大な種類の化合物から構成される化合物ライブラリーの中から、自動化されたロボットなどを用いて、創薬ターゲットに対して活性を持つ化合物を選別する技術をいいます。
ハイスループットスクリーニングにより、保有している大量の化合物の中から、短時間で目的とするターゲット分子に親和性を有する化合物の探索を行えることが可能になりました。そのため、現在では、多くの製薬企業で採用されています。
し かしながら、一見効率的に見えるハイスループットスクリーニングではありますが、問題点がないわけでもありません。たとえば、運用開始時における化合物の 収集、装置の導入、化合物やアッセイ結果を生理するためのデータベースの構築や、運用時における化合物、装置、ソフトウェアの保守などに多大なコストかか ります。
(http://www.pharmadesign.co.jp/k/%E3%83%8F%E3%82%A4%E3%82%B9%E3%83%AB%E3%83%BC%E3%83%97%E3%83%83%E3%83%88%E3%82%B9%E3%82%AF%E3%83%AA%E3%83%BC%E3%83%8B%E3%83%B3%E3%82%B0.html より引用)

2011年2月8日火曜日

劇団だるいの宣伝(新作っとな)

我がいとしの先輩と後輩が出られる劇、劇団だるいの宣伝です。
この劇団、は、裏切りません。あたたかくなることまちがいなしです。

・劇団だるい第5回公演「 流星キャッチャー 」
・日時:2011年2月25日(金)~27日(日)
・場所:しもきた空間リバティ
・料金:前売り1,500円/当日1,800円
・URL:http://darui.ehoh.net

皆さんもぜひ、だるいを!ミニ!
応援してます☆

2011年2月4日金曜日

語のメモ 配列解析

シグナルペプチド
シグナルペプチドは、タンパク質分子にある短い(3から60アミノ酸ほど)ペプチド配列で、シグナル配列、あるいは局在シグナル輸送移行シグナルなどとも呼ばれる。細胞質内で生合成されたタンパク質の、輸送および局在化を指示する構造である。
具体例

  • 小胞体移行:H2N-Met-Met-Ser-Phe-Val-Ser-Leu-Leu-Leu-Val-Gly-Ile-Leu-Phe-Trp-Ala-Thr-Glu-Ala-Glu-Gln-Leu-Thr-Lys-Cys-Glu-Val-Phe-Gln-
  • 小胞体保留:-Lys-Asp-Glu-Leu-COOH
  • 核移行(NLS):-Pro-Pro-Lys-Lys-Lys-Arg-Lys-Val-
  • ミトコンドリアマトリックス:H2N-Met-Leu-Ser-Leu-Arg-Gln-Ser-Ile-Arg-Phe-Phe-Lys-Pro-Ala-Thr-Arg-Thr-Leu-Cys-Ser-Ser-Arg-Tyr-Leu-Leu-
  • ペルオキシソーム(PTS1):-Ser-Lys-Leu-COOH
  • ペルオキシソーム(PTS2):H2N-----Arg-Leu-X5-His-Leu-
小胞体シグナルペプチド
小胞体シグナルペプチドは最も研究の進んでいるシグナルであり、タンパク質分子のアミノ末端(N-末端;H2N-)にある5-10個ほどの疎水性アミノ酸を中心とする配列

(以上wikipediaより)
presequence


(N末側アミノ酸配列) プレ配列, (特に分泌や膜結合のための場合) シグナルペプチド
(by Web LSD)
オルタナティブ スプライシング
図4 スプライシング
(上)転写された加工前のmRNAが三つのイントロン(細い線)を含むことを表す。(下)スプライシングによるイントロンの使い分けにより、例えばこのような完成品として2種類のmRNAをつくることができる(この作り分けをオルタナティブスプライシングとよぶ)。

isoform
 (機能が類似しているがアミノ酸配列の異なる蛋白質) アイソフォーム, イソ型
(Web LSDより)
inadequate
不適切な
expose
曝露 する, 露出 する, 露光 する, 被曝 する, 曝す
(Web LSDより) 
  • ~の過程で
    • in the course of
    • in the process of
    (英辞郎より)
 LAST
What distinguishes LAST from BLAST and similar tools (e.g. BLAT, LASTZ, YASS)?
  • The main difference is that it copes more efficiently with repeat-rich sequences (e.g. genomes). For example: it can align reads to genomes without repeat-masking, without becoming overwhelmed by repetitive hits.
(by http://last.cbrc.jp/)
 
  シーケンスロゴ
 
http://en.wikipedia.org/wiki/Sequence_logo
 
 

2011年2月2日水曜日

Local Blast めも2

低複雑性領域(low complexity region)

タンパク質のアミノ酸配列の中で、少数の種類のアミノ酸が繰り返し現れるような領域のことを、配列の複雑さが低いという意味で低複雑性領域と呼ぶ。このような領域を構成しやすいアミノ酸としては、プロリン(P)、グリシン(G)、グルタミン(Q)、セリン(S)、トレオニン(T)などが挙げられる。また、低複雑性領域を検出するプログラムとしてSEGが知られている。

低複雑性領域の生物学的意味はよく分かっていないが、2次構造を形成しないループ領域の中に低複雑性領域がよく見られる。このような領域は、タンパク質結晶中でも動きやすい構造をとっているためにX線結晶解析では立体構造を決定することができない。このような領域のことをDisorder region(無秩序領域)と呼び、タンパク質の相互作用や基質の認識に関与すると考えられていることから注目を浴びている。
(Rafysta より)

2011年2月1日火曜日

20110201 ラボミーティング

トポロジー
2つのタンパク質構造で、αヘリックス、βストランドの空間位置が同じで、その間の高分子鎖の
つながり具合も等しい。(引用 蛋白質の立体構造トポロジーとフォールディング 高田彰二)

brute

荒々しい、凶暴な
PHECOM/GHECOM
大小2種のプローブ球を用いて蛋白質表面からポケット形状部を発見するプログラム
http://bsw3.naist.jp/courses/courses501.html
SketchSort法
データー点の集合が与えられたら、集合中の任意の2点間の距離がある閾値以内のペアー(近傍ペアー)を全て求める問題(全点間類似度検索)を高速に解くための方法
http://d.hatena.ne.jp/tb_yasu/20100911/1284207891

Screening(by Wiki)
investigation of a great number of something (for instance, people) looking for those with a particular problem or feature.