次世代シーケンサの簡単なスペック比較

次世代シーケンサのハード面での比較表と作ってみました。インターネットをあさって探したので間違いがあるかもしれません。リード長は最大(short read の場合はpaored-endで読んだ場合)の長さを示してます。行で矛盾があるかもしれません。修正・追加していきますが、ご指摘いただけると助かります。

Read length(MAX) Run Time Number of reads Output(GB)
short read Illumina社 HiSeq200 2x100bp 〜8days 2G 150-200
GAIIx 2x75bp 〜9.5days 138-168M 20.5-25
GAIIe 2x100bp 〜9.5days 180-200M 18-20
AB社 SOLID system3 plus 2x50bp 12-14days >100M 50-60
SOLID system4 2x50bp 12-16 1.4G 80-100
Long read Roche社 GS FLX 400bp(AVG) 10hours 1M 0.4-0.6
GS junior 400bp(AVG) 10hours 0.1M 0.035

NTTの研究所の仕事をしていたときの話

 先日、会社のみんなと会議スペースでビールを飲んでいるときに、会社設立当社から約12年間携わったNTTの研究所の仕事の思い出話になりました。このシステム、開発開始から25年以上たっているのにもかかわらず、いまでも利用されています。いまでいうところのクライアント・サーバ型アプリケーション開発用フレームワークのようなものでした。最初は、メモリ128kbytesで8インチの外付けフロッピーディスクがついたNECのPC9801で開発していました。PCとセンターのコンピュータマシン(DIPSという汎用機で、富士通・日立・NEC・OKIがそれぞれそれ開発していました)との通信は、アナログ電話回線ダイアルアップの300bpで、GもMもKもついていないという速度です。その後、このシステムは、サーバーサイドスクリプト機能を持ったWebServerに発展し、現在では、Linux版が動作しています。昔話は、別の機会に譲るとして。。。

NTTは技術開発の実務を外部委託し民間を育てる

 この約12年間の開発のなかで、ひとつ不思議だなと思っていることがありました。NTTの研究所の担当者の方は、情報系を出た方々で、プログラムを作る能力を十分持っておられるのにもかかわらず、自らプログラムを開発する方がおられなかったのです。(ソフトウエア研究所という名称だったのに)それについて、質問してみたら、”NTTがソフトウエアを開発する場合、原則として、すべて外注するという方針です”という答えがかえってきました。NTTは、自らの電信電話業務を行うなかで、必要とする技術の開発を外部の民間会社に委託することで、民間企業への技術蓄積と民間企業の育成、さらには、新たな産業を育て発展させるというミッションを持っていたということでしょうか。これは、約10年前のことなので、いまでもそうなのかどうかわかりませんが、確かに、我々はPC上のアプリケーションの開発やクライアント/サーバのためのミドルウエアの開発、さらには、Webserverの開発という、おそらくあのころ日本ではだれもやったことがないであろう仕事を”お金をもらって継続的に”できたことは(しかも利益あげてもいいわけです)我々にとっては、その後のいろいろな仕事をしていく上で、大きな財産となりました。現在のバイオテクノロジー分野での仕事にも、そのときに学んだことが間違えなく役に立っています。

バイオテクノロジーは、どう民間を育てたか?

 バイオテクノロジー分野、特にバイオインフォマティクスについては、ここ10年間で、民間を育てることはできたのでしょうか?・・・産業が育つどころか、大手の会社はみな引き気味という状態なのはみなさんの知るところです。それは、なぜでしょう?あれだけの予算が落ちていたのに・・・なぜ民間は育たなかったのか?

バイオインフォマティクスは”職業”であるという認識はあるか?

 バイオインフォマティクスは、”新しい研究領域”という位置づけはあっても、”新しい職域”という認識は関係者のみなさんにないのかもしれませんね。バイオインフォマティクスを”職業”とする我々は、プログラムを作ることが仕事で、当たり前の話ですが、”仕事はひとの役に立つってなんぼ”で、それが労働のモチベーションになります。しかしながら、バイオインフォマティクスのニーズの対応を研究者の方が行うとしたらどうでしょう。研究者の方々は、根底にはひとの役に立つという気持ちをお持ちであることは間違いなと思いますが、第一義的には研究成果をあげることがミッションで、それが行動規範となります。となると「他の研究者の研究目的を達成するために、ソフトウエアをインストールし、公共DBをダウンロードし、ツール用にフォーマット変換して、検索の条件を調整し、出力を研究者の目的に合うように変換し、研究者とディスカッションし協力してtry&errorを繰り替えす」ような仕事は継続して行うことは、研究者のモチベーションでは難しいと思います。しかも、ソリューションを提供するためには、技術知識としてカバーしなければならない範囲も広く(良く知っている手法だけで解決していくのは難しい)、時にはIT業界から必要なリソースを探すことまでやらなければならない場合があります。
 もちろん、実験研究者の方が、バイオインフォマティクスについて勉強していただくことは絶対に必要で、なぜならば、どういうデータ解析を行うかが、研究そのもののアドバンテージにつながり、それを考えていただくのは研究者の役割だからです。
 また、バイオインフォマティクスそのものの研究も重要で、我々が日ごろ利用するバイオ系のツールのほとんどが、アカデミックの研究者が開発し論文になったものです。ですので、新たなツールを開発する研究はどんどん進めていただきたいと考えております。(NTTの仕事をしていたときの発注者は、NTTの研究員であったのと同じです。)
 しかしながら、バイオインフォマティクスにかかわる第3の職域、つまり、各生物学者の研究目的達成するための”実作業”を高いモチベーションを持って実行する人々が必要であるという認識は、なかなか広まっていないのかもしれません。IT分野では当たり前なのですが・・・

NTTと同じ方式はとれないのか?

 NTT研究所が昔取った方法と同じように、独立行政法人や独立学校法人などの税金で動かしている機関において、バイオテクノロジーに関するソフトウエアの開発やソフトウエアによるデータ解析を行う場合、必ず民間の外部業者を使うということにはできないのでしょうかね?ポスドク雇用が必要なくなるという懸念もありますが、バイオインフォマティクスポスドクは、外部業者と協力して研究を進めるスキルを身につける良い機会でもあります。

 おまけにもうひとつ、派遣出向できている方に、プログラムを作らせることもNTT研究所は行っておりませんでした。派遣・出向のひとたちはいましたが、開発業務ではなく、コンピュータのオペレーションや間接業務に従事していました。

次世代シーケンサ データ解析のポイント

 次世代シーケンサのデータ解析のポイントをまとめて、会社のホームページにアップしました。

次世代シークエンサーデータ解析のポイント | 株式会社メイズ

次世代シークエンサがもたらすもの -スクリーニング手法(三次解析)の重要性-

 次世代シークエンサによる大量配列解析は、多くの研究者に“手軽で低コストな網羅的解析”の手段を提供することになります。しかしながら、次世代シークエンサによるアプローチも当然のことながら難しい課題をかかえています。。。続きはここをクリック

次世代シークエンサ普及までの過渡期としての課題

 次世代シークエンサが当たり前のように利用されるには、もう2,3年はかかるかもしれません。しかしながら、世界中で次世代シークエンサを使った研究が始まっている中。。。続きはここをクリック

アプリケーションとデータ解析の分類

 次世代シークエンサを適用できる分野(アプリケーション)は多岐に渡ります。しかしながら、 。。。続きはここをクリック

フリーソフトウエアの選択

 次世代シークエンサを“測定機械”として利用する場合、通常、シーケンサメーカから提供されているソフトウエアでベースコール(一次解析)し、その配列をalignerによりマッピングマッピング情報をもとにシグナル値を出力(二次解析)します。。。続きはここをクリック

解析に利用する公共データの選択

 次世代シーケンサのデータ解析では、リファレンスの配列データを使ってマッピングを行ったり、アノテーション情報を利用してスクリーニング処理を行ったりします。転写産物の情報も利用します。しかしながら、 。。。続きはここをクリック

実験を行う前に、データ解析について、ディスカッションすることの重要性

 データ解析において、考慮しなければならない要素が沢山あります。また、それは、測定対象のサンプルや実験のデザインとも関係する場合が多々あります。 。。。続きはここをクリック

 サービスもまとめてみましたので、ご興味のある方は参考にしてください。

受託のデータ解析をお考えのお客様へ | 株式会社メイズ

 また、共用利用で、次世代シーケンサを導入されたお客様へのパッケージもご用意しております。

共同利用で次世代シークエンサーをお使いになるお客様へ | 株式会社メイズ

 ※denovo sequence についてサービス内容をまとめているところです。ホームページにアップまではもう少しかかりそうです。

NCBIのユーザインタフェースが一新

 先週、NCBIのサイトがリニューアルしたようです。すべてを確認したわけではありませんが、新しい機能が付け加わったというよりも、ユーザインタフェースを”改善?”する目的で実施されてようにも見えます。HPPubmedのデザインは一新されましたが、それ以外のページは、デザインも見た目には変更されていないように思うのですが。。。
 もし、どなたか有用な機能追加・変更を発見されたら教えてください。

AnnotationCollectorアノテーションコレクタが正常動作しなくなりました

 10月28日 NCBIの検索を簡単に行うためのツールであるAnnotationCollectorアノテーションコレクタの次回バージョンアップ項目を検討しようと思い、サイトにログインしてみたら、まったく正常に動作していないことがわかりました。
 まずは、ご利用いただいているみなさまには、多大なご迷惑をおかけしたこと深くお詫び申し上げます。
 さて、正常に動作しなくなった原因ですが、NCBIユーザインタフェースが一新されたことによります。AnnotationCollectorアノテーションコレクタは、AccessionやKeywordを条件として、NCBIのEntrzGeneに対してQueryを投げ、その結果としてNCBIから送られてくる”画面(HTML)”を解析して、表形式で表示するというアプリケーションです。ですので、NCBIの画面の仕様が変わると正常に動作しなくなります。これまでも、仕様変更はたびたびありました。ASPモデルにして使用料金をいただいているのも、このNCBIの仕様変更に対応してプログラムを修正していく体制を維持するためです。
 ここ2年ほどは、大きな変更はなく、マイナーチェンジが多かったのですが、今回の変更は、EntrzGeneに限っていうと、画面上の見た目はさほど変わっていないにもかかわらず、HTMLを解析する
という観点ではこれまでとはまったく異なる新しい”画面”に変わっていました。

 ミツバチの大量失踪とわたしの家の周囲の現象について

 テレビでも報道されているように、一夜にしてミツバチが大量に失踪する原因不明の現象−蜂群崩壊症候群(ほうぐんほうかいしょうこうぐん、Colony Collapse Disorder、CCD)−が、世界中で問題となっています。
蜂群崩壊症候群 - Wikipedia
 この話題について、親しい人たちと雑談していたときに、ふっと、わたしの家のまわりでおこっていることを思い浮かべてしまいました。もし、このミツバチの大量減少の解明に向けてヒントになるのであればと思い、ここに記録します。

2008年より、家の周りの虫が大量に減少しています

 わたしの住んでいる町は東京から近いのですが、クマ、イノシシ、シカ、キジ、サル等々が生息していて、それを目指して集まる鉄砲を持った人たちもたくさん現れる、自然環境(生態系)が残っているたいへん住みやすいところです。東京まで通勤ができますので、山の針葉樹も伐採後放置されるおとが多いのか、世には広葉樹が増えているように思われます。秋の紅葉は毎年その美しさを増しているようです。
 谷底に大きな河が流れていて、この河は上流に大きな町がいくつもあり汚染されている可能性がありますが、我々が住んでいる谷の上ではこのあたりに降った雨のみが水源になるということ、また、岩山の上の土地ですから田畑を作ることは非常に困難で農薬による汚染も進んでいないのかもしれません。そのためか、虫の種類が多く、地元の”蛾”収集家にいわせると、「東京にこんなに近いところで、これだけの種類(どれだけなのか定量的ではないので申し訳ありません)の蛾が取れる場所は珍しい」とのことです。
 夏から初秋にかけて、夜、明かりのあるところには、大小さまざまな虫がものすごい量集まってきます。もより駅に夜降り立つと、改札までは虫の雲の中を歩くようで、虫が顔にあたるのをかわしながら、しかし、たくさんの虫にぶつかりながら歩くことになります。(もちろん大半はかわしてくれるのは虫のほうですが)朝は駅の階段やホームは虫の死骸がいっぱいです。めずらしい蛾がいっぱいです。
 しかしながら、昨年2008年から、虫の数が激減しているのです。昨年も今年も、初夏のころに大雨が降ったので、卵や幼虫が流されてしまって減ったのかなとも思っていたのですが、ハチの大量失踪減少との関係があるんじゃないかと心配しています。

環境生物について

 仕事をさせていただいた先生から、”環境生物”という考え方があることを聞きました。
環境生物トビムシの放射線影響遺伝子探索
 この報告は、HiCEP(ハイセップ)という技術を使って、土壌に一般的に生息している「トビムシ」という生物をから、放射線影響に関する環境マーカ遺伝子の候補を見つけましたという研究です。
 Wikiペディアの記述によるとミツバチの大量失踪の原因について、また、分子生物学的には研究されていないようで、内分泌かく乱物質のミツバチに対する影響等々、HiCEPを使って調べて欲しいなぁーと思っています。
 ところで、環境ホルモン=内分泌かく乱物質の問題について、最近、テレビなどで話題にならなくなったのはなぜでしょう。ダイオキシンなどは、母乳から検出されるほど蓄積が進んでいるのに大丈夫なのでしょうか?また、内分泌かく乱物質は、たいへん低濃度で影響(悪い影響、良い影響、どうでもいい影響など、影響の種類はともかく低濃度で影響)がでるそうです。しかも、高濃度になるほうが影響が少ないという、通常の毒性の考え方がまったく通用しないメカニズムが考えられるとのことですが、よくはわかっていないようです。
 ひょっとすると、ハチや蛾などの”昆虫”の生命を維持のバランスを崩すなにかが、ある閾値を超えて、ハチの大量失踪が起こっているかもしれません。ヒトのような大きな動物は、もう少し先かもしれませんが、なぁーーーんとなく、”人間関係”や”人々のスキル”という面において、崩壊の閾値を超え、カタストロフィーをそうな予感もあります。ですので、この方面の研究に携わっている研究者の方々に是非がんばっていただいて、調査と原因究明と対策案作成に成果を出していただければと思います。

AnnotationCollectorFree
楽々アノテーション収集ソフトウエア
網羅的解析の後はこれが一番
http://www.maze.co.jp/

JHUPO(日本ヒトプロテオーム機構) 第7回大会 に出展しました。


 プロテオームの学会で、あえて、網羅的転写産物プロファリング法であるHiCEPをアピールしてみました。思っていた以上に、発現解析をやっている方がおられたことに驚きました。質量分析で網羅的にプロファイリングをするのは難しいので、転写産物のプロファイリングとプロテオームを組み合わせて研究しているっしゃるようでした。もちろん、転写産物のプロファイリングは、DNAマイクロアレイを使っておられるわけで、今回も網羅的転写産物プロファイリング手法はDNAマイクロアレイ法だけではないということを十分アピールできたと思います。使ってもらえるといいのですが。。。

アノテーションコレクタ

 アノテーションコレクタ無料サイトAnnotationCollector FreeをOpenしてからはじめての展示で、たくさんの人にご紹介できるのを楽しみにしていたのですが、いまいち空振りに終わりました。
 病気や表現型の違いが、分子のバリエーション(発現量の差も含めて)にあるのであれば、ヒトやマウスの膨大な遺伝子情報から”違い”と関連づけて候補をどのように絞り込むかは、重要なポイントとになると思っています。

 
 

バイオ燃料の展示に一石を投じられるか!?

 2009年7月22日〜24日まで、横浜パシフィコで開かれるバイオフューエルワールド2009に出展しています。
http://www.biofuels.co.jp/2009/
 今年で2回目、昨年に比べると、かなりバイオ燃料ビジネスが回りはじめているように思えました。ヤトロファの作付面積も増えているようで、中国で自生しているヤトロファから作ったバイオ燃料重油と同等の精製度)の輸入が始まったそうです。ということは、多量に消費していくれるユーザがでてきたということですから、この分野は急激に伸びるのでしょうね。
 今のビジネス上のアドバンテージは、どうも、作付面積=大量に供給できるかどうか にあるようです。コストはまだいいのかもしれません。この分野は、結局のところ農業技術と醗酵技術なのだから、遺伝子解析技術を使った遺伝子改変や導入、品種改良など、遺伝子解析技術をどう使うかが、この分野の今後のアドバンテージにつながると思うのですが、いかがでしょう?