次世代シーケンサのデータ解析ってどの程度たいへんなの?

 次世代シーケンサのデータを解析する仕事が少しづつ増えてきました。確かに、次世代シーケンサのデータ量は半端ではありませんが、最近わたしの家庭に500GbyteのUSBハードディスクが登場したことを考えると10Gbyte程度のデータに驚くことはないようにも思えます。次世代シーケンサのデータ解析は、本当にたいへんなのでしょうか?わたしの印象をまとめてみました。

網羅的に解析を行うということ

 現在、受託で数十万だせば、微生物ゲノムは、一本につながらないものの(カバー率が100%でなくても)、遺伝子の配列情報を網羅的に手にすることができます。転写産物についても、次世代シーケンサを使えば、これまでデータベースには登録されていないような低発現の転写産物の配列(マイナーなSplicingVariantやnon-codingRNAなども含む)も手にいれることができます。ChIP-seqでも、本当にゲノムワイドにシグナルを検出することができます。SNPにいたってはもちろんのこと、SNPよりもう少し大きなゲノムの変異をも検出可能となります。
 ということは、配列の数の問題もありますが、配列から引き出すことができる情報量も格段と増えているということになります。網羅的解析とは、多くの情報を手に入れるということですので、そこから、個々の研究にフォーカスした情報を絞り込んでいって、新たな知見を得るための戦略が必要というたいへんさがあるということかもしれません。
 次世代シーケンサは、全世界で約900台以上稼動しているそうです。日本でも、今年の補正予算で10台程度は導入されるようです。受託業者もあっというまに増えて、価格競争に入っています。このことは、次世代シーケンサのデータを持っていることだけでアドバンテージになる時期は、すでに終わっていることを意味します。現在は、次世代シーケンサから排出される網羅的な情報を研究にどう生かすか、研究全体の戦略とそれに沿ったデータ解析方法が、研究成果のアドバンテージを生むというステージに入っているということではないでしょうか。

タグ数(配列数)が多いことは問題か?

 タグ数が多いことによる問題は、あまりないと思っています。もちろん、ゲノムマップをするソフトウエアは、大変です。ゲノムマップには、BLAST等のホモロジー検索は時間がかかって使えないため、単純な文字列一致のアルゴリズムマッピングを行います。よって、あるタグ配列の部分に変異部位やinsertionやdeletionが多かったりすると(ゲノムマップするときはできるだけ、実験した株のゲノムを使いましょう)、そこのタグが張り付かないということもあるようです。しかしながら、きっと数年先には、メモリの集積度とCPUのコア数とクロック数が解決してくれると考えています。(25年以上この業界にいると、処理速度の向上という作業が、1年後にはむなしい作業となってしまうことも多々経験していますので...)また、タグの配列長が短い(35baseから50base程度)ので、ゲノム上にマルチヒットしてしまう問題もあるようですが、シーケンサメーカの話では次のバージョンは、もう少し長くなるようで、そうなるとマルチヒットは少なくなってくるでしょう。
 タグ数が多くなって発生する一番の問題は、多くのヴァリエーションを検出することだと、わたしは考えております。

多くのバリエーションを検出することのたいへんさ

 このブログでも再三紹介していますが、”遺伝子”から転写されている配列のバリエーションは想像以上に多くあります。ヒトを材料にしても、報告がない新たなエキソンが見つかってくるでしょう。そのエキソンのシグナルが検出されているということは、そのサンプルのみでそのバリアントが発現しているのかもしれません。しかしながら、転写物のデータがないので、新規のスプライシングポイントのタグ数を数えることができません。つまり、真核生物の転写産物の発現解析には、詳細に次世代シーケンサのデータを解析するには、Splicingvariantの問題が存在しているということです。
 ゲノム構造比較にしても、これまでは種間の保存領域やシンテニーを検出するために比較を行ってきたわけですが、これからは、複数個体間とか複数種類の株間での比較をするわけで、大雑把な比較処理ではなく、SNPも当然のことながら、少し大きなゲノム構造上の違いも含めた、これまでよりも解像度があがって違いが検出されてくるわけです。
 ChIP-Seqのデータも、転写因子結合領域がどのようなバリエーションを持つのかが楽しみです。

最も問題になるだろうことは

 データ処理技術者を雇用することができない研究室でも、以前に比べると格段に安いコストで、ゲノムプロジェクトやcDNAプロジェクト並みの配列データを手にすることができるようになりました。しかしながら、配列のマッピングやアッセンブルのデータ処理技術もさることながら、コンピュータを使って、多くの情報から研究目的に沿ってターゲットを絞り込んでいく方法が、研究のひとつのアドバンテージになることは網羅解析手法が持つ大きな特徴ではないでしょうか。
 たとえば、DNAマイクロアレイでは、差のある遺伝子を検出するところにコンピュータ処理の注目が集まりましたが、現場の研究者のみなさんが困ったことは、多量に出てくる発現変化したプローブや転写物や遺伝子群から、本物を絞り込んでいくところの手法でした。
 サンプルの取り方や実験の方法とともに、データ処理方法も含めて、戦略を作っていくことが、網羅的発現解析の結果を収束させるためには必須であると思います。
 それらを実現するためには、実験を行う前から、遺伝子や転写産物、蛋白質などのアノテーションデータや公共のデータベースについて、詳細に検討・判断するスキルを持っているコンピュータ技術者に相談できることが重要で、さらに、研究の目的のために試行錯誤しなければなりませんので、スクリプトをサクサク作れる優秀なプログラマの存在も重要になってきます。
 しかしながら、そういう人材の供給が極端に少ないというのは、みなさまもご存知のことだと思います。おそらくそのことが、次世代シーケンサでアドバンテージをとろうとしたときの最も大きな課題になるのではないかと危惧しています。

次世代シーケンサ「データ解析のポイント」をまとめてみました。
次世代シークエンサーデータ解析のポイント | 株式会社メイズ