ブログ再開します。

テーマは、「Long read・ロングリード」。

ロングリードのパフォーマンス

ロングリードの技術は

PacBio RSII

 最近の実績は、1CELLで800Mbp以上は普通に読めます。1Gbp前後読めている場合がほとんどです。バクテリアのゲノム長が4Mbpとすると、200倍読めていることになるので、アセンブルして得られるContigは、一本に繋がり、コンセンサス配列の品質もかなり良いようです。

PacBio Sequal

 1CELLで3Gから4Gbp読めてしまいます。品質はRSIIと同じです。1CELLの量が約4倍になって、RSIIを4CELLRUNさせるよりコストが下がりました。

Oxford Nanopore MinON

 1CELLで10Gbp以上読めるとのことですが、まだ、コメントできるほどの実績がありません。 ただ、非常に良くないリードでも、放線菌ゲノムが一本になるということは経験しています。

Chromium

 ライブラリ作製時に、同じDNAから調整したことを示すバーコード配列を付与して、Illumina HiSeq X (ショートリード)でシーケンシングし、アセンブル時に仮想的にロングリードにする方法。こちらもコメントできるほどの実績はありません。ただ、ショートリードだけでアセンブルするのと比べて、かなりコンティグ配列の数が少なくなることは確かです。

ロングリードのメリット

 ロングリードのメリットは、ゲノムの一次構造が明確になることです。もちろん、数キロ以上のリピートがあれば、それを捉えることは難しいかもしれませんが。
 一次構造が明確になると、ショートリードでは見えなかった、大きな領域の転座や逆位が見えてきます。そして、近縁株間で大きなゲノム構造の起こった領域の境界にある遺伝子が影響を受けていることがわかります。これは、ショートリードでは見えない場合がほとんどです。
 また、同じ遺伝子が複数個所にあることもわかります。それらの遺伝子がすべて完全に配列が一致しているわけではないこともわかります。しかし、ショートリードではこれを見極めるのは難しいと思います。

ロングリードの課題

 バクテリアは、ほぼ一本につながります。しかしながら、ゲノム配列の中には入れなかったコンティグ配列が複数現れることがあります。それは、なぜなのか、検討する必要があります。
 酵母は、1セットの染色体になりません。なぜ、1染色体1本にならないのか、その理由をさぐる必要があると考えています。
 そして一番の課題は、倍数体がどのように見えることになるのか?
 データ解析を行うわたしどもも、これらの課題に取り組んで行っていこうと考えております。