プロテオームとトランスクリプトームの現場　その２ - 転写産物をクラスタリングして見えてくるもの

昨日は、結局転写配列に関する現場の問題点を明らかにするだけで、ひとつひとつの問題に対する解決案も示さずに、終わってしまいました。今日は、プロテオームについて、わたしたちが現場の先生からお聞きしている問題点をいくつかご紹介します。

質量分析におけるアミノ酸配列データベースの意味

　PMF（PeptideMassFingerprint）法にしろ、MS/MS、質量分析のスペクトルから蛋白質を同定するにためには、同定されるべき蛋白質のアミノ酸配列が検索エンジン（たとえば、MASCOT）の検索対象データベースとして存在していなくてはならないわけです。
　蛋白質の質量分析の現場にとっては、実験結果を見極め、さらに、次のステップ（抗体を作る、機能解析をする等）への情報として、”蛋白質を決める”というこは重要で、その重要な作業の中心は、質量分析用検索エンジンシステムと、アミノ酸配列データベースなのです。が、検索エンジンについては、語られることもありますが、実は、アミノ酸配列データベースについては、議論されることは少ないように感じております。

既知蛋白質を同定する場合の問題

　トランスクリプトームでの現場の問題点でもある、情報量が膨大になってしまったことは、蛋白質の質量分析でも問題になっています。情報量が増えることは、決して悪いことではありません。たいへん良いことです。日本が行ったヒト完全長プロジェクトの副産物として蓄積された１３０万の5'EST配列は、多くの転写開始点の情報を提供し、intornやInterGenicな領域に落ちる転写産物（以前は、ゴミかコンタミ扱いだった転写産物）のリアリティをあげ、蛋白質をコードしていない転写産物の量が相当量あることも示してくれました。膨大なESTは、たとえば、マイナーなスプライシングバリアントがたくさんあることを提示してくれます。
　現在、質量分析のための検索エンジンが利用する既知蛋白質データベースの代表は、NCBIのnr-AA（non-redundantなAminoAcid配列）です。NCBIのnr-AAは、全生物種の蛋白質配列を持っています。その数、約２８０万本。ヒトだけですと、約１７万本あります。遺伝子の数が、３万とも８万とも言われているわけですが、それにくらべるとかなり冗長です。AssESTのコンセンサス配列が約４０万本ですので、FGFR1だけみてもわかるように、スプライシングバリアントがかなり存在していることは、間違いないでしょう。
　そのような状況の中で、既知蛋白質同定に係る問題が一昨年からいろいろの先生からお聞きするようになりました。そのひとつが、non-redundantなアミノ酸配列データベースを使っているにもかかわらず、ひとつの蛋白質のPMFやMS/MSのマススペクトルの検索結果に、複数の既知蛋白質が同じようなスコアでヒットしてくるケースが増えてきたということです。これは、情報量が増えてきたためにそういうことが起こるわけです。

図１：FGFR1の小さなスプライシングバリアント

図１は、FGFR1のスプライシングバリアントの記事でもお話しましたが、６塩基長さが異なるエキソンを持つmRNAが存在することを示す図です。この小さなスプライシングバリアントを持つ転写産物として、ふたつのNM配列（Accessionの先頭２文字がNMの配列）、つまり、RefSeq配列が存在していますが、これらは、別々のNP蛋白質（Accessionの先頭２文字がNPのアミノ酸配列、RefSeqのアミノ酸配列）として、NCBI-nrに両方とも登録されています。つまり、ほとんどのアミノ酸配列は同じで、小さなスプライシングバリアント部分３アミノ酸が異なるだけの蛋白質がnon-redundantとして登録されているわけです。おそらく、質量分析において、この２種類の蛋白質の意味は、それほど大きくはないのかもしれません。しかしながら、コード領域のエキソンが一個ある・ないでは、蛋白質の機能に及ぼす影響は大きいかもしれません。
　つまり、同程度にヒットした蛋白質がどういう関係なのか（同じ遺伝子から発現したスプライシングバリアントなのか、それも、小さな違いを持っているだけなのか、エキソン一個から数個異なる大きなアミノ酸の違いがあるものが同じスコアにならなんできているのか、また、異なる遺伝子だけれどもファミリーなのか、単に、たまたま、よく似たモチーフ配列を持っている異なる遺伝子なのか）それを、データベースを詳細に見て、改めてアノテーションする必要が、現場ではあると聞いております。
　これを解決するには、それぞれの蛋白質が、どの遺伝子のどの転写産物から邦訳されたかをデータ化して、検索結果のビューアでそれがちゃんと見えるようにし、検索結果を見ながら、同一スコアの検索結果を本物らしいものから順番にならべ直すことができるようになる必要性を感じています。

蛋白質データベースいろいろ

　蛋白質データベースにも、いろいろあります。質量分析の検索エンジンでは、NCBI-nr(AA)がデフォルトになっていることが多いようですが、上で説明したように、必ずしも、nrがよいわけではないと思います。どのようなアミノ酸配列データベースを利用すると目的が達成できるのかをよく考える必要があるかもしれません。
　手前味噌で申し訳ないのですが、弊社では、蛋白質データベースの１アミノ酸配列ごとのdescriptionにUniGeneIDを付与するというaddGeneという取り組みをやっておりまして、無料でダウンロードできるようにしておりますので、一度、ご興味があれば、ご利用ください。さらに、今現在では、「AssEST」のサブクラスタ分類を利用したaddGeneASVという取り組みもスタートしています。その他にも、２つの取り組みを走らせていまして、プロテオームでは転写配列の情報は必要ないであろうと思っていたのですが、現実問題を突破する方法のひとつとして、わたしは使えるのではないかと素人ながらにも考えております。

DB Name	蛋白質の数（Human)	特徴
NCBI-nr(AA)	約１７万	網羅性が高いが実質的なredundancyも高い
UniProt	約１１万	SwissProtを含む。蛋白質のアノテーションが豊富
IPI	約５万７千	あらゆるデータベースから配列を集めてきてnon-reduntantなセットを作っている
addGene	約１７万	データソースは、NCBI-nr(AA)と同じ。descriptionの先頭にUniGeneIDを付与