同じ遺伝子の転写産物がデータベースごとにどのように違うのか調べてみました

転写産物の数

下記の4つのデータベースについて、FGFR1の転写産物や蛋白質の種類を調べてみました。

Dataase Transcripts Proteins
NCBI Gene 7 6
NCBI Aceview 25 26
Uniprot - 18
H-Inv H-DBAS 7 -

このように、DBによって随分と異なります。Uniprot(SwissProt)を中心に詳しく調べてみて、その違いがどこからくるのかがわかるかどうか挑戦してみます。

SwissProtのEntry配列とNCBIのnr

Uniprot(SwissProt+Tremble)は、蛋白質のデータベースなのですが、遺伝子ごとに蛋白質を分類しているようです。UniProtのIDは、たとえば、FGFR1だとすると”FGFR1_HUMAN”という名称で、ひとつのEntryがあるだけです。そのEntryに代表のアミノ酸配列が1本登録してあって、そのIsoformのアミノ酸配列は登録されていません。Isoformは、代表配列からの差異の情報として格納されているだけです。つまり、遺伝子ごとに蛋白質が整理されているということだと、わたしは理解しております。現在、ヒトのSwissProtのEntryの数は、約1万6千です。これにTrembleの蛋白質を合わせたものがUniProtで、ヒトで約3万のEntryがあります。*1
そのSwissProtのFGFR1_HUMANのIsoformが、NCBIのnrにIDとして登録されているかどうかを確認してみました。方法は、IPI*2のFGFR1のアミノ酸配列18種類をNCBIのnrにBLASTPして、完全一致したSubjectのIDをチェックするというものです。Entryの代表配列にヒットしたアミノ酸配列には、SwissProtの登録IDがアノテーションとして記載されていましたが、Isoformに完全ヒットしたアミノ酸配列には、SwissProtのアノテーションはありませんでした。

SwissProtのIsoformにない、FGFR1から作られる蛋白質が存在するか?

このテーマについては、明日、報告します。

明日といっていたのに、1年たってしまいました。やっと、解析をする時間を取ることができましたので、作業はそろそろ終わりです。報告までもう少し。。。

*1:TrembleのEntryが人の手により文献等により確認されるとSwiaaProtに昇格するとのことです。つまり、ヒトでは、あれだけ情報が豊富なのに、まだ、半数の1万6千の遺伝子しか本物として認められていないということになります。

*2:IPI:SwissProtのEntryの情報を参照して、すべてのIsoformのアミノ酸配列を作って公開しているサイトです。ヒトで約5万の配列が登録されています。