同じ遺伝子の転写産物がデータベースごとにどのように違うのか調べてみました - 転写産物をクラスタリングして見えてくるもの

転写産物の数

下記の４つのデータベースについて、FGFR1の転写産物や蛋白質の種類を調べてみました。

Dataase	Transcripts	Proteins
NCBI Gene	7	6
NCBI Aceview	25	26
Uniprot	-	18
H-Inv H-DBAS	7	-

このように、DBによって随分と異なります。Uniprot（SwissProt）を中心に詳しく調べてみて、その違いがどこからくるのかがわかるかどうか挑戦してみます。

SwissProtのEntry配列とNCBIのnr

Uniprot（SwissProt＋Tremble）は、蛋白質のデータベースなのですが、遺伝子ごとに蛋白質を分類しているようです。UniProtのIDは、たとえば、FGFR1だとすると”FGFR1_HUMAN”という名称で、ひとつのEntryがあるだけです。そのEntryに代表のアミノ酸配列が１本登録してあって、そのIsoformのアミノ酸配列は登録されていません。Isoformは、代表配列からの差異の情報として格納されているだけです。つまり、遺伝子ごとに蛋白質が整理されているということだと、わたしは理解しております。現在、ヒトのSwissProtのEntryの数は、約１万６千です。これにTrembleの蛋白質を合わせたものがUniProtで、ヒトで約３万のEntryがあります。*1
そのSwissProtのFGFR1_HUMANのIsoformが、NCBIのnrにIDとして登録されているかどうかを確認してみました。方法は、IPI *2のFGFR1のアミノ酸配列18種類をNCBIのnrにBLASTPして、完全一致したSubjectのIDをチェックするというものです。Entryの代表配列にヒットしたアミノ酸配列には、SwissProtの登録IDがアノテーションとして記載されていましたが、Isoformに完全ヒットしたアミノ酸配列には、SwissProtのアノテーションはありませんでした。

SwissProtのIsoformにない、FGFR1から作られる蛋白質が存在するか？

このテーマについては、明日、報告します。

明日といっていたのに、１年たってしまいました。やっと、解析をする時間を取ることができましたので、作業はそろそろ終わりです。報告までもう少し。。。

2008年10月13日の日記で報告しました。

*1:TrembleのEntryが人の手により文献等により確認されるとSwiaaProtに昇格するとのことです。つまり、ヒトでは、あれだけ情報が豊富なのに、まだ、半数の１万６千の遺伝子しか本物として認められていないということになります。

*2:IPI:SwissProtのEntryの情報を参照して、すべてのIsoformのアミノ酸配列を作って公開しているサイトです。ヒトで約５万の配列が登録されています。