同じ遺伝子の転写産物がデータベースごとにどのように違うのか調べてみました
転写産物の数
下記の4つのデータベースについて、FGFR1の転写産物や蛋白質の種類を調べてみました。
Dataase | Transcripts | Proteins |
---|---|---|
NCBI Gene | 7 | 6 |
NCBI Aceview | 25 | 26 |
Uniprot | - | 18 |
H-Inv H-DBAS | 7 | - |
このように、DBによって随分と異なります。Uniprot(SwissProt)を中心に詳しく調べてみて、その違いがどこからくるのかがわかるかどうか挑戦してみます。
SwissProtのEntry配列とNCBIのnr
Uniprot(SwissProt+Tremble)は、蛋白質のデータベースなのですが、遺伝子ごとに蛋白質を分類しているようです。UniProtのIDは、たとえば、FGFR1だとすると”FGFR1_HUMAN”という名称で、ひとつのEntryがあるだけです。そのEntryに代表のアミノ酸配列が1本登録してあって、そのIsoformのアミノ酸配列は登録されていません。Isoformは、代表配列からの差異の情報として格納されているだけです。つまり、遺伝子ごとに蛋白質が整理されているということだと、わたしは理解しております。現在、ヒトのSwissProtのEntryの数は、約1万6千です。これにTrembleの蛋白質を合わせたものがUniProtで、ヒトで約3万のEntryがあります。*1
そのSwissProtのFGFR1_HUMANのIsoformが、NCBIのnrにIDとして登録されているかどうかを確認してみました。方法は、IPI*2のFGFR1のアミノ酸配列18種類をNCBIのnrにBLASTPして、完全一致したSubjectのIDをチェックするというものです。Entryの代表配列にヒットしたアミノ酸配列には、SwissProtの登録IDがアノテーションとして記載されていましたが、Isoformに完全ヒットしたアミノ酸配列には、SwissProtのアノテーションはありませんでした。
SwissProtのIsoformにない、FGFR1から作られる蛋白質が存在するか?
このテーマについては、明日、報告します。