FGFR1のすぐ横にあるLETM2のエキソンイントロンレス転写産物群
LETM2のサブクラスタ#7について、(A)richな部分があるかどうか調べてみました。1箇所確かに(A)richな部分があり、そこからcDNA合成が始まったように見える配列もありましたが、その領域をまたいでさらに3'方向に伸びているBF196953があり、そのゲノムアライメントの末端を示したのが図1です。
赤いピリオドが3つ表示されています。これは、「AssEST」の機能で、ゲノムマップしたコンセンサス配列が、この赤い点3つの方向にゲノムマップできない領域を持っていることを示しています。そこで、転写配列そのものを見てみることにしました。
図2は、#7のサブクラスタを転写配列として見たものです。このツールは、サブクラスタビューアを呼んでいますが、注目している末端には、Poly(A)が着いています。ということは、そのPoly(A)の部分がゲノムマップされなかったということなのです。つまり、転写方向は、ビューアでしめされている通りに、左側5'から右側3'ということになります。
実は、このゲノムビューアは、FGFR1の転写産物が左側5'→右側3'に方向で表示されているので、LETM2は、逆鎖がわ、つまり、左側3'←右側5'で表示されています。ということは、LETM2のサブクラスタ#7の転写産物は、LETM2から見た場合に、逆鎖側で転写されているということになります。アンチセンスの転写産物??
図1:FGFR1を左側5'→右側3'に表示するようにした場合のLETM2のサブクラスタ#7の右端
図2:LETM2のサブクラスタ#7のゲノムマップされなかったコンセンサス配列の末端
ちなみに、この#7のコンセンサス配列のNCBI-NR(aa)*1に類似性検索をすると、次のような蛋白質と一部ホモロジーを示します。(BLASTXの結果)
なお、BLASTXのSubject側の#7のコンセンサス配列は、図1、図2で表示している方向とは逆の方向でデータベースに格納されていました。よって、ホモロジーストレッチ内のSubject側の塩基位置を表わす数値が、小さい値から大きな値にかわっていたら図で見せている方向とは逆の方向(LETM2のセンス)で、大きい値から小さな値にかわっていたら図で見せている方向と同じ方向(LETM2のアンチセンス)ですので、お間違えのないように。ややこしくてすみません。
gi|67968590|dbj|BAE00654.1| unnamed protein product [Macaca fascicularis] Length = 294 Score = 51.6 bits (122), Expect(2) = 2e-05 Identities = 26/34 (76%), Positives = 28/34 (82%) Frame = +2 Query: 671 RSIKDYLRMELTLFSFRPSTVASVKDLPDKTVWL 772 + KDYLRMELTL SF PSTVASVKDLP KT+ L Sbjct: 253 KGTKDYLRMELTLSSFGPSTVASVKDLPAKTLCL 286 Score = 21.6 bits (44), Expect(2) = 2e-05 Identities = 9/10 (90%), Positives = 9/10 (90%) Frame = +1 Query: 763 CLASESGSAV 792 CLASESGS V Sbjct: 285 CLASESGSVV 294
このホモロジーストレッチが示すのは、LETM2と同じ方向に、コンセンサス配列の671bpから792bpまでの部分で、カニクイザルの蛋白質と似ている領域を持っているようですね。Queryにしているコンセンサス配列が約1300bpですので、ちょうど真ん中あたりでしょうか。
top gi|71052104|gb|AAH29541.2| LETM2 protein [Homo sapiens] Length = 277 Score = 40.4 bits (93), Expect = 0.14 Identities = 20/20 (100%), Positives = 20/20 (100%) Frame = +3 Query: 618 TLQAKSQMTAQNSKASSKGA 677 TLQAKSQMTAQNSKASSKGA Sbjct: 258 TLQAKSQMTAQNSKASSKGA 277 top gi|55630546|ref|XP_519714.1| PREDICTED: hypothetical protein XP_519714 [Pan troglodytes] Length = 677 Score = 40.4 bits (93), Expect = 0.14 Identities = 20/20 (100%), Positives = 20/20 (100%) Frame = +3 Query: 618 TLQAKSQMTAQNSKASSKGA 677 TLQAKSQMTAQNSKASSKGA Sbjct: 658 TLQAKSQMTAQNSKASSKGA 677 top gi|16554186|dbj|BAB71680.1| unnamed protein product [Homo sapiens] Length = 396 Score = 40.4 bits (93), Expect = 0.14 Identities = 20/20 (100%), Positives = 20/20 (100%) Frame = +3 Query: 618 TLQAKSQMTAQNSKASSKGA 677 TLQAKSQMTAQNSKASSKGA Sbjct: 377 TLQAKSQMTAQNSKASSKGA 396
このホモロジーストレッチは、LETM2のエクソン部分とオーバーラップしている部分ですので、ヒットするのは、当然といえるでしょう。
top gi|34539075|gb|AAQ74421.1| type I polyketide synthase extender module [Mycobacterium ulcerans] Length = 1479 Score = 35.0 bits (79), Expect = 5.8 Identities = 27/96 (28%), Positives = 43/96 (44%) Frame = -2 Query: 1266 DGGVGSSQIFLIASLFLQEASLYPERSYWGVYPSHLIRYFVSRVLILLVDHSES*SGAPK 1087 D G+ +S F SLF E +L+ +WGV P ++I + V + V S A K Sbjct: 428 DEGLLNSTEFAQPSLFAVEVALFALLRFWGVVPDYVIGHSVGELAAAQVAGVLSLQDAAK 487 Query: 1086 MVFGTSKFLLRIPSHRRQVSKVPS*FHCAKNFLSEG 979 +V + + +P+ V+ S H + L EG Sbjct: 488 LVSARGRLMQALPAGGAMVAVAAS-QHEVEPLLVEG 522 top gi|38098461|gb|AAR10953.1| mycolactone polyketide synthase [Mycobacterium ulcerans] Length = 293 Score = 35.0 bits (79), Expect = 5.8 Identities = 27/96 (28%), Positives = 43/96 (44%) Frame = -2 Query: 1266 DGGVGSSQIFLIASLFLQEASLYPERSYWGVYPSHLIRYFVSRVLILLVDHSES*SGAPK 1087 D G+ +S F SLF E +L+ +WGV P ++I + V + V S A K Sbjct: 12 DEGLLNSTEFAQPSLFAVEVALFALLRFWGVVPDYVIGHSVGELAAAQVAGVLSLQDAAK 71 Query: 1086 MVFGTSKFLLRIPSHRRQVSKVPS*FHCAKNFLSEG 979 +V + + +P+ V+ S H + L EG Sbjct: 72 LVSARGRLMQALPADGAMVAIAAS-QHEVEPLLVEG 106 top gi|38098454|gb|AAR10950.1| mycolactone polyketide synthase [Mycobacterium ulcerans] Length = 1120 Score = 35.0 bits (79), Expect = 5.8 Identities = 27/96 (28%), Positives = 43/96 (44%) Frame = -2 Query: 1266 DGGVGSSQIFLIASLFLQEASLYPERSYWGVYPSHLIRYFVSRVLILLVDHSES*SGAPK 1087 D G+ +S F SLF E +L+ +WGV P ++I + V + V S A K Sbjct: 317 DEGLLNSTEFAQPSLFAVEVALFALLRFWGVVPDYVIGHSVGELAAAQVAGVLSLQDAAK 376 Query: 1086 MVFGTSKFLLRIPSHRRQVSKVPS*FHCAKNFLSEG 979 +V + + +P+ V+ S H + L EG Sbjct: 377 LVSARGRLMQALPAGGAMVAVAAS-QHEVEPLLVEG 411 top gi|49146124|ref|YP_025562.1| Type I modular polyketide synthase [Mycobacterium ulcerans] Length = 16990 Score = 35.0 bits (79), Expect = 5.8 Identities = 27/96 (28%), Positives = 43/96 (44%) Frame = -2 Query: 1266 DGGVGSSQIFLIASLFLQEASLYPERSYWGVYPSHLIRYFVSRVLILLVDHSES*SGAPK 1087 D G+ +S F SLF E +L+ +WGV P ++I + V + V S A K Sbjct: 10255 DEGLLNSTEFAQPSLFAVEVALFALLRFWGVVPDYVIGHSVGELAAAQVAGVLSLQDAAK 10314 Query: 1086 MVFGTSKFLLRIPSHRRQVSKVPS*FHCAKNFLSEG 979 +V + + +P+ V+ S H + L EG Sbjct: 10315 LVSARGRLMQALPAGGAMVAVAAS-QHEVEPLLVEG 10349 top gi|49146116|ref|YP_025554.1| Type I modular polyketide synthase [Mycobacterium ulcerans] Length = 14130 Score = 35.0 bits (79), Expect = 5.8 Identities = 27/96 (28%), Positives = 43/96 (44%) Frame = -2 Query: 1266 DGGVGSSQIFLIASLFLQEASLYPERSYWGVYPSHLIRYFVSRVLILLVDHSES*SGAPK 1087 D G+ +S F SLF E +L+ +WGV P ++I + V + V S A K Sbjct: 3949 DEGLLNSTEFAQPSLFAVEVALFALLRFWGVVPDYVIGHSVGELAAAQVAGVLSLQDAAK 4008 Query: 1086 MVFGTSKFLLRIPSHRRQVSKVPS*FHCAKNFLSEG 979 +V + + +P+ V+ S H + L EG Sbjct: 4009 LVSARGRLMQALPAGGAMVAVAAS-QHEVEPLLVEG 4043 Score = 35.0 bits (79), Expect = 5.8 Identities = 27/96 (28%), Positives = 43/96 (44%) Frame = -2 Query: 1266 DGGVGSSQIFLIASLFLQEASLYPERSYWGVYPSHLIRYFVSRVLILLVDHSES*SGAPK 1087 D G+ +S F SLF E +L+ +WGV P ++I + V + V S A K Sbjct: 2410 DEGLLNSTEFAQPSLFAVEVALFALLRFWGVVPDYVIGHSVGELAAAQVAGVLSLQDAAK 2469 Query: 1086 MVFGTSKFLLRIPSHRRQVSKVPS*FHCAKNFLSEG 979 +V + + +P+ V+ S H + L EG Sbjct: 2470 LVSARGRLMQALPAGGAMVAVAAS-QHEVEPLLVEG 2504 top gi|40850624|gb|AAR96027.1| mycolactone polyketide synthase [Mycobacterium ulcerans] Length = 274 Score = 35.0 bits (79), Expect = 5.8 Identities = 27/96 (28%), Positives = 43/96 (44%) Frame = -2 Query: 1266 DGGVGSSQIFLIASLFLQEASLYPERSYWGVYPSHLIRYFVSRVLILLVDHSES*SGAPK 1087 D G+ +S F SLF E +L+ +WGV P ++I + V + V S A K Sbjct: 77 DEGLLNSTEFAQPSLFAVEVALFALLRFWGVVPDYVIGHSVGELAAAQVAGVLSLQDAAK 136 Query: 1086 MVFGTSKFLLRIPSHRRQVSKVPS*FHCAKNFLSEG 979 +V + + +P+ V+ S H + L EG Sbjct: 137 LVSARGRLMQALPAGGAMVAVAAS-QHEVEPLLVEG 171 top gi|40850618|gb|AAR96024.1| mycolactone polyketide synthase [Mycobacterium ulcerans] Length = 299 Score = 35.0 bits (79), Expect = 5.8 Identities = 27/96 (28%), Positives = 43/96 (44%) Frame = -2 Query: 1266 DGGVGSSQIFLIASLFLQEASLYPERSYWGVYPSHLIRYFVSRVLILLVDHSES*SGAPK 1087 D G+ +S F SLF E +L+ +WGV P ++I + V + V S A K Sbjct: 77 DEGLLNSTEFAQPSLFAVEVALFALLRFWGVVPDYVIGHSVGELAAAQVAGVLSLQDAAK 136 Query: 1086 MVFGTSKFLLRIPSHRRQVSKVPS*FHCAKNFLSEG 979 +V + + +P+ V+ S H + L EG Sbjct: 137 LVSARGRLMQALPAGGAMVAVAAS-QHEVEPLLVEG 171 top gi|40850610|gb|AAR96020.1| mycolactone polyketide synthase [Mycobacterium ulcerans] Length = 438 Score = 35.0 bits (79), Expect = 5.8 Identities = 27/96 (28%), Positives = 43/96 (44%) Frame = -2 Query: 1266 DGGVGSSQIFLIASLFLQEASLYPERSYWGVYPSHLIRYFVSRVLILLVDHSES*SGAPK 1087 D G+ +S F SLF E +L+ +WGV P ++I + V + V S A K Sbjct: 68 DEGLLNSTEFAQPSLFAVEVALFALLRFWGVVPDYVIGHSVGELAAAQVAGVLSLQDAAK 127 Query: 1086 MVFGTSKFLLRIPSHRRQVSKVPS*FHCAKNFLSEG 979 +V + + +P+ V+ S H + L EG Sbjct: 128 LVSARGRLMQALPAGGAMVAVAAS-QHEVEPLLVEG 162 top gi|40850608|gb|AAR96019.1| mycolactone polyketide synthase [Mycobacterium ulcerans] Length = 239 Score = 35.0 bits (79), Expect = 5.8 Identities = 27/96 (28%), Positives = 43/96 (44%) Frame = -2 Query: 1266 DGGVGSSQIFLIASLFLQEASLYPERSYWGVYPSHLIRYFVSRVLILLVDHSES*SGAPK 1087 D G+ +S F SLF E +L+ +WGV P ++I + V + V S A K Sbjct: 61 DEGLLNSTEFAQPSLFAVEVALFALLRFWGVVPDYVIGHSVGELAAAQVAGVLSLQDAAK 120 Query: 1086 MVFGTSKFLLRIPSHRRQVSKVPS*FHCAKNFLSEG 979 +V + + +P+ V+ S H + L EG Sbjct: 121 LVSARGRLMQALPAGGAMVAVAAS-QHEVEPLLVEG 155 top gi|2058407|gb|AAB53250.1| early phosphoprotein p50 Length = 423 Score = 34.7 bits (78), Expect = 7.5 Identities = 18/33 (54%), Positives = 20/33 (60%), Gaps = 1/33 (3%) Frame = -2 Query: 369 GPQEPLPTSTL-PQPPHCLLSSCPVLLPQIPSP 274 GP + P L PQ PH SS PVL PQ+PSP Sbjct: 365 GPPQLSPQPALAPQQPHVRHSSPPVLYPQVPSP 397
図1でいうと、このサブクラスタのさらにFGFR1に近い領域で、[Mycobacterium ulcerans]の蛋白質と類似している領域が存在しているようです。
top gi|67971100|dbj|BAE01892.1| unnamed protein product [Macaca fascicularis] Length = 623 Score = 34.3 bits (77), Expect = 9.8 Identities = 24/76 (31%), Positives = 29/76 (38%), Gaps = 21/76 (27%) Frame = -2 Query: 420 LPHLCTS*ILCPASHVFGPQEP--------------LPTSTLPQPPHCLLSSCPVLLPQI 283 LPH C CP + PQEP L +P P H L SC +LP + Sbjct: 544 LPHPC-----CPGQSLGTPQEPTFSPHPCPHPDLAFLLCPFVPSPGHALEPSCCHILPLL 598 Query: 282 -------PSPNWENWM 256 P P WE W+ Sbjct: 599 SWCSNSSPGPLWEAWL 614
このホモロジーストレッチは、Poly(A)を確認できるBF196953の部分で、LETM2とはアンチセンスの方向で、カニクイザルの蛋白質と似ている領域が存在しています。塩基位置420のさらに5'より450bp付近にメチオニンがあります。(図3)
・LETM2の遺伝子領域の真っ只中にアンチセンス側にORFが存在している?のでしょうか???
・アンチエンス側に2箇所ORFを持つ転写産物がある???
うーーむ
うーーーーむ
うーーーーーーーむ