ゲノムアセンブリとは
ゲノムアセンブリとは、遺伝子配列の多くの小さな断片を取得し、それらを1つの生物のゲノム全体を表す一貫した全体にマージするプロセスを指します。 これはバイオインフォマティクス分野の主要な焦点であり、この目的のためにさまざまなゲノムプロジェクトが存在します。 ゲノムアセンブリは、人間、植物、動物、バクテリアを含む多くの種のゲノムの分析を開始するために使用されてきました。
生物の遺伝子の分析は長いプロセスであり、ゲノムの組み立ては最初のステップの1つです。 他の多くの分析方法は、アセンブリの成功に基づいて構築されており、遺伝子の同定はそれなしでは進行できません。 遺伝子が見つかる前であっても、ゲノムアセンブリが成功すると、ゲノムのサイズ、その構造、一般的な構成など、後で分析するための多くの有用な情報を生成できます。
ゲノムアセンブリのプロセスは、写真や有用な形状をガイドとして持たずにジグソーパズルを組み立てるようなものです。 生の読み取りと呼ばれる最初のゲノムの断片に直面したとき、特定の断片がどこに行くのか、それがどのように方向付けられているのかという兆候はめったにありません。 すべての断片は、A、C、G、およびTと略される4つのDNA塩基で同様にコード化されます。ゲノムは1つの大きな染色体に圧縮されるか、多数に分割されます。 また、生の読み取りの一部が同じゲノム領域の複製ではないという保証もありません。これは、一見して見えるよりも少ない一意の情報が存在することを意味します。
アセンブリプロセスを開始するとき、ゲノム構造の一般的な知識は非常に貴重です。 種間のゲノムは著しく異なりますが、特定のゲノムタイプが従う特定のルールがあり、これらは同じタイプの別のゲノムをまとめるときに適用できます。 たとえば、特定のタイプの生物が常に遺伝子の近くに特定のパターンを持っている場合、それに類似する別の生物を組み立てるときに、そのようなパターンを見つけると近くの遺伝子に信号を送ると合理的に推測できます。 大規模な場合、多くの細菌ゲノムには1つの環状染色体があるため、新しい細菌のすべての生の読み取り値が何らかの形で1つの染色体に収まると予測するのは合理的です。 この方法で一般的な遺伝的知識を適用することで、研究者は数十万ものデータの可能性を理解することができます。
計算予測や手動比較など、ゲノムアセンブリで使用できる他の多くの方法があります。 方法に関係なく、ゲノムアセンブリは大きな作業であり、多くの場合時間がかかり、困難です。 それは生物に関する多くの将来の遺伝子分析の基礎であるため、エラーの余地はほとんどありません。