Alignment-free sequence analysis とは

バイオインフォマティクスでは、分子配列および構造データに対するアライメントフリーの配列解析アプローチが、アライメントベースのアプローチよりも代替案を提供します。
生物学的研究によって生成された様々なタイプのデータの分析の出現と必要性は、バイオインフォマティクスの分野を生み出した。 DNA、RNA、およびタンパク質の分子配列および構造データ、遺伝子発現プロファイルまたはマイクロアレイデータ、代謝経路データは、バイオインフォマティクスで解析される主要な種類のデータの一部です。その中で、次世代配列決定技術の出現により、配列データは指数関数的に増加している。バイオインフォマティクスの起源以来、配列分析は、データベース検索、ゲノムアノテーション、比較ゲノミクス、分子系統発生および遺伝子予測における幅広い用途の研究の主要分野であり続けています。配列分析のための先駆的なアプローチは、グローバルまたはローカル、ペアワイズまたは複数配列アラインメントのいずれかに基づく配列アラインメントに基づいていた。アライメントベースのアプローチは、一般に、研究中の配列が密接に関連しており、確実にアライメントすることができる場合に優れた結果をもたらすが、配列が発散する場合、信頼できるアライメントが得られず、したがって配列アラインメントの適用が制限される。アラインメントベースのアプローチの別の制限は、それらの計算の複雑さであり、時間がかかり、従って、大規模なシーケンスデータを扱う際には制限される。次世代シークエンシング技術の出現により、大量のシーケンシングデータが生成されています。この配列データのサイズは、アセンブリ、アノテーション、および比較研究におけるアライメントベースのアルゴリズムに問題を提起します。