バイオ事業
リファレンスデータの作成
Reference data construction
これまで、アセンブルにより得られるゲノム配列は、ハプロイドコンセンサスの1セットでしたが、ロングリードの品質が向上したことで、倍数体が分離されてアセンブルされる時代になりました。この状況を考慮し、弊社は、次のような作業を行って、リファレンスデータを作成します。

シーケンシング
・ショートリードのシークエンシングを実施して、ゲノムサイズの予測や異質性の評価を行う。
・倍数体が分離されてアセンブルされるので、予測ゲノムサイズの2倍のサイズを目安にしてリード量を決める。
・PacBio HiFiモードでシーケンシングを行う。
アセンブルとcontigの評価
・HiFiリード専用アセンブラでアセンブルする。
・PrimaryとAlternateのcontigが得られる。
Primary:ハプロイドコンセンサスcontig
Alternate:コンセンサスcontigと類似しているため採用されなかったcontig
・contig配列をBUSCOで評価する。
・コンタミ生物ゲノムのcontigを検査し、除外する。
・オルガネラゲノムのcontigを検査し、除外する。
遺伝子予測と予測結果の評価
遺伝子予測のヒントデータとしてRNA-seqを実施していただきます。
なお、遺伝子予測は、PrimaryとAlternate別々に実施します。
・CDS予測を行う。予測アミノ酸配列とコーディング核酸配列を得る。
・rRNA予測を行う。tRNA核酸配列を得る。
・tRNA予測を行う。rRNA核酸配列を得る。
・Primaryの予測アミノ酸配列にないAlternateの予測アミノ酸をリスト化する。
・アミノ酸配列をBUSCOで評価する。
・オルガネラゲノムのcontigに対して遺伝子予測を行う。
アノテーションデータ作成
予測アミノ酸配列に対して、3種類の処理を行ってアノテーションデータを作成します。
・NCBI-nrにblastpを実施し、namedヒットリストを作成する。
・EggNOG検索を実施し、オーソログデータ(KEGG, GO, PFAM等)のアノテーションデータを作成する。
・InterProScanを実施して、ドメインアノテーションを作成する。
リファレンスデータを作成
これまでに作成したデータをまとめて、リファレンスデータファイルを作成します。
・ゲノムcontigをPrimary/Alternate/full/オルガネラの4種類のファイルを作成する。
・GFF・配列のIDの整理、GFFのフォーマットの統一を行う。
・GFFをPrimary/Alternate/full/オルガネラの4種類のファイルを作成する。
・Primary/Alternate/full/オルガネラのGFFファイルに、アノテーションデータを挿入する。
・Primary/Alternate/full/オルガネラのアミノ酸配列ファイルを作成する。
・Primary/Alternate/full/オルガネラの核酸配列ファイルを作成する。
Assembled-mRNA作成とアノテーションデータ作成
ゲノムcontigから予測された遺伝子情報には、予測漏れや予測間違いがあります。よって、遺伝子予測のヒントデータを得るために行ったRNA-seqのリード配列を使って、Assembled-mRNAデータを取得し、種々のアノテーションデータを作成します。
・ゲノムcontigにmappingして、遺伝子モデル=GFFファイルを作成する。
・Assembled-mRNAにアノテーションを付与(NCBI-nrへのblast、EggNOG)し、GFFに挿入する。