MGISEQとハイブリッドアセンブル

来週新しいシーケンサーを導入します。イルミナ社のシーケンサーではなく中国製のMGISEQ2000という機種です。

なんのこっちゃ?っていう人がほとんどだと思いますが、実は横浜の理化学研究所には3台導入されており、一年以上前から稼働しております。自分も見学に行かせていただいて実際に使っている人のお話しを直接聞くことができました。また、情報収集だけでなく、魚類のゲノムDNAをサンプルとしてイルミナ社のHiSeqとMGISEQ2000の性能比較を行いました。具体的にはヒラメとマダイなのですが、下記はヒラメのアセンブルの結果です。ほぼ同じです(少しMGISEQ2000の用がまとまっている)。Q30等の生データの品質に関する比較も行っておりますが、それもほぼ同じでした。

シーケンサー MGISEQ2000 Illumina
リード長 150bp 150bp
リード数 211,723,905 292,651,766
アセンブラー MaSuRCA MaSuRCA
scaffolds数 62,791 66,099
最長scaffolds(bp) 553,059 230,252
N50(bp) 28,809 24,879
総塩基数(Mbp) 565,690,090 566,950,624

ここ1か月ほど北海道から九州まで全国のお客様を訪問させていただいたのですが、すでにMGISEQのことを知っている方も結構いました。中にはすでに受託解析サービスで使ったことがあるという方もいました。

せっかくデータを取得したので、さらに修行目的でnanoporeのデータも取得してハイブリッドアセンブルを行いました。

サンプル ヒラメ ヒラメ マダイ
シーケンサー MGI MGI+Nanopore MGI+Nanopore
scafolds数 62,791 1,839 1,938
最長scaffolds(bp) 553,059 22,224,473 14,884,731
N50(bp) 28,809 3,706,346 2,386,415
総塩基数(bp) 565,690,090 590,887,377 789,901,210

弊社ではバクテリアのゲノム解析についてはハイブリッドアセンブルでコンプリートするというのが日常的になりつつあるのですが、ある程度ゲノムサイズが大きな生物でハイブリッドアセンブルを行ったのは初めてです。ハイブリッドアセンブルの威力を体感できました。今回のデータは日本大学生物資源学部の澤山英太郎様の方で連鎖地図情報も合わせてスキャホールドのつなぎ合わせを行い、さらRNA-seqのデータも使ってアノテーションを行っていく予定です。

ハイブリッドアセンブルの場合nanoporeのデータの必要量はゲノムサイズの25倍程度ですので、ロングリードのみで50倍程度のデータ量を取得するよりハイブリッドアセンブルの方がデータ取得コストが安くなります。また、ここ数か月でnanoporeは性能が向上しています。1フローセルあたり10Gbくらいのデータ量が得られており(弊社チャンピオンデータは20Gbです)、高品質なゲノムDNAをサンプルとした場合、最長リードのリード長が100-200kbとなっています。

MGISEQ2000を使った解析サービスはお盆明けにスタートする予定です。今月中にサービス内容を決定し、8月7日から北海道大学で開催される進化学会で事前のPRをさせていただく予定です。進化学会に参加される方は是非とも弊社のブースにお立ち寄りください。

社屋移転とMGISEQ2000の導入でお金を使い果たしてしまったので、これからは自転車操業の日々です→趣味の自転車も復活しました。