以前の記事で、ウェブ版のBLASTで、アンプリコンシークエンシングで得た配列が本当にその生物由来か確かめるためにBLAST検索をかけた。
ざっくりと調べた感覚では、WEB版では自作のデータベースをリファレンスとして使えなさそうだったのと(詳しい方いらっしゃいましたら教えてください)、複数の配列の検索した情報を一度に出力させたりするのが大変そうだったので、ローカルのBLASTを使ってみようと思った。
インストール方法については、他のインターネット上にたくさん情報があるので割愛したい。
私はTo go TVの方法を参考にした。
上のTo go TVでは、NCBIからデータベースをダウンロードする方法しか紹介されていない。
Rのdada2などでは、fasta形式のファイルをそのままリファレンスとして用いることができるが、BLASTにはBLASTに対応した形式に変換しないといけないようだ。
そこで、自作のデータベース(fasta形式)を以下のコードでBLASTに対応したものに変換した。
makeblastdb -in 自作データベースfasta -out 作りたいデータベース名 -dbtype nucl -parse_seqids
-dbtypeは、nuclなら核酸(DNA配列もこれにあたる)、タンパク質ならprot
-parse_seqidsでは、入力ファイルがfastaファイルの時、配列のIDのインデックスを作成してくれる
自作したデータベースを用いて、BLAST検索をかけられる。
blastn -query 問い合わせ配列fasta -db 先ほど作ったデータベース名 -out アウトプットファイル名
表で出力したい場合は、次のコード
blastn -query 問い合わせ配列fasta -db 先ほど作ったデータベース名 -out アウトプットファイル名 -outfmt 6
To go TVでも紹介されているが、出力されたファイルをExcelなどで表示すると、表が見られる。
自作データベースで行うと、網羅的に調べていないぶん見落としがある可能性がある一方で、確実に自分の研究に合った配列との相同性を確認して、種を割り当てたり、系統樹を描いたりすることができるのがメリットだと思った。
Comments