利用python自NCBI下载fasta和genbank文件利用python自NCBI下载fasta和genb

第一部分

自习室网络出奇的差，有时想打开NCBI网页下载文件时会一直在那里转圈圈，本来很简单的一件事有时却要浪费好长时间；恰好最近在学习 Bioinformatics with python cookbook 这本书里的内容，其中一小部分提到利用Biopython访问genbank数据库，可以非常方便的解决自己在网络情况不佳时自NCBI下载fasta和genbank文件的问题，简单记录自己用到的代码。
以下载http://biopython-cn.readthedocs.io/zh_CN/latest/cn/chr17.html教程中提到的鼠疫杆菌 Yersinia pestis biovar Microtus 的pPCP1质粒元数据文件NC_005816.gb为例

from Bio import Entrez from Bio import SeqIO import os Entrez.email = "mingyan24@126.com" hd1 = Entrez.efetch(db="nucleotide",id=['NC_005816'],rettype='gb') seq = SeqIO.read(hd1,'gb') fw = open('NC_005816.gb','w') SeqIO.write(seq,fw,'gb') fw.close() os.getcwd()

下载好的文件就存放在os.getcwd()输出的路径下，下载fasta格式的序列只需要将gb更改为fasta即可（邮箱地址可以替换为自己的邮箱）
下载fasta序列

from Bio import Entrez from Bio import SeqIO import os Entrez.email = "mingyan24@126.com" hd1 = Entrez.efetch(db="nucleotide",id=['NC_005816'],rettype='fasta') seq = SeqIO.read(hd1,'fasta') fw = open('NC_005816.fasta','w') SeqIO.write(seq,fw,'fasta') fw.close() os.getcwd()

第二部分：将genbank格式文件转换成gff3格式文件

最近发现了一个python模块 bcbio-gff 用来解析gff3文件（解析gff3还没有想明白怎么用）。同时可以非常方便的将genbank格式的文件转换为gff3格式，暂时还没有想到会有什么用处，不过以后可能会用到，记录在这里
自己windows电脑上安装的是Anaconda3，所以直接在dos命令下通过easy_install bcbio-gff即可安装

easy_install bcbio-gff

以上一步下载的genbank文件为例，转换成gff3格式

from BCBio import GFF from Bio import SeqIO if_file = "NC_005816.gb" out_file = "NC_005813.gff3" in_handle = open(in_file) out_handle = open(out_file,"w") GFF.write(SeqIO.parse(in_handle,'genbank'),out_handle) in_handle.close() out_handle.close()

最后推荐一个网址，下载pdf格式的电子书可以尝试一下
www.ebook777.com
更新 20181201

第三部分：从NCBI批量下载fasta格式的叶绿体基因组序列

【利用python自NCBI下载fasta和genbank文件】自己之前写了脚本完成这个任务，主要使用的是biopython模块，最近在学习Dendropy这个模块，也可以完成同样的事情，简单记录（应该更新在简单的python脚本批量下载叶绿体基因组序列这篇文章下的，但是因为写这篇文章的时候没有用markdown语法（因为那时还没有学会markdown的基本语法），所以更新的时候也用不了markdown）

还是将accession number整理到文件里，一行一个

KY818915 KX499859 KX499861 KX499863 MH394390 NC_031163 NC_034909 NC_035625 NC_035671 NC_036368

脚本

import sys from dendropy.interop import genbank fr = open(sys.argv[1],'r') acc_num = [] for line in fr: acc_num.append(line.strip()) fr.close() print(acc_num) print(str(len(acc_num))+" cp genome will be downloaded!") gb_dna = genbank.GenBankDna(ids = acc_num) char_matrix = gb_dna.generate_char_matrix(label_components = ["organism"]) print(char_matrix.write_to_path("Malus_cp_genome.fasta",schema="fasta")) print("The download process is done!")