病原菌的数据库搭建

2024-9-13 15:47| 发布者: 沙糖桔| 查看: 2844| 评论: 0|来源: 科研入门狗

摘要: 目前，搭建一个全和准的数据库，难度很大。

搭建一个可以真正的实际应用的数据库，需要花费很大的精力，主要的难点是，保证全的基础上，也要保证得到的序列是正确的，如果有错误的序列掺入其中，会给后续分析带来很多错误和问题，因此，保证正确是非常必要的。我今天简单以Streptococcus pneumoniae为例，搭建一个简易的数据库，进行引物特异性分析。

下载该物种所有种和亚种的序列文件，这里可以使用NCBI提供的ncbi_genome_download工具，以Streptococcus pneumoniae为例，下载该菌所有亚种有完整基因组的序列。

ncbi-genome-download -s refseq -g "Streptococcus pneumoniae" bacteria -F fasta -l complete -p 16 -o Streptococcus_pneumoniae  --flat-output#-s 可以选择refseq或者genbank#-g 下载的菌的名称#-F 表示下载的格式，一般选择fasta更贴合自己的需求#-l 表示下载基因组的类型，基因组有4种类型，complete',   'chromosome', 'scaffold', 'contig，之间的区别前面写过，也可以选择all这个参数。#-p 线程#-o 输出文件夹#--flat-output 表示不重新创建文件夹，下载的所有细菌基因组在一个文件夹中

下载完成后，查看目录下的该菌的个数。统计结果总计227个基因组序列。

ll Streptococcus_pneumoniae/ |wc -l227

合并所有序列文件，形成一个fasta文件。该文件就是该菌的数据库序列文件，后续可以使用cd-hit，去掉重复相似度高的文件（该步骤的主要目的是缩小数据库的大小，提高运行效率，可选步骤），人工检查，去掉错误的序列（该步骤必须进行，特别是临床级别的应用要求，必须保证获得的序列是真实可靠的，没有错误干扰）等。

gunzip *.gzcat *.fna |sed -e 's/ /_/g' > ../all.fasta

我利用这个数据库，就可以不用NCBI，初步的知道引物的覆盖度情况，我这里设计了3对Streptococcus pneumoniae的引物，利用blastn，将引物比对到该数据库。我设置的是容许3个错配，容许1个插入缺失、片段大小范围是50-1000。

最后获得如下结果，可以了解该对引物比对到该菌的数据库情况。简单的统计了S1-S3，3对引物的覆盖度情况，3对引物都可以覆盖226个亚种，但是只有S3引物没有错配，完美匹配本数据库的索引肺炎链球菌基因组。

一个好的数据库，可以帮助我们做很多事情，提高工作效率。目前，搭建一个全和准的数据库，难度很大。但是搭建一个简易的数据库，也可以在初步的设计和分析中，给我们一个初步判定的结果。

声明：

1、凡本网注明“来源：小桔灯网”的所有作品，均为本网合法拥有版权或有权使用的作品，转载需联系授权。
2、凡本网注明“来源：XXX（非小桔灯网）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。其版权归原作者所有，如有侵权请联系删除。
3、所有再转载者需自行获得原作者授权并注明来源。

收藏邀请

上一篇：tNGS的路线之争：多重扩增or探针捕获？柳叶刀子刊给出“答案”下一篇：使用纳米孔进行蛋白测序又向前迈进了重要一步！

病原菌的数据库搭建

声明：

最新评论

相关分类

官方推荐 /3

个人中心