Windows系统下载SRA数据方法——生信小白亲测可行 在开展二代测序相关课题研究时,经常需要上传或者下载SRA数据库中的数据,对熟悉Linux系统、懂代码的同学们来说是非常容易的事情。但像小编这一类看到代码两眼一抹黑的小白就有点难度了,尤其电脑还是Windows系统。那是不是我就无能为力了?经过不断地查阅和尝试,还真找到一套Windows系统下进行数据下载的方法,这里赶紧迫不及待地分享给大家。
第一种情况,单一样本的数据下载。这是一个比较容易的过程,我们要下载数据就需要先找到数据,并找到自己所需要的合适格式的数据,然后进行下载即可。下面的流程是小编操作一步写一步整理出来的,因为比较简单,所以不会踩坑,照着操作就可以。 1、搜索NCBI数据库中的SRA数据库 2、以数据SRX3093954为例做介绍 把这个数据填到上面链接的搜索框中,如下图所示。 3、点击search就可以得到下图 4、点击下图红圈中的超链接 5、得到下面的截图 6、然后点击FASTA/FASTQ download这个按钮 就得到下面的截图,再点击右下角红圈中的选一种格式下载就可以。 第二种情况,SRA批量数据下载。如果批量下载按照单个样本这样手动挨个下载也没有问题。不过需要人守在电脑旁不断地操作,而且还容易中断。所以NCBI就推荐了一些下载小工具,小编就研究了一下这些小工具。在操作时看着别人分享的流程很简单,但是踩了好几个坑,总是走到歪路上去。下面也会把应该注意的地方都点出来,希望大家可以畅通无阻的开启批量下载之路。 在NCBI推荐的小工具中,小编选择使用SRA Toolkit。该方法分为以下几个步骤: 1、下载SRA Toolkit并解压 进入NCBI的主页,在中间位置找到Download,点击进去后点击右下角的“Download Tools”,中间位置就是我们所需要的SRA Toolkit,点击Download或者用下面链接直达目的地: https://github.com/ncbi/sra-tools/wiki/01.-Downloading-SRA-Toolkit 可以看到有好多个版本,Windows系统选择MS Windows 64 bit architecture,直接点击就可以下载压缩文件。下载完成后,将压缩包放在软件将要安装的文件夹(文件夹路径最好不要包含中文),解压即可使用。举例来说,我们直接放在D盘下面,解压就可以 2、环境变量配置 这一步是我在操作时总是卡顿的地方,这里做详细介绍。流程是:右击我的电脑——属性——高级系统设置——环境变量, 双击变量列表中的path(用户变量或系统变量都有path,任意选择一个都可以), 点击新建,将SRA Toolkit软件的bin文件夹的完整地址复制到这里,点击确定——确定。配置完成后,需要重启电脑。 只要按照这个流程处理即可,下面列一下容易出现问题的几个点: (1)有的电脑系统中“我的电脑”是“此电脑”,所以需要点击“此电脑”,然后右键点击“属性”,在搜索框里搜索“高级系统设置”。 进去高级系统设置后就可以看到下面截图的内容,点击“环境变量”。 进入环境变量后就可以看到上面和下面各有一个path,可以随便选择一个进行设置就可以。
(2)注意是要将SRA Toolkit软件的bin文件夹的完整地址复制到这里,不是复制SRA Toolkit软件的路径。新建完成后是下面这个截图的样子,下面的第二行就是新建的path。 (3)需要重启电脑,当然有一些不需要重启,但是对小白来讲,如果怕出错了不知道怎么解决就直接多操作这一步就可以。 3、检查环境变量 上述步骤设置完成并重启后,需要对我们设置的环境变量进行检查。按住windows+ r 打开运行窗口,输入cmd ,回车后 弹出命令行窗口。输入:prefetch.exe -help 回车,如果出现下面的结果,说明环境变量配置成功,否则需要修改配置。
这一步容易出现的问题是运行完prefetch.exe -help后出现下面的内容: 这时候直接把 vdb-config –interactive 复制一下运行就可以,会出现下面截图的内容: 点击键盘上的S键和X键,然后关闭这个截图的框就可以了。这时候再重新运行prefetch.exe -help后就发现已经配置成功了。 4、获得SRA accession list 一般我们去下载数据时,已经知道这些数据的SRA登录号。这里,我们以GSE54222为例,从ncbi 找到相应信息:GEO Accession viewer (http://nih.gov)。点击底部的SRA Run Selector, 可以得到所有样本编号,从 total 或 selected 处(下面截图中圈出了total和select所在的位置,为了方便下载,我从最下面的数据中随机选择了3各,就是最下面红圈里的内容,在前面勾选就可以。)点击 Accession List ,即可下载得到所有或选中样本列表的 SRR_Acc_list.txt (如果没有显示“.txt”,可能是设置了隐藏文件后缀)。 5、批量下载SRA数据 假设我想将数据下载到D盘的data文件夹中(注意确保该文件夹有足够的存储空间!!最好使用移动硬盘)。 (1)将前面下载的SRR_Acc_list.txt 放到该文件夹中。 (2)从前面弹出的命令行窗口中,切换到该文件夹: (3)输入 D: 回车 (4)输入 cd data 回车 (5)使用prefetch 批量下载sra文件 (6)输入prefetch.exe--option-fileSRR_Acc_list.txt 回车 看到下面的截图就说明已经开始下载啦。 在下载的过程中,该窗口不可关闭。运行完成后,会得到下面截图里的信息。 去我们保存数据的文件夹里会看到每个样本都有一个文件夹。 打开文件夹,里面会包含sra后缀的文件,如下图所示。 6、将该文件转为常用的fastq格式 (如果有多个文件,中间空一格直接输入下一个文件名就可,如果只有一个就只输入一个就可以,下面这行命令是转化2个数据,分别是SRR1135058和SRR1135060): 输入 fasterq-dump.exe --split-3 --qual-defline + SRR1135058 SRR1135060 运行时就得到上面的截图,运行完成后,得到fastq文件,如下图所示。 这样在Windows系统中不管是下载单个样本的数据还是批量下载多个样本数据的方法就都介绍完成了。 这是小编边操作边整理出来的,真实有效,感兴趣的亲们可以直接用,里面的命令也可以复制到自己的系统中直接使用哦。
|