最近要复现一篇文章,里面用到了十字花科的四种参考基因组,那就顺便写一篇下载参考基因组的笔记吧!
A. thaliana首先是拟南芥的参考基因组,上面有提到TAIR这个数据库,直接百度打开是一个非常朴素的界面
TAIR是研究拟南芥的首选数据库,其他数据库中拟南芥的基因组数据都是直接来自TAIR
TAIR
但这里我们不采用从这里下载,而是用文章中提到的Phytozome
Phytozome是一个收录了植物基因组的数据库和在线工具,不管是注释信息还是基因组数据的获取都非常方便。
点击右上角红框的Genomes找到我们需要的拟南芥基因组
Download非常的显眼
点击下载还会提醒你引用的时候要注意格式,直接OK
点开以后是一个令人舒适的界面,往下翻找到我们想要的Data type
然后点击前面的框,再下载即可,但这个网站非常傲娇,你不注册不让你下载,老老实实去注册账号吧!
下载的时候可以选择命令行下载,直接复制到服务器中输入即可。
最后通过unzip解压即可。
当然,选择从Ensembl数据库同样可以下载【http://plants.ensembl.org/index.html】
Ensembl
可以通过先下载到电脑上,再传到服务器上,也可以直接使用以下命令下载
代码语言:javascript复制# wget 当前网址/需要下载的文件
wget ftp://ftp.ensemblgenomes.org/pub/plants/release-51/fasta/arabidopsis_thaliana/dna/Arabidopsis_thaliana.TAIR10.dna.toplevel.fa.gz
C. rubella以同样的方法在Phytozome上找到Capsella rubella的参考基因组并下载
C. hirsute该物种在Table 4中提供了链接【http://chi.mpipz.mpg.de/】,同样是相当简洁的界面
然后在Assembly就能找到参考基因组了
同样的
代码语言:javascript复制wget http://chi.mpipz.mpg.de/download/sequences/chi_v1.fa
E. salsugineum以同样的方法在Phytozome中找到Eutrema salsugineum的基因组并下载
最后把四个参考基因组解压整理如下
以上参考基因组也可以按照我上面的演示去Ensemble试试~
最后放上Ensemble的常用数据库
植物参考基因组:http://plants.ensembl.org/index.html动物参考基因组:http://asia.ensembl.org/index.html其他真菌细菌等参考基因组:http://ensemblgenomes.org/关于Ensemble和NCBI的基因组下载,组学大讲堂已经讲的非常清楚了,点击阅读原文即可查看。