植物参考基因组的下载

最近要复现一篇文章,里面用到了十字花科的四种参考基因组,那就顺便写一篇下载参考基因组的笔记吧!

A. thaliana首先是拟南芥的参考基因组,上面有提到TAIR这个数据库,直接百度打开是一个非常朴素的界面

TAIR是研究拟南芥的首选数据库,其他数据库中拟南芥的基因组数据都是直接来自TAIR

TAIR

但这里我们不采用从这里下载,而是用文章中提到的Phytozome

Phytozome是一个收录了植物基因组的数据库和在线工具,不管是注释信息还是基因组数据的获取都非常方便。

点击右上角红框的Genomes找到我们需要的拟南芥基因组

Download非常的显眼

点击下载还会提醒你引用的时候要注意格式,直接OK

点开以后是一个令人舒适的界面,往下翻找到我们想要的Data type

然后点击前面的框,再下载即可,但这个网站非常傲娇,你不注册不让你下载,老老实实去注册账号吧!

下载的时候可以选择命令行下载,直接复制到服务器中输入即可。

最后通过unzip解压即可。

当然,选择从Ensembl数据库同样可以下载【http://plants.ensembl.org/index.html】

Ensembl

可以通过先下载到电脑上,再传到服务器上,也可以直接使用以下命令下载

代码语言:javascript复制# wget 当前网址/需要下载的文件

wget ftp://ftp.ensemblgenomes.org/pub/plants/release-51/fasta/arabidopsis_thaliana/dna/Arabidopsis_thaliana.TAIR10.dna.toplevel.fa.gz

C. rubella以同样的方法在Phytozome上找到Capsella rubella的参考基因组并下载

C. hirsute该物种在Table 4中提供了链接【http://chi.mpipz.mpg.de/】,同样是相当简洁的界面

然后在Assembly就能找到参考基因组了

同样的

代码语言:javascript复制wget http://chi.mpipz.mpg.de/download/sequences/chi_v1.fa

E. salsugineum以同样的方法在Phytozome中找到Eutrema salsugineum的基因组并下载

最后把四个参考基因组解压整理如下

以上参考基因组也可以按照我上面的演示去Ensemble试试~

最后放上Ensemble的常用数据库

植物参考基因组:http://plants.ensembl.org/index.html动物参考基因组:http://asia.ensembl.org/index.html其他真菌细菌等参考基因组:http://ensemblgenomes.org/关于Ensemble和NCBI的基因组下载,组学大讲堂已经讲的非常清楚了,点击阅读原文即可查看。


马克斯·普朗克
财富管理——产品体系