(An integrated tool for tiling array, ChIP-seq, genome and cis-regulatory element analysis)http://www.biostat.jhsph.edu/~hji/cisgenome/ 数据库构建步骤,说明见文档。 1,到UCSC下载需要的fasta文件,例如hg17,解压到/restore/data/genomes/hg17/目录下,
2,在该目录下创建一个文件chrlist.txt。
3,运行./genome_encode -d /restore/data/genomes/hg17/ -o /restore/data/genomes/hg17/ 这样就会在hg17目录下产生24个.sq文件及一个chrlen.txt文件
4,下载refGene.txt, refFlat.txt, xenoRefGene.txt, xenoRefFlat.txt文件到/hg17/annotation文件夹中。
5,对refGene.txt和xenoRefGene.txt文件分别运行 ./refgene_encode -d /restore/data/genomes/hg17/annotation/refGene.txt -o /restore/data/genomes/hg17/annotation/refGene_sorted.txt -s human -n 24 ./refgene_encode -d /restore/data/genomes/hg17/annotation/xenoRefGene.txt -o /restore/data/genomes/hg17/annotation/xenoRefGene_sorted.txt -s human -n 24 这样会在annotation目录下产生 refGene_sorted.txt和xenoRefGene_sorted.txt文件。
6,对refFlat.txt和xenoRefFlat.txt分别运行 ./refflat_encode -d /restore/data/genomes/hg17/annotation/refFlat.txt -o /restore/data/genomes/hg17/annotation/refFlat_sorted.txt ./refflat_encode -d /restore/data/genomes/hg17/annotation/xenoRefFlat.txt -o /restore/data/genomes/hg17/annotation/xenoRefFlat_sorted.txt 这样会在annotation目录下产生一个refFlat_sorted.txt和xenoRefFlat_sorted.txt文件
7,创建hg17/markovbg/S100000_W1000000/3/目录。
8,运行 ./motifmap_matrixscan_genomebg -d /restore/data/genomes/hg17/ -o /restore/data/genomes/hg17/markovbg/S100000_W1000000/3/ -b 3 -s 100000 -w 100000 这样会在/hg17/markovbg/S100000_W1000000/3/目录下产生以chr[#]为名字的24个文件夹。每个文件夹里有数千个文件。
9,下载phastCons文件共24个。解压到/hg17/conservation/phastcons/目录中,很大,请预留足够硬盘空间,至少15G。
10,运行 ./genome_codephastcons_v2 -d /restore/data/genomes/hg17/ -c /restore/data/genomes/hg17/conservation/phastcons/ -o /restore/data/genomes/hg17/conservation/phastcons/ 这样会在/phastcons目录下产生24个.cs文件。可将原始的文件移走或删除。
11,在/hg17/下建目录cds 2,运行 ./genome_codingCDS -d /restore/data/genomes/hg17/ -g /restore/data/genomes/hg17/annotation/refFlat_sorted.txt -gt 1 -s human -o /restore/data/genomes/hg17/cds/ 或者 ./genome_codingCDS -d /restore/data/genomes/hg17/ -g /restore/data/genomes/hg17/annotation/refGene_sorted.txt -gt 0 -s human -o /restore/data/genomes/hg17/cds/ 这样会在/hg17/cds/目录下产生24个.cds文件 注意:两者只能运行1个,否则第一次运行的结果会被第二次的结果覆盖。 经过以上的步骤,则hg17的数据库就构建好了。可以进行下一步的分析。
评论