常见问题
1.运行formatdb时报下列错误:
[formatdb] ERROR: 1.seq.nhrOutput
Blast-def-line-set.E.<title>
Invalid value(s) [9] in VisibleString [seq1#ss ...]
这种情况通常是subject序列的标题行中含有非法字符,比如Tab。
2.运行blastall时报下列警告:
[blastall] WARNING: seq1: Could not find index files for database sub.seq
出现这种问题通常是没有做formatdb建库或者建的库不符合比对类型要求,需要重新建库。尤其注意tblastx的建库应该使用核酸库。
3.运行blastall时报下列警告和错误:
[blastall] WARNING:
[blastall] ERROR:
[blastall] ERROR:
这种情况多出在reads等短序列的比对中,某一个query序列的有效长度是0,则会导致这个错误。但是这个错误不会影响到其他query序列的正常比对,通常情况下可以忽略。
4.运行blastall时报下列警告并退出:
[blastall] WARNING:
[blastall] WARNING:
[blastall] WARNING:
这是因为做蛋白相关比对的时候目录下没有蛋白比对矩阵BLOSUM62。
实例
其他四种比对方式的使用和blastn大同小异,下面通过几个例子加以概括:
1.用BLOSUM45矩阵、“-F F”参数对两条相似的蛋白做blastp比对:
输入的query序列:query.seq
输入的database序列:db.seq
运行命令:blastall -i db.seq -d db.seq -o blastp.out -p blastp -F F -M BLOSUM45
输出结果存放在:blastp.out
2.用一条核酸序列和一条蛋白序列做交叉比对blastx和tblastn:
输入的核酸序列:cdna.seq
输入的蛋白序列:pep.seq
运行命令:
blastall -i cdna.seq -d pep.seq -o blastx.out -p blastx
blastall -i pep.seq -d cdna.seq -o tblastn.out -p tblastn
输出结果存放在:
blastx.out
tblastn.out
3.用2条核酸序列蛋白比对tblastx:
输入的query序列:query.seq
输入的database序列:db.seq
运行命令:blastall -i query.seq -d db.seq -o tblastx.out -p tblastx -e 0.5
输出结果存放在:tblastx.out
练习
1.用blast搜索人类基因组Chr10的重复序列(提示,为了减少比对时间,可以采取分割比对的方法)。
2.用blast查找蛋白序列ENSP00000328808在人类基因组Chr10上的位置。
3.用blast检查以下引物primer1和primer2是否可以用作在参考序列refseq上扩增。(提示,注意引物可能发生错配的条件和blast的比对参数)
>refseq
CTTAATTCGCCTCGTGAAAGAATA
ACTGCACCTCCAGCCAGGCAGTGG
GAAGGTTTCCACGTTGTCACGCCG
GGATTACTACCATCTGTTGCGTCA
TCCTCTATGACACCAACGTTGGGG
CAAAATCTGCTCAATGCTGGTGAT
TTCAGGTTCGCTTTCTTATATCTT
>primer1
ACTGCACCTCCAGCCAGGCAG
>primer2
GATATAAGAAAGCGAACCTG
参考文献
1.
2.
From : BGI-生物信息学培训教材
评论