34 lines
2.1 KiB
Bash
34 lines
2.1 KiB
Bash
###从NCBI下载基因组(DNA)/转录组(RNA)测序数据到获得预测基因的处理步骤(以Nyctotherus_ovalis物种为例,见/home/Data_01/yizhenzhen06/public_share/Saccharomyces_cerevisiae_DNA。如果没有注明仅基因组数据要做,其他步骤基因组和转录组步骤一样。直接写在本文件里的美丽表示可以直接终端运行指令,其他指令要提交pbs任务运行。
|
||
|
||
seqkit sample ../3_decontamination/5_Sacc_cerevisiae_dec_all_cov1_cdhit.fasta \
|
||
-o 5_Sacc_cerevisiae_dec_all_cov1_cdhit_sample.fasta \
|
||
-p 0.25 -s 11
|
||
#seqkit抽提 1/2 或 1/4 序列 -p 参数调整
|
||
|
||
#Codetta 读取基因组,然后利用已知蛋白质的数据库,通过比对保守蛋白质序列的隐马尔可夫模型(Profile HMMs)与输入序列,计算出每个密码子最可能对应的氨基酸
|
||
#如果一个基因编码某种蛋白质,该蛋白质的氨基酸序列应该与已知蛋白质具有一定的相似性,Codetta 就通过寻找这种相似性来推断每个密码子的氨基酸解码
|
||
|
||
codetta.py 5_Sacc_cerevisiae_dec_all_cov1_cdhit_sample.fasta
|
||
#codetta预测密码子表(进入 py36 环境,提交任务)
|
||
|
||
####################################################################################################
|
||
|
||
augustus \
|
||
--progress=true --protein=on --introns=on --start=on --stop=on --cds=on --codingseq=on --gff3=on \
|
||
--species=tetrahymena \
|
||
--extrinsicCfgFile=/home/Data_01/yizhenzhen06/miniconda3/envs/augustus/config/extrinsic/extrinsic.M.RM.E.W.cfg \
|
||
../3_decontamination/5_Sacc_cerevisiae_dec_all_cov1_cdhit.fasta \
|
||
--outfile=Sacc_cerevisiae.gff3
|
||
#基因组数据基因预测,提交脚本运行
|
||
getAnnoFasta.pl Sacc_cerevisiae.gff3 && mv Sacc_cerevisiae.aa Sacc_cerevisiae_augustus.fasta
|
||
# 从预测结果中提取氨基酸序列
|
||
|
||
TransDecoder.LongOrfs \
|
||
-t ../3_decontamination/5_S_dharwarensis_dec_all_cdhit.fasta \
|
||
-O S_dharwarensis_clean_cdhit_predict \
|
||
-G Ciliate
|
||
TransDecoder.Predict \
|
||
-t ../3_decontamination/5_S_dharwarensis_dec_all_cdhit.fasta \
|
||
-O S_dharwarensis_clean_cdhit_predict \
|
||
-G Ciliate
|
||
#转录组数据基因预测,-G参数改成help命令中相应物种的对应密码子,两条指令一起提交脚本运行 |