2025-06-04 17:36:47 +08:00

34 lines
2.1 KiB
Bash
Raw Permalink Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

###从NCBI下载基因组(DNA)/转录组(RNA)测序数据到获得预测基因的处理步骤以Nyctotherus_ovalis物种为例见/home/Data_01/yizhenzhen06/public_share/Saccharomyces_cerevisiae_DNA。如果没有注明仅基因组数据要做其他步骤基因组和转录组步骤一样。直接写在本文件里的美丽表示可以直接终端运行指令其他指令要提交pbs任务运行。
seqkit sample ../3_decontamination/5_Sacc_cerevisiae_dec_all_cov1_cdhit.fasta \
-o 5_Sacc_cerevisiae_dec_all_cov1_cdhit_sample.fasta \
-p 0.25 -s 11
#seqkit抽提 1/2 或 1/4 序列 -p 参数调整
#Codetta 读取基因组然后利用已知蛋白质的数据库通过比对保守蛋白质序列的隐马尔可夫模型Profile HMMs与输入序列计算出每个密码子最可能对应的氨基酸
#如果一个基因编码某种蛋白质该蛋白质的氨基酸序列应该与已知蛋白质具有一定的相似性Codetta 就通过寻找这种相似性来推断每个密码子的氨基酸解码
codetta.py 5_Sacc_cerevisiae_dec_all_cov1_cdhit_sample.fasta
#codetta预测密码子表进入 py36 环境,提交任务)
####################################################################################################
augustus \
--progress=true --protein=on --introns=on --start=on --stop=on --cds=on --codingseq=on --gff3=on \
--species=tetrahymena \
--extrinsicCfgFile=/home/Data_01/yizhenzhen06/miniconda3/envs/augustus/config/extrinsic/extrinsic.M.RM.E.W.cfg \
../3_decontamination/5_Sacc_cerevisiae_dec_all_cov1_cdhit.fasta \
--outfile=Sacc_cerevisiae.gff3
#基因组数据基因预测,提交脚本运行
getAnnoFasta.pl Sacc_cerevisiae.gff3 && mv Sacc_cerevisiae.aa Sacc_cerevisiae_augustus.fasta
# 从预测结果中提取氨基酸序列
TransDecoder.LongOrfs \
-t ../3_decontamination/5_S_dharwarensis_dec_all_cdhit.fasta \
-O S_dharwarensis_clean_cdhit_predict \
-G Ciliate
TransDecoder.Predict \
-t ../3_decontamination/5_S_dharwarensis_dec_all_cdhit.fasta \
-O S_dharwarensis_clean_cdhit_predict \
-G Ciliate
#转录组数据基因预测,-G参数改成help命令中相应物种的对应密码子两条指令一起提交脚本运行