Pub-Script/4_prediction/step.sh

###从NCBI下载基因组(DNA)/转录组(RNA)测序数据到获得预测基因的处理步骤（以Nyctotherus_ovalis物种为例，见/home/Data_01/yizhenzhen06/public_share/Saccharomyces_cerevisiae_DNA。如果没有注明仅基因组数据要做，其他步骤基因组和转录组步骤一样。直接写在本文件里的美丽表示可以直接终端运行指令，其他指令要提交pbs任务运行。

seqkit sample ../3_decontamination/5_Sacc_cerevisiae_dec_all_cov1_cdhit.fasta \
-o 5_Sacc_cerevisiae_dec_all_cov1_cdhit_sample.fasta \
-p 0.25 -s 11
#seqkit抽提 1/2 或 1/4 序列 -p 参数调整

#Codetta 读取基因组，然后利用已知蛋白质的数据库，通过比对保守蛋白质序列的隐马尔可夫模型（Profile HMMs）与输入序列，计算出每个密码子最可能对应的氨基酸
#如果一个基因编码某种蛋白质，该蛋白质的氨基酸序列应该与已知蛋白质具有一定的相似性，Codetta 就通过寻找这种相似性来推断每个密码子的氨基酸解码

codetta.py 5_Sacc_cerevisiae_dec_all_cov1_cdhit_sample.fasta
#codetta预测密码子表（进入 py36 环境，提交任务）

####################################################################################################

augustus \
--progress=true --protein=on --introns=on --start=on --stop=on --cds=on --codingseq=on --gff3=on \
--species=tetrahymena \
--extrinsicCfgFile=/home/Data_01/yizhenzhen06/miniconda3/envs/augustus/config/extrinsic/extrinsic.M.RM.E.W.cfg \
../3_decontamination/5_Sacc_cerevisiae_dec_all_cov1_cdhit.fasta \
--outfile=Sacc_cerevisiae.gff3
#基因组数据基因预测，提交脚本运行
getAnnoFasta.pl Sacc_cerevisiae.gff3 && mv Sacc_cerevisiae.aa Sacc_cerevisiae_augustus.fasta
# 从预测结果中提取氨基酸序列

TransDecoder.LongOrfs \
-t ../3_decontamination/5_S_dharwarensis_dec_all_cdhit.fasta \
-O S_dharwarensis_clean_cdhit_predict \
-G Ciliate
TransDecoder.Predict \
-t ../3_decontamination/5_S_dharwarensis_dec_all_cdhit.fasta \
-O S_dharwarensis_clean_cdhit_predict \
-G Ciliate
#转录组数据基因预测，-G参数改成help命令中相应物种的对应密码子，两条指令一起提交脚本运行