update-20250601

2025-06-01 21:09:16 +08:00 · 2025-06-01 21:09:16 +08:00 · c67f4d9649
commit c67f4d9649
parent 635a7c5199
5 changed files with 142 additions and 0 deletions
--- a/0_raw/step.sh
+++ b/0_raw/step.sh
@ -0,0 +1,9 @@
 ###从NCBI下载基因组(DNA)/转录组(RNA)测序数据到获得预测基因的处理步骤（以Nyctotherus_ovalis物种为例，见/home/Data_01/yizhenzhen06/public_share/Saccharomyces_cerevisiae_DNA。如果没有注明仅基因组数据要做，其他步骤基因组和转录组步骤一样。直接写在本文件里的美丽表示可以直接终端运行指令，其他指令要提交pbs任务运行。
 screen -S ncbi_dl #screen命令创建一个新的窗口（这里窗口命名为ncbi_dl）用来下载原始测序数据
 wget -c -b -i species_name_urls.txt #NCBI下载每个物种相应所有原始数据至服务器，species_name_urls.txt包括SRA数据的urls链接
 #命令运行成功后，按下组合键ctrl+A+D退出当前窗口
 screen -r ncbi_dl #返回ncbi_dl窗口，查看下载进度
 :fastq-dump --defline-seq '@$sn[_$rn]/$ri' --split-files SRR10355986.1 #RNA数据转换数据格式为左右两端read文件
 :fastq-dump --split-files SRR10355986.1 #DNA数据转换数据格式为左右两端read文件
--- a/1_trim/step.sh
+++ b/1_trim/step.sh
@ -0,0 +1,23 @@
 ###从NCBI下载基因组(DNA)/转录组(RNA)测序数据到获得预测基因的处理步骤（以Nyctotherus_ovalis物种为例，见/home/Data_01/yizhenzhen06/public_share/Saccharomyces_cerevisiae_DNA。如果没有注明仅基因组数据要做，其他步骤基因组和转录组步骤一样。直接写在本文件里的美丽表示可以直接终端运行指令，其他指令要提交pbs任务运行。
 fastqc -o 1_trim/QC/ --noextract -t 2 -f fastq 0_rawdata/SRRXXXXXX_1.fastq 0_rawdata/SRRXXXXXX_2.fastq
 #分别检查左、右端数据质量，数据量大可以一起提交脚本运行。
 #如果数据质量不好，就做trimmomatic质控过滤。如果质量没问题，就分别合并所有左、右端两端reads文件进行组装。
 :cat SRRXXXXXX.1_1.fastq SRRXXXXXX.1_1.fastq > species_name_1.fastq #合并所有左端reads文件
 :cat SRRXXXXXX.1_2.fastq SRRXXXXXX.1_2.fastq > species_name_2.fastq #合并所有右端reads文件
 trimmomatic PE -phred33 -threads 16 \
 1_trim/species_name_1.fastq \
 1_trim/species_name_2.fastq \
 1_trim/species_name_1_p.fastq \
 1_trim/species_name_1_up.fastq \
 1_trim/species_name_2_p.fastq \
 1_trim/species_name_2_up.fastq \
 ILLUMINACLIP:../../adapters/NexteraPE-PE.fa:2:30:10:8:true LEADING:3 TRAILING:3 SLIDINGWINDOW:5:20 MINLEN:36 HEADCROP:15 
 #trimmomatic质控过滤，参数需根据具体数据质量进行调整，大型数据请提交脚本运行。
 fastqc -o 1_trim/QC/ --noextract -t 2 -f fastq 0_rawdata/SRRXXXXXX_1.fastq 0_rawdata/SRRXXXXXX_2.fastq
 #再次检查左、右端数据质量，数据量大同样提交脚本运行。
--- a/2_assembly/step.sh
+++ b/2_assembly/step.sh
@ -0,0 +1,18 @@
 ###从NCBI下载基因组(DNA)/转录组(RNA)测序数据到获得预测基因的处理步骤（以Nyctotherus_ovalis物种为例，见/home/Data_01/yizhenzhen06/public_share/Saccharomyces_cerevisiae_DNA。如果没有注明仅基因组数据要做，其他步骤基因组和转录组步骤一样。直接写在本文件里的美丽表示可以直接终端运行指令，其他指令要提交pbs任务运行。
 Trinity --seqType fq --max_memory 50G --no_version_check \
 --left species_name_1_p.fastq \
 --right species_name_2_p.fastq \
 --CPU XX 
 #RNA数据用Trinity组装，--CPU调整调用cpu核心数，其它参数需根据具体数据情况进行调整，提交脚本运行。
 spades.py --sc -t XX -m 230 \
 -1 species_name_1_p.fastq \
 -2 species_name_2_p.fastq \
 -o spades_species_name
 #DNA数据用spades组装，-t调整调用cpu核心数，其它参数需根据具体数据情况进行调整，提交脚本运行。
 busco -i spades/scaffolds.fasta -m XXX \
 -l /home/Data_01/share_databases/busco/alveolata_odb10/alveolata_odb10 \
 -o busco_out_alve --offline -f 
 #BUSCO 检测完整度，-m调整评估模式(trans转录组 geno基因组)
--- a/3_decontamination/step.sh
+++ b/3_decontamination/step.sh
@ -0,0 +1,58 @@
 ###从NCBI下载基因组(DNA)/转录组(RNA)测序数据到获得预测基因的处理步骤（以Nyctotherus_ovalis物种为例，见/home/Data_01/yizhenzhen06/public_share/Saccharomyces_cerevisiae_DNA。如果没有注明仅基因组数据要做，其他步骤基因组和转录组步骤一样。直接写在本文件里的美丽表示可以直接终端运行指令，其他指令要提交pbs任务运行。
 blastn -db /home/Data_01/share_databases/ncbi_genome_refseq_bac_old/ncbi_genome_refseq_bac_old \
 -query /home/Data_01/yizhenzhen06/public_share/Saccharomyces_cerevisiae_DNA/2_assembly/spades/scaffolds.fasta \
 -out 1_Sacc_cerevisiae_dec_bac.tab \
 -outfmt "6 qseqid qlen sseqid slen pident qcovs qstart qend sstart send mismatch gapopen evalue bitscore" \
 -evalue 1e-5 -max_target_seqs 1 -num_threads X
 sed -i '1i\tquery ID\tquery sequence length\tsubject ID\tsubject qequence length\tpercent identities\tcoverage\tqstart\tqend\tsstart\tsend\tmismatch\tgapopen\tevalue\tbitscores ' 1_Sacc_cerevisiae_dec_bac.tab
 #去细菌基因组污染，两条指令放一个脚本运行（注意检查数据库路径）
 awk '{ if ($5 > 80 && $6 > 70) print $1 }' 1_Sacc_cerevisiae_dec_bac.tab > 1_Sacc_cerevisiae_dec_bac.id #提取第5列相似度大于80%且覆盖率大于70%的序列ID（这一步建议需要下载到本地手动检查输出的id条数是否和Sacc_cerevisiae_dec_bac.tab（手动excel筛选）文件的第5列相似度大于80%且覆盖率大于70%的序列条数一致）
 seqkit grep -v -f Sacc_cerevisiae_dec_bac.id ../2_assembly/trinity_out_dir/Trinity.fasta > 1_Sacc_cerevisiae_dec_bac.fasta #从组装结果文件中删去细菌污染序列
 ####################################################################################################
 blastn -db /home/Data_01/share_databases/human_genome_new/GCA_021234545.1_HCC1395BL_v1.0_genomic_db \
 -query 1_Sacc_cerevisiae_dec_bac.fasta \
 -out 2_Sacc_cerevisiae_dec_bac_hum.tab \
 -outfmt "6 qseqid qlen sseqid slen pident qcovs qstart qend sstart send mismatch gapopen evalue bitscore" \
 -evalue 1e-5 -max_target_seqs 1 -num_threads X
 sed -i '1i\tquery ID\tquery sequence length\tsubject ID\tsubject qequence length\tpercent identities\tcoverage\tqstart\tqend\tsstart\tsend\tmismatch\tgapopen\tevalue\tbitscores ' 2_Sacc_cerevisiae_dec_bac_hum.tab
 #去人类基因组污染，两条指令放一个脚本运行（注意检查数据库路径）
 awk '{ if ($5 > 80 && $6 > 70) print $1 }' 2_Sacc_cerevisiae_dec_bac_hum.tab > 2_Sacc_cerevisiae_dec_bac_hum.id #提取第5列相似度大于80%且覆盖率大于70%的序列ID（这一步建议需要下载到本地手动检查输出的id条数是否和2_Sacc_cerevisiae_dec_bac_hum.tab（手动excel筛选）文件的第5列相似度大于80%且覆盖率大于70%的序列条数一致）
 seqkit grep -v -f 2_Sacc_cerevisiae_dec_bac_hum.id 1_Sacc_cerevisiae_dec_bac.fasta > 2_Sacc_cerevisiae_dec_bac_hum.fasta #从组装结果文件中删去人类基因组污染序列
 ####################################################################################################
 blastn -db /home/Data_01/share_databases/human_genome_new/GCF_000001405.39_GRCh38.p13_rna_db \
 -query 2_Sacc_cerevisiae_dec_bac_hum.fasta \
 -out 3_Sacc_cerevisiae_dec_bac_hum_geno_rna.tab \
 -outfmt "6 qseqid qlen sseqid slen pident qcovs qstart qend sstart send mismatch gapopen evalue bitscore" \
 -evalue 1e-5 -max_target_seqs 1 -num_threads X
 sed -i '1i\tquery ID\tquery sequence length\tsubject ID\tsubject qequence length\tpercent identities\tcoverage\tqstart\tqend\tsstart\tsend\tmismatch\tgapopen\tevalue\tbitscores ' 3_Sacc_cerevisiae_dec_bac_hum_geno_rna.tab
 #去人类转录组污染，两条指令放一个脚本运行（注意检查数据库路径）
 awk '{ if ($5 > 80 && $6 > 70) print $1 }' 3_Sacc_cerevisiae_dec_bac_hum_geno_rna.tab > 3_Sacc_cerevisiae_dec_bac_hum_geno_rna.id #提取第5列相似度大于80%且覆盖率大于70%的序列ID（这一步需要下载到本地手动检查输出的id条数是否和Nyct_bac_human_genome_blastn.tab（excel筛选）文件的第5列相似度大于80%且覆盖率大于70%的序列条数一致）
 seqkit grep -v -f 3_Sacc_cerevisiae_dec_bac_hum_geno_rna.id 2_Sacc_cerevisiae_dec_bac_hum.fasta > 3_Sacc_cerevisiae_dec_bac_hum_geno_rna.fasta #从组装结果文件中删去人类转录组污染序列
 ####################################################################################################
 seqkit seq -n -i ../2_assembly/spades/scaffolds.fasta > 4_Sacc_cerevisiae_dec_all.txt
 #提取序列ID，仅基因组数据要做
 awk '{if($1~"_0.")print$1}' 4_Sacc_cerevisiae_dec_all.txt > 4_Sacc_cerevisiae_dec_all_cov1.id
 #提取coverage小于1的序列ID，仅基因组数据要做
 seqkit grep -v -f 4_Sacc_cerevisiae_dec_all_cov1.id 4_Sacc_cerevisiae_dec_all.fasta > 4_Sacc_cerevisiae_dec_all_cov1.fasta 
 #去除coverage小于1的序列，仅基因组数据要做
 ####################################################################################################
 cd-hit-est \
 -i 4_Sacc_cerevisiae_dec_all_cov1.fasta \
 -o 5_Sacc_cerevisiae_dec_all_cov1_cdhit.fasta \
 -c 0.9 -n 8 -d 0 -M 32000 -T 48
 #去冗余（核酸序列）
--- a/4_prediction/step.sh
+++ b/4_prediction/step.sh
@ -0,0 +1,34 @@
 ###从NCBI下载基因组(DNA)/转录组(RNA)测序数据到获得预测基因的处理步骤（以Nyctotherus_ovalis物种为例，见/home/Data_01/yizhenzhen06/public_share/Saccharomyces_cerevisiae_DNA。如果没有注明仅基因组数据要做，其他步骤基因组和转录组步骤一样。直接写在本文件里的美丽表示可以直接终端运行指令，其他指令要提交pbs任务运行。
 seqkit sample ../3_decontamination/5_Sacc_cerevisiae_dec_all_cov1_cdhit.fasta \
 -o 5_Sacc_cerevisiae_dec_all_cov1_cdhit_sample.fasta \
 -p 0.25 -s 11 
 #seqkit抽提 1/2 或 1/4 序列 -p 参数调整
 #Codetta 读取基因组，然后利用已知蛋白质的数据库，通过比对保守蛋白质序列的隐马尔可夫模型（Profile HMMs）与输入序列，计算出每个密码子最可能对应的氨基酸 
 #如果一个基因编码某种蛋白质，该蛋白质的氨基酸序列应该与已知蛋白质具有一定的相似性，Codetta 就通过寻找这种相似性来推断每个密码子的氨基酸解码
 codetta.py 5_Sacc_cerevisiae_dec_all_cov1_cdhit_sample.fasta 
 #codetta预测密码子表（进入 py36 环境，提交任务）
 ####################################################################################################
 augustus \
 --progress=true --protein=on --introns=on --start=on --stop=on --cds=on --codingseq=on --gff3=on \
 --species=tetrahymena \
 --extrinsicCfgFile=/home/Data_01/yizhenzhen06/miniconda3/envs/augustus/config/extrinsic/extrinsic.M.RM.E.W.cfg \
 ../3_decontamination/5_Sacc_cerevisiae_dec_all_cov1_cdhit.fasta \
 --outfile=Sacc_cerevisiae.gff3
 #基因组数据基因预测，提交脚本运行
 getAnnoFasta.pl Sacc_cerevisiae.gff3 && mv Sacc_cerevisiae.aa Sacc_cerevisiae_augustus.fasta
 # 从预测结果中提取氨基酸序列
 TransDecoder.LongOrfs \
 -t ../3_decontamination/5_Sacc_cerevisiae_dec_all_cov1_cdhit.fasta \
 -O LongOrfs/Sacc_cerevisiae_clean_cdhit_ciliate \
 -G Ciliate
 TransDecoder.Predict \
 -t ../3_decontamination/5_Sacc_cerevisiae_dec_all_cov1_cdhit.fasta \
 -O Sacc_cerevisiae_clean_cdhit_predict \
 -G Ciliate
 #转录组数据基因预测，-G参数改成help命令中相应物种的对应密码子，两条指令一起提交脚本运行