update-20250601

This commit is contained in:
YuuMJ 2025-06-01 21:09:16 +08:00
parent 635a7c5199
commit c67f4d9649
5 changed files with 142 additions and 0 deletions

9
0_raw/step.sh Normal file
View File

@ -0,0 +1,9 @@
###从NCBI下载基因组(DNA)/转录组(RNA)测序数据到获得预测基因的处理步骤以Nyctotherus_ovalis物种为例见/home/Data_01/yizhenzhen06/public_share/Saccharomyces_cerevisiae_DNA。如果没有注明仅基因组数据要做其他步骤基因组和转录组步骤一样。直接写在本文件里的美丽表示可以直接终端运行指令其他指令要提交pbs任务运行。
screen -S ncbi_dl #screen命令创建一个新的窗口这里窗口命名为ncbi_dl用来下载原始测序数据
wget -c -b -i species_name_urls.txt #NCBI下载每个物种相应所有原始数据至服务器species_name_urls.txt包括SRA数据的urls链接
#命令运行成功后按下组合键ctrl+A+D退出当前窗口
screen -r ncbi_dl #返回ncbi_dl窗口查看下载进度
:fastq-dump --defline-seq '@$sn[_$rn]/$ri' --split-files SRR10355986.1 #RNA数据转换数据格式为左右两端read文件
:fastq-dump --split-files SRR10355986.1 #DNA数据转换数据格式为左右两端read文件

23
1_trim/step.sh Normal file
View File

@ -0,0 +1,23 @@
###从NCBI下载基因组(DNA)/转录组(RNA)测序数据到获得预测基因的处理步骤以Nyctotherus_ovalis物种为例见/home/Data_01/yizhenzhen06/public_share/Saccharomyces_cerevisiae_DNA。如果没有注明仅基因组数据要做其他步骤基因组和转录组步骤一样。直接写在本文件里的美丽表示可以直接终端运行指令其他指令要提交pbs任务运行。
fastqc -o 1_trim/QC/ --noextract -t 2 -f fastq 0_rawdata/SRRXXXXXX_1.fastq 0_rawdata/SRRXXXXXX_2.fastq
#分别检查左、右端数据质量,数据量大可以一起提交脚本运行。
#如果数据质量不好就做trimmomatic质控过滤。如果质量没问题就分别合并所有左、右端两端reads文件进行组装。
:cat SRRXXXXXX.1_1.fastq SRRXXXXXX.1_1.fastq > species_name_1.fastq #合并所有左端reads文件
:cat SRRXXXXXX.1_2.fastq SRRXXXXXX.1_2.fastq > species_name_2.fastq #合并所有右端reads文件
trimmomatic PE -phred33 -threads 16 \
1_trim/species_name_1.fastq \
1_trim/species_name_2.fastq \
1_trim/species_name_1_p.fastq \
1_trim/species_name_1_up.fastq \
1_trim/species_name_2_p.fastq \
1_trim/species_name_2_up.fastq \
ILLUMINACLIP:../../adapters/NexteraPE-PE.fa:2:30:10:8:true LEADING:3 TRAILING:3 SLIDINGWINDOW:5:20 MINLEN:36 HEADCROP:15
#trimmomatic质控过滤参数需根据具体数据质量进行调整大型数据请提交脚本运行。
fastqc -o 1_trim/QC/ --noextract -t 2 -f fastq 0_rawdata/SRRXXXXXX_1.fastq 0_rawdata/SRRXXXXXX_2.fastq
#再次检查左、右端数据质量,数据量大同样提交脚本运行。

18
2_assembly/step.sh Normal file
View File

@ -0,0 +1,18 @@
###从NCBI下载基因组(DNA)/转录组(RNA)测序数据到获得预测基因的处理步骤以Nyctotherus_ovalis物种为例见/home/Data_01/yizhenzhen06/public_share/Saccharomyces_cerevisiae_DNA。如果没有注明仅基因组数据要做其他步骤基因组和转录组步骤一样。直接写在本文件里的美丽表示可以直接终端运行指令其他指令要提交pbs任务运行。
Trinity --seqType fq --max_memory 50G --no_version_check \
--left species_name_1_p.fastq \
--right species_name_2_p.fastq \
--CPU XX
#RNA数据用Trinity组装--CPU调整调用cpu核心数其它参数需根据具体数据情况进行调整提交脚本运行。
spades.py --sc -t XX -m 230 \
-1 species_name_1_p.fastq \
-2 species_name_2_p.fastq \
-o spades_species_name
#DNA数据用spades组装-t调整调用cpu核心数其它参数需根据具体数据情况进行调整提交脚本运行。
busco -i spades/scaffolds.fasta -m XXX \
-l /home/Data_01/share_databases/busco/alveolata_odb10/alveolata_odb10 \
-o busco_out_alve --offline -f
#BUSCO 检测完整度,-m调整评估模式(trans转录组 geno基因组)

58
3_decontamination/step.sh Normal file
View File

@ -0,0 +1,58 @@
###从NCBI下载基因组(DNA)/转录组(RNA)测序数据到获得预测基因的处理步骤以Nyctotherus_ovalis物种为例见/home/Data_01/yizhenzhen06/public_share/Saccharomyces_cerevisiae_DNA。如果没有注明仅基因组数据要做其他步骤基因组和转录组步骤一样。直接写在本文件里的美丽表示可以直接终端运行指令其他指令要提交pbs任务运行。
blastn -db /home/Data_01/share_databases/ncbi_genome_refseq_bac_old/ncbi_genome_refseq_bac_old \
-query /home/Data_01/yizhenzhen06/public_share/Saccharomyces_cerevisiae_DNA/2_assembly/spades/scaffolds.fasta \
-out 1_Sacc_cerevisiae_dec_bac.tab \
-outfmt "6 qseqid qlen sseqid slen pident qcovs qstart qend sstart send mismatch gapopen evalue bitscore" \
-evalue 1e-5 -max_target_seqs 1 -num_threads X
sed -i '1i\tquery ID\tquery sequence length\tsubject ID\tsubject qequence length\tpercent identities\tcoverage\tqstart\tqend\tsstart\tsend\tmismatch\tgapopen\tevalue\tbitscores ' 1_Sacc_cerevisiae_dec_bac.tab
#去细菌基因组污染,两条指令放一个脚本运行(注意检查数据库路径)
awk '{ if ($5 > 80 && $6 > 70) print $1 }' 1_Sacc_cerevisiae_dec_bac.tab > 1_Sacc_cerevisiae_dec_bac.id #提取第5列相似度大于80%且覆盖率大于70%的序列ID这一步建议需要下载到本地手动检查输出的id条数是否和Sacc_cerevisiae_dec_bac.tab手动excel筛选文件的第5列相似度大于80%且覆盖率大于70%的序列条数一致)
seqkit grep -v -f Sacc_cerevisiae_dec_bac.id ../2_assembly/trinity_out_dir/Trinity.fasta > 1_Sacc_cerevisiae_dec_bac.fasta #从组装结果文件中删去细菌污染序列
####################################################################################################
blastn -db /home/Data_01/share_databases/human_genome_new/GCA_021234545.1_HCC1395BL_v1.0_genomic_db \
-query 1_Sacc_cerevisiae_dec_bac.fasta \
-out 2_Sacc_cerevisiae_dec_bac_hum.tab \
-outfmt "6 qseqid qlen sseqid slen pident qcovs qstart qend sstart send mismatch gapopen evalue bitscore" \
-evalue 1e-5 -max_target_seqs 1 -num_threads X
sed -i '1i\tquery ID\tquery sequence length\tsubject ID\tsubject qequence length\tpercent identities\tcoverage\tqstart\tqend\tsstart\tsend\tmismatch\tgapopen\tevalue\tbitscores ' 2_Sacc_cerevisiae_dec_bac_hum.tab
#去人类基因组污染,两条指令放一个脚本运行(注意检查数据库路径)
awk '{ if ($5 > 80 && $6 > 70) print $1 }' 2_Sacc_cerevisiae_dec_bac_hum.tab > 2_Sacc_cerevisiae_dec_bac_hum.id #提取第5列相似度大于80%且覆盖率大于70%的序列ID这一步建议需要下载到本地手动检查输出的id条数是否和2_Sacc_cerevisiae_dec_bac_hum.tab手动excel筛选文件的第5列相似度大于80%且覆盖率大于70%的序列条数一致)
seqkit grep -v -f 2_Sacc_cerevisiae_dec_bac_hum.id 1_Sacc_cerevisiae_dec_bac.fasta > 2_Sacc_cerevisiae_dec_bac_hum.fasta #从组装结果文件中删去人类基因组污染序列
####################################################################################################
blastn -db /home/Data_01/share_databases/human_genome_new/GCF_000001405.39_GRCh38.p13_rna_db \
-query 2_Sacc_cerevisiae_dec_bac_hum.fasta \
-out 3_Sacc_cerevisiae_dec_bac_hum_geno_rna.tab \
-outfmt "6 qseqid qlen sseqid slen pident qcovs qstart qend sstart send mismatch gapopen evalue bitscore" \
-evalue 1e-5 -max_target_seqs 1 -num_threads X
sed -i '1i\tquery ID\tquery sequence length\tsubject ID\tsubject qequence length\tpercent identities\tcoverage\tqstart\tqend\tsstart\tsend\tmismatch\tgapopen\tevalue\tbitscores ' 3_Sacc_cerevisiae_dec_bac_hum_geno_rna.tab
#去人类转录组污染,两条指令放一个脚本运行(注意检查数据库路径)
awk '{ if ($5 > 80 && $6 > 70) print $1 }' 3_Sacc_cerevisiae_dec_bac_hum_geno_rna.tab > 3_Sacc_cerevisiae_dec_bac_hum_geno_rna.id #提取第5列相似度大于80%且覆盖率大于70%的序列ID这一步需要下载到本地手动检查输出的id条数是否和Nyct_bac_human_genome_blastn.tabexcel筛选文件的第5列相似度大于80%且覆盖率大于70%的序列条数一致)
seqkit grep -v -f 3_Sacc_cerevisiae_dec_bac_hum_geno_rna.id 2_Sacc_cerevisiae_dec_bac_hum.fasta > 3_Sacc_cerevisiae_dec_bac_hum_geno_rna.fasta #从组装结果文件中删去人类转录组污染序列
####################################################################################################
seqkit seq -n -i ../2_assembly/spades/scaffolds.fasta > 4_Sacc_cerevisiae_dec_all.txt
#提取序列ID仅基因组数据要做
awk '{if($1~"_0.")print$1}' 4_Sacc_cerevisiae_dec_all.txt > 4_Sacc_cerevisiae_dec_all_cov1.id
#提取coverage小于1的序列ID仅基因组数据要做
seqkit grep -v -f 4_Sacc_cerevisiae_dec_all_cov1.id 4_Sacc_cerevisiae_dec_all.fasta > 4_Sacc_cerevisiae_dec_all_cov1.fasta
#去除coverage小于1的序列仅基因组数据要做
####################################################################################################
cd-hit-est \
-i 4_Sacc_cerevisiae_dec_all_cov1.fasta \
-o 5_Sacc_cerevisiae_dec_all_cov1_cdhit.fasta \
-c 0.9 -n 8 -d 0 -M 32000 -T 48
#去冗余(核酸序列)

34
4_prediction/step.sh Normal file
View File

@ -0,0 +1,34 @@
###从NCBI下载基因组(DNA)/转录组(RNA)测序数据到获得预测基因的处理步骤以Nyctotherus_ovalis物种为例见/home/Data_01/yizhenzhen06/public_share/Saccharomyces_cerevisiae_DNA。如果没有注明仅基因组数据要做其他步骤基因组和转录组步骤一样。直接写在本文件里的美丽表示可以直接终端运行指令其他指令要提交pbs任务运行。
seqkit sample ../3_decontamination/5_Sacc_cerevisiae_dec_all_cov1_cdhit.fasta \
-o 5_Sacc_cerevisiae_dec_all_cov1_cdhit_sample.fasta \
-p 0.25 -s 11
#seqkit抽提 1/2 或 1/4 序列 -p 参数调整
#Codetta 读取基因组然后利用已知蛋白质的数据库通过比对保守蛋白质序列的隐马尔可夫模型Profile HMMs与输入序列计算出每个密码子最可能对应的氨基酸
#如果一个基因编码某种蛋白质该蛋白质的氨基酸序列应该与已知蛋白质具有一定的相似性Codetta 就通过寻找这种相似性来推断每个密码子的氨基酸解码
codetta.py 5_Sacc_cerevisiae_dec_all_cov1_cdhit_sample.fasta
#codetta预测密码子表进入 py36 环境,提交任务)
####################################################################################################
augustus \
--progress=true --protein=on --introns=on --start=on --stop=on --cds=on --codingseq=on --gff3=on \
--species=tetrahymena \
--extrinsicCfgFile=/home/Data_01/yizhenzhen06/miniconda3/envs/augustus/config/extrinsic/extrinsic.M.RM.E.W.cfg \
../3_decontamination/5_Sacc_cerevisiae_dec_all_cov1_cdhit.fasta \
--outfile=Sacc_cerevisiae.gff3
#基因组数据基因预测,提交脚本运行
getAnnoFasta.pl Sacc_cerevisiae.gff3 && mv Sacc_cerevisiae.aa Sacc_cerevisiae_augustus.fasta
# 从预测结果中提取氨基酸序列
TransDecoder.LongOrfs \
-t ../3_decontamination/5_Sacc_cerevisiae_dec_all_cov1_cdhit.fasta \
-O LongOrfs/Sacc_cerevisiae_clean_cdhit_ciliate \
-G Ciliate
TransDecoder.Predict \
-t ../3_decontamination/5_Sacc_cerevisiae_dec_all_cov1_cdhit.fasta \
-O Sacc_cerevisiae_clean_cdhit_predict \
-G Ciliate
#转录组数据基因预测,-G参数改成help命令中相应物种的对应密码子两条指令一起提交脚本运行