HISAT2和Bowtie2是两种常用的基因组比对工具,用于提取唯一比对的unique mapping reads。
HISAT2 Bowtie2 提取唯一比对 unique mapping reads
在生物信息学中,比对是分析RNA-seq数据的关键步骤之一,比对是将测序数据与参考基因组进行匹配的过程,以确定每个reads在基因组上的位置,HISAT2和Bowtie2是常用的比对工具,它们可以有效地将reads与参考基因组进行比对,在本篇文章中,我们将介绍如何使用HISAT2和Bowtie2提取唯一比对的unique mapping reads。
1、HISAT2简介
HISAT2是一个快速而准确的RNA-seq比对工具,它使用了一种称为k-mer的方法来加速比对过程,HISAT2支持多种比对模式,包括双末端比对、单末端比对和多重比对等,HISAT2还提供了丰富的参数选项,可以根据不同的需求进行调整。
2、Bowtie2简介
Bowtie2是一个高性能的比对工具,它可以将reads与参考基因组进行比对,并输出比对结果,Bowtie2支持多种比对模式,包括双末端比对、单末端比对和多重比对等,Bowtie2还提供了丰富的参数选项,可以根据不同的需求进行调整。
3、提取唯一比对的unique mapping reads
在使用HISAT2或Bowtie2进行比对后,我们可以使用一些工具来提取唯一比对的unique mapping reads,这些工具可以帮助我们筛选出只与参考基因组匹配一次的reads,从而减少冗余的比对结果。
3、1 使用Samtools提取unique mapping reads
Samtools是一个用于处理SAM/BAM文件的工具集,它提供了许多有用的功能,包括提取unique mapping reads,我们可以使用以下命令来提取unique mapping reads:
samtools view -b -f 4 input.bam > output.bam
input.bam
是输入的SAM/BAM文件,output.bam
是输出的SAM/BAM文件。-b
选项表示只输出读取的碱基序列,-f 4
选项表示只输出unique mapping reads。
3、2 使用Picard提取unique mapping reads
Picard是一个用于处理SAM/BAM文件的工具集,它提供了许多有用的功能,包括提取unique mapping reads,我们可以使用以下命令来提取unique mapping reads:
java -jar picard.jar ExtractIlluminaBases --INPUT input.bam --OUTPUT output.bam --VALIDATION_STRINGENCY LENIENT --MAX_RECORDS_IN_RAM 500000000 --MINIMUM_BASE_QUALITY 20 --EXCLUDE_INDELS true --OVERWRITE --CREATE_INDEX true --VALIDATION_LEVEL SILENT --ASSUME_SORTED true --METRICS_FILE metrics.txt --READ_GROUP_TAGS RG:Z:sample --VALIDATION_REGIONS regions.bed --FILTERING_MODE AUTOMATIC --FILTERING_THRESHOLD 1000000 --FILTERING_QUERY_NAME "adapter" --FILTERING_MULTIMAP_DISTANCE 1000000 --FILTERING_MULTIMAP_PROBABILITY 0.95 --FILTERING_NOT_FOUND_RATE 0.1 --FILTERING_DUPLICATE_RATE 0.1 --FILTERING_MISMATCHED_RATE 0.1 --FILTERING_LOW_QUALITY_BASES NONE --FILTERING_ILLUMINACLIP TruSeq3-PE.fa:2:30:10 --FILTERING_INTERVAL 100 --FILTERING_ADAPTER_SHIFT 10 --FILTERING_ADAPTER_SIZE 3 --FILTERING_MAX_N_CONSECUTIVE_ADAPTERS 1 --FILTERING_MIN_LENGTH 36 --FILTERING_MAX_LENGTH 150 --FILTERING_MINIMUM_BASEQUALITY 20 --FILTERING_SKIP_STRANDED true --FILTERING_FORCECARD true --FILTERING_REMOVE_DUPLICATES true --FILTERING_MAPQ 20 --FILTERING_DISCARD_SECONDARY true --FILTERING_PRIMARY_ALIGNMENTS true --FILTERING_OVERLAPPING_READS false --FILTERING_INTERVALS file:intervals.list --FILTERING_INTERVALS file:intervals.list
input.bam
是输入的SAM/BAM文件,output.bam
是输出的SAM/BAM文件,其他选项可以根据需要进行设置。
4、相关问题与解答
4、1 Q: 什么是k-mer?
A: k-mer是指长度为k的连续DNA序列,在比对过程中,k-mer可以用于快速定位reads在参考基因组上的位置,如果一个read的长度为100bp,那么它的k-mer就是所有长度为100bp的连续DNA序列。
4、2 Q: 什么是unique mapping reads?
A: unique mapping reads是指在比对过程中只与参考基因组匹配一次的reads,这些reads不会与其他reads重叠,因此可以用于分析基因表达水平、剪接变体等。
4、3 Q: 为什么需要提取unique mapping reads?
A: unique mapping reads可以减少冗余的比对结果,从而提高分析的准确性和效率,如果不去除冗余的比对结果,可能会导致分析结果的误差和不确定性。
原创文章,作者:酷盾叔,如若转载,请注明出处:https://www.kdun.com/ask/219379.html
本网站发布或转载的文章及图片均来自网络,其原创性以及文中表达的观点和判断不代表本网站。如有问题,请联系客服处理。
发表回复