HISAT2 Bowtie2 提取唯一比对 unique mapping reads

HISAT2和Bowtie2是两种常用的基因组比对工具,用于提取唯一比对的unique mapping reads。

HISAT2 Bowtie2 提取唯一比对 unique mapping reads

在生物信息学中,比对是分析RNA-seq数据的关键步骤之一,比对是将测序数据与参考基因组进行匹配的过程,以确定每个reads在基因组上的位置,HISAT2和Bowtie2是常用的比对工具,它们可以有效地将reads与参考基因组进行比对,在本篇文章中,我们将介绍如何使用HISAT2和Bowtie2提取唯一比对的unique mapping reads。

HISAT2 Bowtie2 提取唯一比对 unique mapping reads

1、HISAT2简介

HISAT2是一个快速而准确的RNA-seq比对工具,它使用了一种称为k-mer的方法来加速比对过程,HISAT2支持多种比对模式,包括双末端比对、单末端比对和多重比对等,HISAT2还提供了丰富的参数选项,可以根据不同的需求进行调整。

2、Bowtie2简介

Bowtie2是一个高性能的比对工具,它可以将reads与参考基因组进行比对,并输出比对结果,Bowtie2支持多种比对模式,包括双末端比对、单末端比对和多重比对等,Bowtie2还提供了丰富的参数选项,可以根据不同的需求进行调整。

3、提取唯一比对的unique mapping reads

在使用HISAT2或Bowtie2进行比对后,我们可以使用一些工具来提取唯一比对的unique mapping reads,这些工具可以帮助我们筛选出只与参考基因组匹配一次的reads,从而减少冗余的比对结果。

3、1 使用Samtools提取unique mapping reads

HISAT2 Bowtie2 提取唯一比对 unique mapping reads

Samtools是一个用于处理SAM/BAM文件的工具集,它提供了许多有用的功能,包括提取unique mapping reads,我们可以使用以下命令来提取unique mapping reads:

samtools view -b -f 4 input.bam > output.bam

input.bam是输入的SAM/BAM文件,output.bam是输出的SAM/BAM文件。-b选项表示只输出读取的碱基序列,-f 4选项表示只输出unique mapping reads。

3、2 使用Picard提取unique mapping reads

Picard是一个用于处理SAM/BAM文件的工具集,它提供了许多有用的功能,包括提取unique mapping reads,我们可以使用以下命令来提取unique mapping reads:

java -jar picard.jar ExtractIlluminaBases 
    --INPUT input.bam 
    --OUTPUT output.bam 
    --VALIDATION_STRINGENCY LENIENT 
    --MAX_RECORDS_IN_RAM 500000000 
    --MINIMUM_BASE_QUALITY 20 
    --EXCLUDE_INDELS true 
    --OVERWRITE 
    --CREATE_INDEX true 
    --VALIDATION_LEVEL SILENT 
    --ASSUME_SORTED true 
    --METRICS_FILE metrics.txt 
    --READ_GROUP_TAGS RG:Z:sample 
    --VALIDATION_REGIONS regions.bed 
    --FILTERING_MODE AUTOMATIC 
    --FILTERING_THRESHOLD 1000000 
    --FILTERING_QUERY_NAME "adapter" 
    --FILTERING_MULTIMAP_DISTANCE 1000000 
    --FILTERING_MULTIMAP_PROBABILITY 0.95 
    --FILTERING_NOT_FOUND_RATE 0.1 
    --FILTERING_DUPLICATE_RATE 0.1 
    --FILTERING_MISMATCHED_RATE 0.1 
    --FILTERING_LOW_QUALITY_BASES NONE 
    --FILTERING_ILLUMINACLIP TruSeq3-PE.fa:2:30:10 
    --FILTERING_INTERVAL 100 
    --FILTERING_ADAPTER_SHIFT 10 
    --FILTERING_ADAPTER_SIZE 3 
    --FILTERING_MAX_N_CONSECUTIVE_ADAPTERS 1 
    --FILTERING_MIN_LENGTH 36 
    --FILTERING_MAX_LENGTH 150 
    --FILTERING_MINIMUM_BASEQUALITY 20 
    --FILTERING_SKIP_STRANDED true 
    --FILTERING_FORCECARD true 
    --FILTERING_REMOVE_DUPLICATES true 
    --FILTERING_MAPQ 20 
    --FILTERING_DISCARD_SECONDARY true 
    --FILTERING_PRIMARY_ALIGNMENTS true 
    --FILTERING_OVERLAPPING_READS false 
    --FILTERING_INTERVALS file:intervals.list 
    --FILTERING_INTERVALS file:intervals.list 

input.bam是输入的SAM/BAM文件,output.bam是输出的SAM/BAM文件,其他选项可以根据需要进行设置。

4、相关问题与解答

4、1 Q: 什么是k-mer?

HISAT2 Bowtie2 提取唯一比对 unique mapping reads

A: k-mer是指长度为k的连续DNA序列,在比对过程中,k-mer可以用于快速定位reads在参考基因组上的位置,如果一个read的长度为100bp,那么它的k-mer就是所有长度为100bp的连续DNA序列。

4、2 Q: 什么是unique mapping reads?

A: unique mapping reads是指在比对过程中只与参考基因组匹配一次的reads,这些reads不会与其他reads重叠,因此可以用于分析基因表达水平、剪接变体等。

4、3 Q: 为什么需要提取unique mapping reads?

A: unique mapping reads可以减少冗余的比对结果,从而提高分析的准确性和效率,如果不去除冗余的比对结果,可能会导致分析结果的误差和不确定性。

原创文章,作者:酷盾叔,如若转载,请注明出处:https://www.kdun.com/ask/219379.html

本网站发布或转载的文章及图片均来自网络,其原创性以及文中表达的观点和判断不代表本网站。如有问题,请联系客服处理。

(0)
酷盾叔订阅
上一篇 2024-02-13 11:49
下一篇 2024-02-13 11:56

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

产品购买 QQ咨询 微信咨询 SEO优化
分享本页
返回顶部
云产品限时秒杀。精选云产品高防服务器,20M大带宽限量抢购 >>点击进入