HISAT2 Bowtie2 提取唯一比对 unique mapping reads

HISAT2和Bowtie2是两种常用的基因组比对工具，用于提取唯一比对的unique mapping reads。

在生物信息学中，比对是分析RNA-seq数据的关键步骤之一，比对是将测序数据与参考基因组进行匹配的过程，以确定每个reads在基因组上的位置，HISAT2和Bowtie2是常用的比对工具，它们可以有效地将reads与参考基因组进行比对，在本篇文章中，我们将介绍如何使用HISAT2和Bowtie2提取唯一比对的unique mapping reads。

1、HISAT2简介

HISAT2是一个快速而准确的RNA-seq比对工具，它使用了一种称为k-mer的方法来加速比对过程，HISAT2支持多种比对模式，包括双末端比对、单末端比对和多重比对等，HISAT2还提供了丰富的参数选项，可以根据不同的需求进行调整。

2、Bowtie2简介

Bowtie2是一个高性能的比对工具，它可以将reads与参考基因组进行比对，并输出比对结果，Bowtie2支持多种比对模式，包括双末端比对、单末端比对和多重比对等，Bowtie2还提供了丰富的参数选项，可以根据不同的需求进行调整。

3、提取唯一比对的unique mapping reads

在使用HISAT2或Bowtie2进行比对后，我们可以使用一些工具来提取唯一比对的unique mapping reads，这些工具可以帮助我们筛选出只与参考基因组匹配一次的reads，从而减少冗余的比对结果。

3、1 使用Samtools提取unique mapping reads

Samtools是一个用于处理SAM/BAM文件的工具集，它提供了许多有用的功能，包括提取unique mapping reads，我们可以使用以下命令来提取unique mapping reads：

samtools view -b -f 4 input.bam > output.bam

input.bam是输入的SAM/BAM文件，output.bam是输出的SAM/BAM文件。-b选项表示只输出读取的碱基序列，-f 4选项表示只输出unique mapping reads。

3、2 使用Picard提取unique mapping reads

Picard是一个用于处理SAM/BAM文件的工具集，它提供了许多有用的功能，包括提取unique mapping reads，我们可以使用以下命令来提取unique mapping reads：

java -jar picard.jar ExtractIlluminaBases 
    --INPUT input.bam 
    --OUTPUT output.bam 
    --VALIDATION_STRINGENCY LENIENT 
    --MAX_RECORDS_IN_RAM 500000000 
    --MINIMUM_BASE_QUALITY 20 
    --EXCLUDE_INDELS true 
    --OVERWRITE 
    --CREATE_INDEX true 
    --VALIDATION_LEVEL SILENT 
    --ASSUME_SORTED true 
    --METRICS_FILE metrics.txt 
    --READ_GROUP_TAGS RG:Z:sample 
    --VALIDATION_REGIONS regions.bed 
    --FILTERING_MODE AUTOMATIC 
    --FILTERING_THRESHOLD 1000000 
    --FILTERING_QUERY_NAME "adapter" 
    --FILTERING_MULTIMAP_DISTANCE 1000000 
    --FILTERING_MULTIMAP_PROBABILITY 0.95 
    --FILTERING_NOT_FOUND_RATE 0.1 
    --FILTERING_DUPLICATE_RATE 0.1 
    --FILTERING_MISMATCHED_RATE 0.1 
    --FILTERING_LOW_QUALITY_BASES NONE 
    --FILTERING_ILLUMINACLIP TruSeq3-PE.fa:2:30:10 
    --FILTERING_INTERVAL 100 
    --FILTERING_ADAPTER_SHIFT 10 
    --FILTERING_ADAPTER_SIZE 3 
    --FILTERING_MAX_N_CONSECUTIVE_ADAPTERS 1 
    --FILTERING_MIN_LENGTH 36 
    --FILTERING_MAX_LENGTH 150 
    --FILTERING_MINIMUM_BASEQUALITY 20 
    --FILTERING_SKIP_STRANDED true 
    --FILTERING_FORCECARD true 
    --FILTERING_REMOVE_DUPLICATES true 
    --FILTERING_MAPQ 20 
    --FILTERING_DISCARD_SECONDARY true 
    --FILTERING_PRIMARY_ALIGNMENTS true 
    --FILTERING_OVERLAPPING_READS false 
    --FILTERING_INTERVALS file:intervals.list 
    --FILTERING_INTERVALS file:intervals.list

input.bam是输入的SAM/BAM文件，output.bam是输出的SAM/BAM文件，其他选项可以根据需要进行设置。

4、相关问题与解答

4、1 Q: 什么是k-mer？

A: k-mer是指长度为k的连续DNA序列，在比对过程中，k-mer可以用于快速定位reads在参考基因组上的位置，如果一个read的长度为100bp，那么它的k-mer就是所有长度为100bp的连续DNA序列。

4、2 Q: 什么是unique mapping reads？

A: unique mapping reads是指在比对过程中只与参考基因组匹配一次的reads，这些reads不会与其他reads重叠，因此可以用于分析基因表达水平、剪接变体等。

4、3 Q: 为什么需要提取unique mapping reads？

A: unique mapping reads可以减少冗余的比对结果，从而提高分析的准确性和效率，如果不去除冗余的比对结果，可能会导致分析结果的误差和不确定性。

原创文章，作者：酷盾叔，如若转载，请注明出处：https://www.kdun.com/ask/219379.html

本网站发布或转载的文章及图片均来自网络，其原创性以及文中表达的观点和判断不代表本网站。如有问题，请联系客服处理。

HISAT2 Bowtie2 提取唯一比对 unique mapping reads

相关推荐

什么是HISAT2？探索这一工具的功能与应用

发表回复