Accelerating long-read analysis on modern CPUs

Kalikar, S.; Jain, C.; Md, V.; Misra, S.

2021-07-23 genomics

10.1101/2021.07.21.453294 bioRxiv

Show abstract

Long read sequencing is now routinely used at scale for genomics and transcriptomics applications. Mapping of long reads or a draft genome assembly to a reference sequence is often one of the most time consuming steps in these applications. Here, we present techniques to accelerate minimap2, a widely used software for mapping. We present multiple optimizations using SIMD parallelization, efficient cache utilization and a learned index data structure to accelerate its three main computational modules, i.e., seeding, chaining and pairwise sequence alignment. These result in reduction of end-to-end mapping time of minimap2 by up to 1.8 x while maintaining identical output.

Matching journals

●Non-profit ◐University press ○Commercial

The top 3 journals account for 50% of the predicted probability mass.

Only show non-profit

Genome Research

● 409 papers in training set

◐ 1061 papers in training set

○ 555 papers in training set

50% of probability mass above

BMC Bioinformatics

○ 383 papers in training set

Nature Communications

○ 4913 papers in training set

◐ 172 papers in training set

NAR Genomics and Bioinformatics

◐ 214 papers in training set

○ 336 papers in training set

Bioinformatics Advances

◐ 184 papers in training set

○ 1063 papers in training set

Nature Biotechnology

○ 147 papers in training set

● 4510 papers in training set

Scientific Reports

○ 3102 papers in training set

IEEE Transactions on Computational Biology and Bioinformatics

● 17 papers in training set

Communications Biology

○ 886 papers in training set

G3 Genes|Genomes|Genetics

◐ 351 papers in training set

PLOS Computational Biology

● 1633 papers in training set

Nucleic Acids Research

◐ 1128 papers in training set

○ 328 papers in training set

Journal of Open Source Software

● 22 papers in training set

Nature Computational Science

○ 50 papers in training set

Molecular Biology and Evolution

◐ 488 papers in training set

Briefings in Bioinformatics

◐ 326 papers in training set