Benchmarking siRNA Prediction: The Role of Representation and Validation Strategies

Karmakar, A.; Merii, A.; Weir, A.; Kudla, G.; Basham, M.; Lubbock, A.

2026-05-14 bioinformatics

10.64898/2026.05.12.724560 bioRxiv

Show abstract

Small interfering RNAs (siRNAs) offer transformative potential for targeted therapeutics, yet the design of highly effective and non-toxic candidates is hindered by the risk of off-target effects and RNA instability. A critical flaw in in silico prediction models is pervasive data leakage in cross-validation protocols, which artificially inflates performance metrics and produces untrustworthy results. To address this, we developed a rigorous framework that eliminates data leakage through strict cross-validation, leverages z-curves (3D representations of RNA physico-chemical properties) for context-aware sequence encoding, and identifies key sequence regions critical for efficacy. Our model achieves an AUC of 0.845 on leakage-free validation, surpassing prior work at 380x faster computation speed, demonstrating that superior representation trumps model complexity. Crucially, we demonstrate how experimental variability and cross-validation choices directly impact model reliability, establishing the first benchmarked methods for robust siRNA efficacy prediction. This work provides a foundation for trustworthy sequence design and validation in RNA therapeutics.

Matching journals

●Non-profit ◐University press ○Commercial

The top 5 journals account for 50% of the predicted probability mass.

Only show non-profit

Nucleic Acids Research

◐ 1128 papers in training set

○ 167 papers in training set

Nature Communications

○ 4913 papers in training set

Nature Biotechnology

○ 147 papers in training set

PLOS Computational Biology

● 1633 papers in training set

50% of probability mass above

◐ 1061 papers in training set

Molecular Therapy Nucleic Acids

○ 32 papers in training set

● 4510 papers in training set

Advanced Science

○ 249 papers in training set

Briefings in Bioinformatics

◐ 326 papers in training set

Nature Machine Intelligence

○ 61 papers in training set

Journal of Chemical Information and Modeling

● 207 papers in training set

Scientific Reports

○ 3102 papers in training set

NAR Genomics and Bioinformatics

◐ 214 papers in training set

○ 162 papers in training set

Computational and Structural Biotechnology Journal

● 216 papers in training set

Proceedings of the National Academy of Sciences

● 2130 papers in training set

Bioinformatics Advances

◐ 184 papers in training set

The American Journal of Human Genetics

○ 206 papers in training set

Communications Biology

○ 886 papers in training set

Genomics, Proteomics & Bioinformatics

◐ 171 papers in training set

○ 336 papers in training set

● 63 papers in training set

● 5422 papers in training set

○ 1063 papers in training set

Molecular Therapy - Nucleic Acids

○ 24 papers in training set

Cell Reports Methods

○ 141 papers in training set

BMC Bioinformatics

○ 383 papers in training set

ACS Synthetic Biology

● 256 papers in training set