Simple baselines rival protein language models in mutation-dense design tasks

Talpir, I.; Fleishman, S. J.

2026-05-06 bioinformatics

10.64898/2026.05.01.722313 bioRxiv

Show abstract

Computational protein design demands generally applicable models that reliably predict or generate unmeasured variants with superior functional properties. Although protein language models (pLMs) have been used in zero-shot and transfer-learning design studies, they have generally not been assessed in benchmarks that explicitly test combinatorial extrapolation from lower- to higher-order variants. Here we benchmark widely used pLMs against conventional baseline methods in recently described dense, experimentally validated multi-mutant landscapes. We find that regardless of architecture and parameter count, pLMs are statistically similar to one another, and none consistently outperforms conventional baseline methods. Furthermore, their ability to distinguish functional from non-functional variants in zero-shot prediction is comparable to that of conventional homology-based methods. We suggest that to contribute significantly to the design of protein function, pLMs may need to encode biophysical and structural priors or be combined with structure-based approaches.

Matching journals

●Non-profit ◐University press ○Commercial

The top 5 journals account for 50% of the predicted probability mass.

Only show non-profit

PLOS Computational Biology

● 1633 papers in training set

Journal of Chemical Information and Modeling

● 207 papers in training set

○ 167 papers in training set

Proteins: Structure, Function, and Bioinformatics

○ 82 papers in training set

Journal of Chemical Theory and Computation

● 126 papers in training set

50% of probability mass above

Nature Communications

○ 4913 papers in training set

The Journal of Physical Chemistry B

● 158 papers in training set

Proceedings of the National Academy of Sciences

● 2130 papers in training set

Protein Science

○ 221 papers in training set

◐ 1061 papers in training set

Bioinformatics Advances

◐ 184 papers in training set

Computational and Structural Biotechnology Journal

● 216 papers in training set

Journal of Cheminformatics

○ 25 papers in training set

Briefings in Bioinformatics

◐ 326 papers in training set

Chemical Science

● 71 papers in training set

Scientific Reports

○ 3102 papers in training set

Biophysical Journal

○ 545 papers in training set

● 5422 papers in training set

○ 175 papers in training set

● 4510 papers in training set

Frontiers in Molecular Biosciences

○ 100 papers in training set

Journal of Molecular Biology

○ 217 papers in training set

BMC Bioinformatics

○ 383 papers in training set

ACS Synthetic Biology

● 256 papers in training set

Nature Biotechnology

○ 147 papers in training set

International Journal of Molecular Sciences

○ 453 papers in training set

Nucleic Acids Research

◐ 1128 papers in training set

NAR Genomics and Bioinformatics

◐ 214 papers in training set

Nature Machine Intelligence

○ 61 papers in training set

The American Journal of Human Genetics

○ 206 papers in training set