Detecting Medication Mentions in Social Media Data Using Large Language Models

Lopez-Garcia, G.; Xu, D.; Gonzalez-Hernandez, G.

2025-05-18 health informatics

10.1101/2025.05.16.25327791 medRxiv

Show abstract

The automatic extraction of medication mentions from social media data is critical for pharmacovigilance and public health monitoring. In this study, we present an end-to-end generative approach based on instruction-tuned large language models (LLMs) for medication mention extraction from Twitter. Reformulating the task as a text-to-text generation problem, our models achieve state-of-the-art results on both fine-grained span extraction and coarse-grained tweet-level classification, surpassing traditional sequence labeling baselines and previous best-performing systems. We demonstrate that fine-tuning Flan-T5 models enables efficient and accurate extraction while simplifying the architecture by eliminating complex multi-stage pipelines. Additionally, we show that lexicon-based filtering further improves performance by reducing false positives. Our models are publicly available, providing high-performing and efficient tools for large-scale pharmacological analysis of social media data.

Matching journals

●Non-profit ◐University press ○Commercial

The top 5 journals account for 50% of the predicted probability mass.

Only show non-profit

npj Digital Medicine

○ 97 papers in training set

○ 38 papers in training set

Journal of Biomedical Informatics

○ 45 papers in training set

Journal of the American Medical Informatics Association

◐ 61 papers in training set

IEEE Journal of Biomedical and Health Informatics

● 34 papers in training set

50% of probability mass above

◐ 37 papers in training set

Scientific Reports

○ 3102 papers in training set

Nature Biomedical Engineering

○ 42 papers in training set

◐ 1061 papers in training set

Nature Communications

○ 4913 papers in training set

Science Translational Medicine

● 111 papers in training set

● 4510 papers in training set

Journal of Medical Internet Research

◐ 85 papers in training set

Communications Medicine

○ 85 papers in training set

International Journal of Medical Informatics

○ 25 papers in training set

○ 70 papers in training set

Advanced Science

○ 249 papers in training set

Nature Machine Intelligence

○ 61 papers in training set

BMC Bioinformatics

○ 383 papers in training set

Nature Computational Science

○ 50 papers in training set

○ 1063 papers in training set

BMC Medical Informatics and Decision Making

○ 39 papers in training set

Frontiers in Digital Health

○ 20 papers in training set

○ 130 papers in training set

Science Advances

● 1098 papers in training set

Briefings in Bioinformatics

◐ 326 papers in training set

JCO Clinical Cancer Informatics

● 18 papers in training set

Computers in Biology and Medicine

○ 120 papers in training set

Communications Biology

○ 886 papers in training set

The Lancet Digital Health

○ 25 papers in training set