Comparing AI and Human Coding of NIH Grant Abstracts to Identify Innovations in Opioid Addiction Treatment

Alkhatib, S. A.; Jiwa, N.; Judd, D.; Luningham, J. M.; Sawyer-Morris, G.; Ulukaya, M.; Molfenter, T.; Taxman, F. S.; Walters, S. T.

2026-02-17 health informatics

10.64898/2026.02.13.26346235 medRxiv

Show abstract

Large language models (LLMs) are increasingly used for qualitative analysis in substance use research, yet their performance relative to human coders remains underexplored. This study compares ChatGPT-4.0 with human coders in identifying and describing the core innovation of NIH grants focused on reducing opioid overdose. A total of 118 NIH HEAL Initiative grant abstracts were independently coded by ChatGPT and humans to generate innovation descriptions, which were then evaluated by both human raters and ChatGPT for depth/detail and relevance/completeness using 5-point Likert scales. Identical instructions were used across all coding and evaluation stages. ChatGPT-generated descriptions were consistently rated higher than human-generated descriptions on both dimensions. Human evaluators rated ChatGPT outputs at an average of 4.47 for both depth/detail and relevance/completeness, compared to 3.33 and 3.24 for human outputs, respectively (F(1,176)=133.9, p<0.001). These findings suggest that LLMs, when carefully prompted, can enhance the efficiency and quality of qualitative research evaluation.

Matching journals

●Non-profit ◐University press ○Commercial

The top 10 journals account for 50% of the predicted probability mass.

Only show non-profit

International Journal of Drug Policy

○ 11 papers in training set

● 4510 papers in training set

International Journal of Medical Informatics

○ 25 papers in training set

◐ 37 papers in training set

Journal of the American Medical Informatics Association

◐ 61 papers in training set

Frontiers in Digital Health

○ 20 papers in training set

JMIR Public Health and Surveillance

◐ 45 papers in training set

Journal of Medical Internet Research

◐ 85 papers in training set

BMC Medical Research Methodology

○ 43 papers in training set

Scientific Reports

○ 3102 papers in training set

50% of probability mass above

JMIR Research Protocols

◐ 18 papers in training set

○ 16 papers in training set

Preventive Medicine Reports

○ 14 papers in training set

Journal of Biomedical Informatics

○ 45 papers in training set

● 554 papers in training set

BMC Health Services Research

○ 42 papers in training set

PLOS Digital Health

● 91 papers in training set

Biology Methods and Protocols

◐ 53 papers in training set

○ 12 papers in training set

Drug and Alcohol Dependence

○ 37 papers in training set

International Journal of Environmental Research and Public Health

○ 124 papers in training set

JMIR Formative Research

◐ 32 papers in training set

JMIR Medical Informatics

◐ 17 papers in training set

◐ 31 papers in training set

Acta Neuropsychiatrica

◐ 12 papers in training set

BMJ Health & Care Informatics

● 13 papers in training set

BMC Medical Informatics and Decision Making

○ 39 papers in training set

Frontiers in Public Health

○ 140 papers in training set

Psychiatry Research

○ 35 papers in training set

Frontiers in Psychiatry

○ 83 papers in training set