How Large Language Models Perform on the United States Medical Licensing Examination: A Systematic Review

Brin, D.; Sorin, V.; Konen, E.; Glicksberg, B. S.; Nadkarni, G.; Klang, E.

2023-09-03 health informatics

10.1101/2023.09.03.23294842 medRxiv

Show abstract

ABSTRACTO_ST_ABSObjectiveC_ST_ABSThe United States Medical Licensing Examination (USMLE) assesses physicians competency and passing is a requirement to practice medicine in the U.S. With the emergence of large language models (LLMs) like ChatGPT and GPT-4, understanding their performance on these exams illuminates their potential in medical education and healthcare. Materials and MethodsA literature search following the 2020 PRISMA guidelines was conducted, focusing on studies using official USMLE questions and publicly available LLMs. ResultsThree relevant studies were found, with GPT-4 showcasing the highest accuracy rates of 80-90% on the USMLE. Open-ended prompts typically outperformed multiple-choice ones, with 5-shot prompting slightly edging out zero-shot. ConclusionLLMs, especially GPT-4, display proficiency in tackling USMLE-standard questions. While the USMLE is a structured evaluation tool, it may not fully capture the expansive capabilities and limitations of LLMs in medical scenarios. As AI integrates further into healthcare, ongoing assessments against trusted benchmarks are essential.

Matching journals

●Non-profit ◐University press ○Commercial

The top 8 journals account for 50% of the predicted probability mass.

Only show non-profit

BMJ Health & Care Informatics

● 13 papers in training set

○ 16 papers in training set

International Journal of Medical Informatics

○ 25 papers in training set

BMC Medical Informatics and Decision Making

○ 39 papers in training set

PLOS Digital Health

● 91 papers in training set

Journal of the American Medical Informatics Association

◐ 61 papers in training set

● 4510 papers in training set

Scientific Reports

○ 3102 papers in training set

50% of probability mass above

JMIR Medical Informatics

◐ 17 papers in training set

Biology Methods and Protocols

◐ 53 papers in training set

Computers in Biology and Medicine

○ 120 papers in training set

npj Digital Medicine

○ 97 papers in training set

Journal of Medical Internet Research

◐ 85 papers in training set

◐ 37 papers in training set

BMC Medical Education

○ 20 papers in training set

Frontiers in Digital Health

○ 20 papers in training set

Artificial Intelligence in Medicine

○ 15 papers in training set

JMIR Public Health and Surveillance

◐ 45 papers in training set

Journal of Personalized Medicine

○ 28 papers in training set

Frontiers in Public Health

○ 140 papers in training set

JMIR Formative Research

◐ 32 papers in training set

● 554 papers in training set

Journal of Biomedical Informatics

○ 45 papers in training set

Frontiers in Artificial Intelligence

○ 18 papers in training set

○ 13 papers in training set

○ 12 papers in training set

Journal of General Internal Medicine

○ 20 papers in training set