The Advanced Reasoning Capabilities of Large Language Models for Detecting Contraindicated Options in Medical Exams

Yuichiro Yano^{1

2}, Mizuki Ohashi¹, Taiju Miyagami¹, Hirotake Mori¹, Yuji Nishizaki³, Hiroyuki Daida⁴, Toshio Naito¹

Affiliations

¹ Department of General Medicine, Juntendo University Faculty of Medicine, 2-1-1, Hongo, Bunkyo-Ku, Tokyo, 113-8421, Japan, 81 3-3813-3111.
² AI Incubation Farm, Juntendo University Faculty of Medicine, Tokyo, Japan.
³ Division of Medical Education, Juntendo University School of Medicine, Tokyo, Japan.
⁴ Department of Cardiovascular Biology and Medicine, Juntendo University Graduate School of Medicine, Tokyo, Japan.

PMID: 40354629
PMCID: PMC12088613
DOI: 10.2196/68527

The Advanced Reasoning Capabilities of Large Language Models for Detecting Contraindicated Options in Medical Exams

Yuichiro Yano et al. JMIR Med Inform. 2025.

. 2025 May 12:13:e68527.

doi: 10.2196/68527.

Authors

Yuichiro Yano^{1

2}, Mizuki Ohashi¹, Taiju Miyagami¹, Hirotake Mori¹, Yuji Nishizaki³, Hiroyuki Daida⁴, Toshio Naito¹

Affiliations

¹ Department of General Medicine, Juntendo University Faculty of Medicine, 2-1-1, Hongo, Bunkyo-Ku, Tokyo, 113-8421, Japan, 81 3-3813-3111.
² AI Incubation Farm, Juntendo University Faculty of Medicine, Tokyo, Japan.
³ Division of Medical Education, Juntendo University School of Medicine, Tokyo, Japan.
⁴ Department of Cardiovascular Biology and Medicine, Juntendo University Graduate School of Medicine, Tokyo, Japan.

PMID: 40354629
PMCID: PMC12088613
DOI: 10.2196/68527

Abstract

Enhancing clinical reasoning and reducing diagnostic errors are essential in medical practice; OpenAI-o1, with advanced reasoning capabilities, performed better than GPT-4 on 15 Japanese National Medical Licensing Examination questions (accuracy: 100% vs 80%; contraindicated option detection: 87% vs 73%), though findings are preliminary due to the small sample size.

Keywords: artificial intelligence; clinical reasoning; large language model; medical errors; natural language processing.

PubMed Disclaimer

Conflict of interest statement

Conflicts of Interest: None declared.

References

1. Berner ES, Graber ML. Overconfidence as a cause of diagnostic error in medicine. Am J Med. 2008 May;121(5 Suppl):S2–S23. doi: 10.1016/j.amjmed.2008.01.001. doi. Medline. - DOI - PubMed
1. Bowen JL. Educational strategies to promote clinical diagnostic reasoning. N Engl J Med. 2006 Nov 23;355(21):2217–2225. doi: 10.1056/NEJMra054782. doi. Medline. - DOI - PubMed
1. Learning to reason with LLMs. OpenAI. Sep 12, 2024. [08-03-2025]. https://openai.com/index/learning-to-reason-with-llms/ URL. Accessed.
1. Zelikman E, Wu Y, Mu J, Goodman ND. STaR: bootstrapping reasoning with reasoning. arXiv. 2022 Mar 28; doi: 10.48550/arXiv.2203.14465. Preprint posted online on. doi. - DOI
1. Temsah MH, Jamal A, Alhasan K, Temsah AA, Malki KH. OpenAI o1-preview vs. ChatGPT in healthcare: a new frontier in medical AI reasoning. Cureus. 2024 Oct;16(10):e70640. doi: 10.7759/cureus.70640. doi. Medline. - DOI - PMC - PubMed

MeSH terms

Actions
Actions
Actions
Actions
Actions
Actions

LinkOut - more resources

Full Text Sources
- JMIR Publications
- PubMed Central

Save citation to file

Email citation

Add to Collections

Add to My Bibliography

Your saved search

Create a file for external citation management software

Your RSS Feed

The Advanced Reasoning Capabilities of Large Language Models for Detecting Contraindicated Options in Medical Exams

Affiliations

The Advanced Reasoning Capabilities of Large Language Models for Detecting Contraindicated Options in Medical Exams

Authors

Affiliations

Abstract

Conflict of interest statement

References

MeSH terms

LinkOut - more resources

Full Text Sources