Toward Clinical-Grade Evaluation of Large Language Models

Affiliations

¹ Department of Radiation Oncology, University of Texas MD Anderson Cancer Center, Houston, Texas.
² Department of Radiation Oncology, Brigham and Women's Hospital/Dana-Farber Cancer Institute, Harvard Medical School, Boston, Massachusetts; Artificial Intelligence in Medicine Program, Mass General Brigham, Harvard Medical School, Boston, Massachusetts. Electronic address: dbitterman@bwh.harvard.edu.

Editorial

Amy C Moreno et al. Int J Radiat Oncol Biol Phys. 2024.

. 2024 Mar 15;118(4):916-920.

doi: 10.1016/j.ijrobp.2023.11.012. Epub 2024 Feb 22.

¹ Department of Radiation Oncology, University of Texas MD Anderson Cancer Center, Houston, Texas.
² Department of Radiation Oncology, Brigham and Women's Hospital/Dana-Farber Cancer Institute, Harvard Medical School, Boston, Massachusetts; Artificial Intelligence in Medicine Program, Mass General Brigham, Harvard Medical School, Boston, Massachusetts. Electronic address: dbitterman@bwh.harvard.edu.

No abstract available

References

1. OpenAI. Available at: https://platform.openai.com. Accessed November 1, 2023.
1. Singhal K, Tu T, Gottweis J, et al. Towards expert-level medical question answering with large language models. Available at: https://arxiv.org/abs/2305.09617. Accessed December 14, 2023.
1. Nori H, King N, McKinney SM, Carignan D, Horvitz E. Capabilities of GPT-4 on medical challenge problems. Available at: https://arxiv.org/abs/2303.13375. Accessed December 14, 2023.
1. Huang Y, Gomaa A, Semrau S, et al. Benchmarking ChatGPT-4 on a radiation oncology in-training exam and Red Journal Gray Zone cases: Potentials and challenges for ai-assisted medical education and decision making in radiation oncology. Front Oncol 2023;13:1265024. - PMC - PubMed
1. Singhal K, Azizi S, Tu T, et al. Large language models encode clinical knowledge. Nature 2023;620:172–180. - PMC - PubMed