Skip to main page content
U.S. flag

An official website of the United States government

Dot gov

The .gov means it’s official.
Federal government websites often end in .gov or .mil. Before sharing sensitive information, make sure you’re on a federal government site.

Https

The site is secure.
The https:// ensures that you are connecting to the official website and that any information you provide is encrypted and transmitted securely.

Access keys NCBI Homepage MyNCBI Homepage Main Content Main Navigation
. 2025 Apr 29.
doi: 10.1055/a-2577-3928. Online ahead of print.

Performance of AI Approaches for COVID-19 Diagnosis Using Chest CT Scans: The Impact of Architecture and Dataset

Affiliations
Free article

Performance of AI Approaches for COVID-19 Diagnosis Using Chest CT Scans: The Impact of Architecture and Dataset

Astha Jaiswal et al. Rofo. .
Free article

Abstract

AI is emerging as a promising tool for diagnosing COVID-19 based on chest CT scans. The aim of this study was the comparison of AI models for COVID-19 diagnosis. Therefore, we: (1) trained three distinct AI models for classifying COVID-19 and non-COVID-19 pneumonia (nCP) using a large, clinically relevant CT dataset, (2) evaluated the models' performance using an independent test set, and (3) compared the models both algorithmically and experimentally.In this multicenter multi-vendor study, we collected n=1591 chest CT scans of COVID-19 (n=762) and nCP (n=829) patients from China and Germany. In Germany, the data was collected from three RACOON sites. We trained and validated three COVID-19 AI models with different architectures: COVNet based on 2D-CNN, DeCoVnet based on 3D-CNN, and AD3D-MIL based on 3D-CNN with attention module. 991 CT scans were used for training the AI models using 5-fold cross-validation. 600 CT scans from 6 different centers were used for independent testing. The models' performance was evaluated using accuracy (Acc), sensitivity (Se), and specificity (Sp).The average validation accuracy of the COVNet, DeCoVnet, and AD3D-MIL models over the 5 folds was 80.9%, 82.0%, and 84.3%, respectively. On the independent test set with n=600 CT scans, COVNet yielded Acc=76.6%, Se=67.8%, Sp=85.7%; DeCoVnet provided Acc=75.1%, Se=61.2%, Sp=89.7%; and AD3D-MIL achieved Acc=73.9%, Se=57.7%, Sp=90.8%.The classification performance of the evaluated AI models is highly dependent on the training data rather than the architecture itself. Our results demonstrate a high specificity and moderate sensitivity. The AI classification models should not be used unsupervised but could potentially assist radiologists in COVID-19 and nCP identification. · This study compares AI approaches for diagnosing COVID-19 in chest CT scans, which is essential for further optimizing the delivery of healthcare and for pandemic preparedness.. · Our experiments using a multicenter, multi-vendor, diverse dataset show that the training data is the key factor in determining the diagnostic performance.. · The AI models should not be used unsupervised but as a tool to assist radiologists.. · Jaiswal A, Fervers P, Meng F et al. Performance of AI Approaches for COVID-19 Diagnosis Using Chest CT Scans: The Impact of Architecture and Dataset. Rofo 2025; DOI 10.1055/a-2577-3928.

Aktuell existieren verschiedenste Künstliche Intelligenz (KI)-Modelle zur Detektion und Klassifikation von Pneumonien in Thorax-CTs, aber unabhängige Vergleiche fehlen meist. In dieser Studie haben wir (1) drei verschiedene KI-Modelle zur Klassifizierung von COVID-19- und Nicht-COVID-19-Pneumonien (nCP) anhand eines klinisch relevanten CT-Datensatzes trainiert, (2) die Leistung der Modelle anhand eines unabhängigen Testsatzes bewertet und (3) die Modelle sowohl algorithmisch als auch experimentell verglichen.In dieser multizentrischen, retrospektiven Studie haben wir insgesamt 1591 Thorax-CTs von COVID-19- (n=762) und nCP (n=829)-Patienten aus China und Deutschland zusammengestellt; in Deutschland wurden die CT-Daten von 3 RACOON-Standorten eingeschlossen. Es wurden 3 open-source KI-Modelle mit unterschiedlichen Architekturen trainiert und validiert: COVNet basierend auf 2D-CNN, DeCoVnet basierend auf 3D-CNN, und AD3D-MIL basierend auf 3D-CNN mit Attention-Modul. Die Performance der Modelle wurde anhand von Genauigkeit (Acc), Sensitivität (Se) und Spezifität (Sp) bewertet.Die durchschnittliche Validierungsgenauigkeit der Modelle COVNet, DeCoVnet und AD3D-MIL über die 5-Fach-Validierung im Training mit n=991 CTs betrug 80,9%, 82,0% bzw. 84,3%. Auf dem unabhängigen Testsatz mit n=600 CTs lieferte COVNet: Acc=76,6%, Se=67,8%, Sp=85,7%; DeCoVnet: Acc=75,1%, Se=61,2%, Sp=89,7%; und AD3D-MIL: Acc=73,9%, Se=57,7%, Sp=90,8%.Die Klassifizierungsleistung der evaluierten KI-Modelle hängt in hohem Maße von den Trainingsdaten und weniger von der Architektur selbst ab. Unsere Ergebnisse zeigen eine hohe Spezifität und eine moderate Sensitivität bei der Differenzierung von COVID-19- und Nicht-COVID-19-Pneumonien. Die KI-Klassifikationsmodelle sollten aber nicht unkritisch verwendet werden, könnten aber Radiologen unterstützen. · Vorliegende Studie vergleicht KI-Ansätze zur bildbasierten Diagnose von COVID-19 in Thorax-CTs, was relevant für die weitere Optimierung der Gesundheitsversorgung und die Vorbereitung auf etwaig kommende Pandemien ist.. · Unser multizentrischer, herstellerübergreifender Datensatz zeigt, dass die Trainingsdaten der entscheidende Faktor für die diagnostische Leistungsfähigkeit sind.. · KI-Modelle sollten nicht autonom eingesetzt werden, sondern als unterstützendes Werkzeug in die radiologische Befundung integriert werden, um die diagnostische Entscheidungsfindung zu ergänzen – nicht zu ersetzen..

PubMed Disclaimer

Conflict of interest statement

Rahil Shahzad is employee of Philips Healthcare, other authors declare no conflicts of interest.

Similar articles

LinkOut - more resources