. 2023 Mar 30;54(1):e2035300.

doi: 10.25100/cm.v54i1.5300. eCollection 2023 Jan-Mar.

Automated extraction of information from free text of Spanish oncology pathology reports

Diana Marcela Mendoza-Urbano¹, Johan Felipe Garcia², Juan Sebastian Moreno^{2

3}, Juan Carlos Bravo-Ocaña⁴, Alvaro José Riascos^{2

3

5}, Angela Zambrano Harvey⁶, Sergio I Prada^{7

8}

Affiliations

¹ Universidad Nacional de Colombia, Facultad de Medicina, Departamento de Patología, Bogotá, Colombia.
² Quantil SAS. Bogotá, Colombia.
³ Centro de Analítica para Políticas Públicas. Bogotá, Colombia.
⁴ Fundación Valle del Lili; Departamento de Patología, Cali, Colombia.
⁵ Universidad de los Andes, Facultad de Economía. Bogotá, Colombia.
⁶ Fundación Valle del Lili; Departamento de Hemato-Oncología, Cali, Colombia.
⁷ Fundación Valle del Lili, Centro de Investigaciones Clínicas, Cali, Colombia.
⁸ Universidad Icesi, Centro PROESA, Cali, Colombia.

PMID: 37614525
PMCID: PMC10443791
DOI: 10.25100/cm.v54i1.5300

Automated extraction of information from free text of Spanish oncology pathology reports

Diana Marcela Mendoza-Urbano et al. Colomb Med (Cali). 2023.

. 2023 Mar 30;54(1):e2035300.

doi: 10.25100/cm.v54i1.5300. eCollection 2023 Jan-Mar.

Authors

Diana Marcela Mendoza-Urbano¹, Johan Felipe Garcia², Juan Sebastian Moreno^{2

3}, Juan Carlos Bravo-Ocaña⁴, Alvaro José Riascos^{2

3

5}, Angela Zambrano Harvey⁶, Sergio I Prada^{7

8}

Affiliations

¹ Universidad Nacional de Colombia, Facultad de Medicina, Departamento de Patología, Bogotá, Colombia.
² Quantil SAS. Bogotá, Colombia.
³ Centro de Analítica para Políticas Públicas. Bogotá, Colombia.
⁴ Fundación Valle del Lili; Departamento de Patología, Cali, Colombia.
⁵ Universidad de los Andes, Facultad de Economía. Bogotá, Colombia.
⁶ Fundación Valle del Lili; Departamento de Hemato-Oncología, Cali, Colombia.
⁷ Fundación Valle del Lili, Centro de Investigaciones Clínicas, Cali, Colombia.
⁸ Universidad Icesi, Centro PROESA, Cali, Colombia.

PMID: 37614525
PMCID: PMC10443791
DOI: 10.25100/cm.v54i1.5300

Abstract
in English, Spanish

Background: Pathology reports are stored as unstructured, ungrammatical, fragmented, and abbreviated free text with linguistic variability among pathologists. For this reason, tumor information extraction requires a significant human effort. Recording data in an efficient and high-quality format is essential in implementing and establishing a hospital-based-cancer registry.

Objective: This study aimed to describe implementing a natural language processing algorithm for oncology pathology reports.

Methods: An algorithm was developed to process oncology pathology reports in Spanish to extract 20 medical descriptors. The approach is based on the successive coincidence of regular expressions.

Results: The validation was performed with 140 pathological reports. The topography identification was performed manually by humans and the algorithm in all reports. The human identified morphology in 138 reports and by the algorithm in 137. The average fuzzy matching score was 68.3 for Topography and 89.5 for Morphology.

Conclusions: A preliminary algorithm validation against human extraction was performed over a small set of reports with satisfactory results. This shows that a regular-expression approach can accurately and precisely extract multiple specimen attributes from free-text Spanish pathology reports. Additionally, we developed a website to facilitate collaborative validation at a larger scale which may be helpful for future research on the subject.

Introducción: Los reportes de patología están almacenados como texto libre sin estructura, gramática, fragmentados o abreviados, con variabilidad lingüística entre patólogos. Por esta razón, la extracción de información de tumores requiere un esfuerzo humano significativo. Almacenar información en un formato eficiente y de alta calidad es esencial para implementar y establecer un registro hospitalario de cáncer.

Objetivo: Este estudio busca describir la implementación de un algoritmo de Procesamiento de Lenguaje Natural para reportes de patología oncológica.

Métodos: Desarrollamos un algoritmo para procesar reportes de patología oncológica en Español, con el objetivo de extraer 20 descriptores médicos. El abordaje se basa en la coincidencia sucesiva de expresiones regulares.

Resultados: La validación se hizo con 140 reportes de patología. La identificación topográfica se realizó por humanos y por el algoritmo en todos los reportes. La morfología fue identificada por humanos en 138 reportes y por el algoritmo en 137. El valor de coincidencias parciales (fuzzy matches) promedio fue de 68.3 para Topografía y 89.5 para Morfología.

Conclusiones: Se hizo una validación preliminar del algoritmo contra extracción humana sobre un pequeño grupo de reportes, con resultados satisfactorios. Esto muestra que múltiples atributos del espécimen pueden ser extraídos de manera precisa de texto libre de reportes de patología en Español, usando un abordaje de expresiones regulares. Adicionalmente, desarrollamos una página web para facilitar la validación colaborativa a gran escala, lo que puede ser beneficioso para futuras investigaciones en el tema.

Keywords: National Program of Cancer Registries; algorithm; artificial intelligence; cancer pathology reports; data science; ontology learning; regular expressions.

PubMed Disclaimer

Conflict of interest statement

Conflict of interests: authors declare no conflict of interest.

Figures

Figure 2. Confusion matrices between human and algorithmic extraction for the nonapplicable (NA), non-reported (NR) and reported (R) values in the special descriptors. The fill colour indicates the contribution of each entry to the f-score.

Figura 1. Algoritmo: la figura muestra el proceso aplicado para identificar y recuperar las características relevantes del reporte de patología oncológico. El algoritmo se alimenta de tres tipos de datos: microscópico, macroscópico y datos de diagnóstico. Luego, sigue un proceso de cuatro pasos en el que los datos se sortean (paso 1), luego se identifican las características en el texto (paso 2) para finalmente ser traídos (paso 3) y analizados o “monetizados” en partes gramaticales (paso 4).

Figura 2. Matrices de confusión entre extracción humana y algorítmica para los valores No aplicable (NA), no reportado (NR) y reportado (R) en los descriptores especiales. El color lleno indica la contribución de cada entrada al puntaje f.

See this image and copyright information in PMC

References

1. Ruiz A, Facio Á. Hospital-based cancer registry A tool for patient care, management and quality. A focus on its use for quality assessment. Rev Oncol. 2004;6(2):104–113. doi: 10.1007/BF02710038. - DOI
1. Kreimeyer K, Foster M, Pandey A, Arya N, Halford G, Jones SF. Natural language processing systems for capturing and standardizing unstructured clinical information A systematic review. J Biomed Inform. 2017;73:14–29. doi: 10.1016/j.jbi.2017.07.012. - DOI - PMC - PubMed
1. Alawad M, Gao S, Qiu JX, Yoon HJ, Blair Christian J, Penberthy L. Automatic extraction of cancer registry reportable information from free-text pathology reports using multitask convolutional neural networks. J Am Med Informatics Assoc. 2020;27(1):89–98. doi: 10.1093/jamia/ocz153. - DOI - PMC - PubMed
1. Nadkarni PM, Ohno-Machado L, Chapman WW. Natural language processing an introduction. J Am Med Inform Assoc. 2011;18(5):544–551. doi: 10.1136/amiajnl-2011-000464. - DOI - PMC - PubMed
1. Meystre S, Savova G, Kipper-Schuler KC, Hurdle JF. Extracting information from textual documents in the electronic health record: a review of recent research. Yearb Med Inf. 2007:128–144. - PubMed

MeSH terms

Actions
Actions
Actions

LinkOut - more resources

Full Text Sources
- Europe PubMed Central
- PubMed Central

Save citation to file

Email citation

Add to Collections

Add to My Bibliography

Your saved search

Create a file for external citation management software

Your RSS Feed

Automated extraction of information from free text of Spanish oncology pathology reports

Affiliations

Automated extraction of information from free text of Spanish oncology pathology reports

Authors

Affiliations

Abstract
in English, Spanish

Conflict of interest statement

Figures

References

MeSH terms

LinkOut - more resources

Full Text Sources

Abstract in English, Spanish

Conflict of interest statement

Figures

References

MeSH terms

LinkOut - more resources

Full Text Sources

Abstract
in English, Spanish