banner
Hogar / Blog / Rendimientos comparativos de algoritmos de aprendizaje automático en radiómica y factores de impacto
Blog

Rendimientos comparativos de algoritmos de aprendizaje automático en radiómica y factores de impacto

Jun 26, 2023Jun 26, 2023

Scientific Reports volumen 13, número de artículo: 14069 (2023) Citar este artículo

76 Accesos

1 altmétrica

Detalles de métricas

No existen recomendaciones actuales sobre qué algoritmos de aprendizaje automático (ML) deberían usarse en radiómica. El objetivo era comparar el rendimiento de los algoritmos de ML en radiómica cuando se aplican a diferentes preguntas clínicas para determinar si algunas estrategias podrían ofrecer el mejor y más estable rendimiento independientemente de los conjuntos de datos. Este estudio compara el rendimiento de nueve algoritmos de selección de características combinados con catorce algoritmos de clasificación binaria en diez conjuntos de datos. Estos conjuntos de datos incluían características radiómicas y diagnóstico clínico para clasificaciones clínicas binarias, incluida la neumonía o sarcopenia por COVID-19 en TC, lesiones de cabeza y cuello, orbitarias o uterinas en resonancia magnética. Para cada conjunto de datos, se creó una división de prueba de tren. Cada una de las 126 (9 × 14) combinaciones de algoritmos de selección de características y algoritmos de clasificación se entrenó y ajustó mediante una validación cruzada diez veces, luego se calculó el AUC. Este procedimiento se repitió tres veces por conjunto de datos. Los mejores rendimientos generales se obtuvieron con JMI y JMIM como algoritmos de selección de características y modelos de regresión lineal y de bosque aleatorio como algoritmos de clasificación. La elección del algoritmo de clasificación fue el factor que explicó la mayor parte de la variación del rendimiento (10% de la varianza total). La elección del algoritmo de selección de características explicó sólo el 2% de la variación, mientras que la división tren-prueba explicó el 9%.

La radiómica se puede definir como la extracción cuantitativa de un gran número de características de imágenes médicas para el descubrimiento de nuevos biomarcadores de imágenes predictivos, diagnósticos o pronósticos de enfermedades. La radiómica permite la extracción no invasiva de información invisible para el ojo humano a partir de imágenes médicas mediante técnicas de aprendizaje automático y ha mostrado resultados prometedores. Sin embargo, la falta de estándares dificulta el uso de biomarcadores radiómicos en un entorno clínico1.

Un estudio de radiómica se estructura en cinco pasos: constitución de cohortes y adquisición de imágenes, segmentación de la región de interés (ROI), extracción de características, modelado y validación externa en un conjunto de datos (idealmente) independiente2.

La fase de modelado en sí se basa en dos pasos distintos: selección de características y predicción. Para cada paso, hay disponibles muchos métodos y algoritmos diferentes, lo que conduce a una gran cantidad de combinaciones posibles. Hasta la fecha, no ha surgido ninguna estrategia o recomendación sobre qué algoritmos deberían usarse preferentemente al realizar radiómica. Por lo tanto, algunos equipos han optado por probar simultáneamente diferentes algoritmos al realizar estudios, ya que se cree que los algoritmos que proporcionaron los mejores resultados dependen del escenario3. Sin embargo, probar una gran cantidad de estrategias al realizar radiómica en un conjunto de datos determinado aumenta el riesgo de descubrimientos falsos. Por lo tanto, puede ser deseable utilizar un número menor de modelos seleccionados para aumentar las posibilidades de obtener resultados significativos.

Incluso si existen algunas iniciativas para emitir recomendaciones como el Radiomics Quality Score2 o la Checklist for Artificial Intelligence in Medical Imaging (CLAIM)4, estas recomendaciones no se siguen bien. Por ejemplo, de los 69 estudios de aprendizaje automático sobre diagnóstico o pronóstico de Covid-19 investigados por Roberts et al5, solo 25 obtuvieron un RQS superior a 6 sobre 36. Estos resultados están respaldados por la revisión de Spadarella et al.6, que obtuvo una mediana de RQS del 21% (7,5) para 44 estudios de radiómica. Esta es una cuestión importante, ya que las malas elecciones metodológicas en diferentes etapas de los estudios podrían dar lugar a resultados sesgados. El sesgo podría introducirse ya en el paso de constitución de la cohorte si la distribución del conjunto de datos de entrenamiento es diferente de la de la población objetivo7. También puede ser introducido por la variabilidad del operador durante la anotación del conjunto de datos. Joskowicz et al8 demostraron en 3.193 segmentaciones por TC que la variabilidad media de superposición de volumen entre dos observadores era del 37%. Esta variabilidad puede impedir que algunas características radiómicas sean reproducibles. Además, los algoritmos de aprendizaje automático podrían sobreajustarse o proporcionar rendimientos mal estimados. Los experimentos de Varoquaux et al.9 sobre conjuntos de datos de neuroimagen revelan que un tamaño de muestra de estudio de cien conduce a errores de ± 10% en la precisión de la predicción. Por el contrario, el estudio de Roelofs et al.10 sobre las competiciones de Kaggle demostró que el sobreajuste se puede prevenir con muestras de prueba suficientemente grandes. Roelofs consideró 10.000 ejemplares como mínimo para protegerse contra el sobreajuste.

El propósito de este estudio fue centrarse en la fase de modelado del flujo de trabajo de radiómica para determinar si alguna (y cuál) combinación de algoritmos podría ofrecer el mejor y más estable rendimiento en los estudios de radiómica, independientemente de los conjuntos de datos. Esto serviría para guiar a los usuarios en la elección de estrategias de modelado al realizar radiómica. Un objetivo secundario fue determinar los principales factores que afectan el rendimiento de los modelos.

Para estimar el impacto de la elección de los métodos y algoritmos en el rendimiento de los modelos, utilizamos diez conjuntos de datos de varios estudios de radiómica publicados o presentados previamente11,12,13,14. Este estudio se adhirió a los principios de la Declaración de Helsinki. Se obtuvo la aprobación ética para todos los estudios. Los estudios que constituyeron los conjuntos de datos de Covid, el conjunto de datos de cabeza y cuello, el conjunto de datos de sarcopenia y el conjunto de datos de masas uterinas fueron aprobados por el Comité d'éthique de la recherche APHP.5 de la Junta de Revisión Institucional (anteriormente CERAPHP.5, CERAPHP.Centre IRB00011928), que renunció a la necesidad. para consentimiento informado por escrito. El estudio que constituyó el conjunto de datos sobre lesiones orbitales fue aprobado por el Comité d'Éthique pour la Recherche Hôpital Fondation Rothschild (IRB00012801) y se obtuvo el consentimiento informado firmado de todos los sujetos.

Estos conjuntos de datos incluían características radiómicas extraídas de diferentes modalidades de imágenes que abordaban diversas cuestiones de diagnóstico. Todos los diagnósticos fueron binarios. Los conjuntos de datos incluyeron entre 97 y 693 pacientes y entre 105 y 606 características radiómicas por muestra (Tabla 1). Un conjunto de datos incluía cinco regiones de interés (ROI) segmentadas diferentes y otros dos ROI diferentes extraídos de los mismos conjuntos de imágenes. Los demás incluían un único retorno de la inversión por imagen.

Seleccionamos los siguientes siete algoritmos utilizados con mayor frecuencia en estudios de radiómica para la selección de características, basados ​​en enfoques de filtrado. Estos filtros se pueden agrupar en tres categorías: los del campo estadístico, incluido el coeficiente de correlación de Pearson (abreviado como “Pearson” en el manuscrito) y el coeficiente de correlación de Spearman (“Spearman”), los basados ​​en bosques aleatorios, incluida la importancia de la variable del bosque aleatorio ( “RfVarImp “) y la importancia de la permutación de bosque aleatorio (“RfPerImp”), y aquellos basados ​​en la teoría de la información que incluyen la información mutua conjunta (“JMI”), la maximización de la información mutua conjunta (“JMIM”) y la redundancia mínima-máxima-relevancia ( “MRMR”).

Estos métodos clasifican las características y luego se guarda un número determinado de las mejores características para modelar. En este estudio se investigaron tres números diferentes de características seleccionadas: 10, 20 y 30.

Además, para estimar el impacto del paso de selección de características, se utilizaron dos algoritmos no informativos de selección de características como puntos de referencia: ninguna selección que resultó en la selección de todas las características (“Todas”) y una selección aleatoria de un número determinado de características. ("Aleatorio").

Se probaron catorce clasificadores binarios estadísticos o de aprendizaje automático, entre los más utilizados en estudios de radiómica: K-Vecinos más cercanos (“KNN”); cinco modelos lineales que incluyen regresión lineal ("Lr"), tres regresión lineal penalizada (regresión lineal penalizada con lazo ("LrL1"), regresión lineal penalizada por cresta ("LrL2"), regresión lineal de red elástica ("LrElasticNet")) y regresión lineal Análisis Discriminante (“LDA”); Bosque Aleatorio (“RF”); AdaBoost y XGBoost; tres clasificadores de vectores de soporte, incluido el clasificador de vectores de soporte lineal (“Linear SVC”), el clasificador de vectores de soporte polinomial (“PolySVC”) y el clasificador de vectores de soporte radial (“RSVC”); y dos clasificadores bayesianos que incluyen Binomial Naive Bayes (“BNB”) y Gaussian Naive Bayes (“GNB”).

Para estimar el rendimiento de cada una de las 126 combinaciones de los nueve algoritmos de selección de características con los catorce algoritmos de clasificación, cada combinación se entrenó utilizando una búsqueda en cuadrícula y una estrategia de validación cruzada anidada15 de la siguiente manera.

Primero, los conjuntos de datos se dividieron aleatoriamente en tres pliegues, estratificados según el valor diagnóstico, de modo que cada pliegue tuviera la misma distribución diagnóstica que la población de interés. Cada pliegue se usó a su vez como conjunto de prueba, mientras que los dos pliegues restantes se usaron como conjuntos de entrenamiento y validación cruzada.

Se utilizaron diez veces validación cruzada y búsqueda en cuadrícula en el conjunto de entrenamiento para ajustar los hiperparámetros maximizando el área bajo la curva característica operativa del receptor (AUC). Luego se utilizaron los mejores hiperparámetros para entrenar el modelo en todo el conjunto de entrenamiento.

Para tener en cuenta el sobreajuste, la métrica utilizada fue el AUC penalizado por el valor absoluto de la diferencia entre los AUC del conjunto de prueba y el conjunto de tren:

Este procedimiento se repitió para cada uno de los diez conjuntos de datos, para tres divisiones diferentes de pruebas de tren y los tres números diferentes de características seleccionadas.

Cada combinación de algoritmos produjo 90 (3 × 3 × 10) AUC, aparte de las combinaciones que utilizaron la selección de características "Todas" que se asociaron con solo 30 AUC debido a la ausencia del número de selección de características, la selección de características "Aleatoria" se repitió. tres veces lo que arrojó 270 AUC. Por tanto, en total, se calcularon 13.020 AUC.

Se utilizó un análisis multifactorial de varianza (ANOVA) para cuantificar la variabilidad del AUC asociada con los siguientes factores: conjunto de datos, algoritmo de selección de características, algoritmo clasificador, número de características, división de prueba de tren, modalidad de imagen e interacciones entre clasificador/conjunto de datos. clasificador/selección de características, conjunto de datos/selección de características y clasificador/selección de características/conjunto de datos. La proporción de varianza explicada se utilizó para cuantificar los impactos de cada factor/interacción. Los resultados se dan como frecuencia (proporción (%)) o rango (valor mínimo; valor máximo).

Para cada selección de características, clasificador, conjunto de datos y división de prueba de tren, AUC mediana, 1er cuartil (Q1); y se calcularon el 3er cuartil (Q3). Se utilizaron diagramas de caja para visualizar los resultados.

Además, para los clasificadores y algoritmos de selección de características, se utilizó una prueba de Friedman16 seguida de pruebas post-hoc de Nemenyi-Friedman por pares para comparar las AUC medianas de los algoritmos.

Se generaron mapas de calor para ilustrar los resultados de cada combinación de selección de características y clasificador.

Todos los algoritmos se implementaron en Python (versión 3.8.8). Las correlaciones de Pearson y Spearman se calcularon utilizando Pandas (1.2.4), el algoritmo XGBoost utilizando xgboost (1.5) y los algoritmos JMI, JMIM y MRMR utilizando MIFS. Todos los demás algoritmos se implementaron utilizando la biblioteca scikit-learn (versión 0.24.1). Los datos se estandarizaron centrándolos y escalando utilizando scikit-learn StandardScaler.

Las AUC oscilaron entre 0,20 y 0,91 al considerar todas las combinaciones posibles. Cuatrocientos treinta y cinco (3,4%) AUC estaban por debajo de 0,5.

La Figura 1 muestra la proporción de variación del desempeño explicada por factores experimentales. Al ejecutar el ANOVA multifactorial en las AUC, los factores identificados y sus interacciones explicaron el 55% de la variación en el rendimiento del modelado. Entre este 55%, el factor más importante fue el conjunto de datos en sí (17% de las variaciones), luego el clasificador (10%) y la división tren-prueba (9%). El algoritmo de selección de características sólo explicó el 2% de las variaciones. Tanto el número de características seleccionadas como la modalidad de imagen (CT vs MRI) explicaron menos del 1% de la variación en el rendimiento. Las interacciones entre factores explicaron el 17% restante.

Proporción de variación del rendimiento explicada por el conjunto de datos y la propiedad del modelo. Quedó un 45% de variación que no fue explicada por los factores representados. Clf: clasificador, FS: selección de características, “:” representa la interacción entre factores.

La Tabla 2 muestra la mediana del AUC [Q1; Q3] para cada uno de los algoritmos de selección de características, independientemente del clasificador utilizado. Las diferencias en las AUC medianas fueron leves entre todas las combinaciones posibles, oscilando entre 0,68 y 0,70, pero fueron estadísticamente significativas (valor de P <1e-32). Las comparaciones por pares se presentan en la Tabla 1 del SI.

Los algoritmos de selección de características basados ​​en la teoría de la información, como JMI y JMIM, proporcionaron los mejores rendimientos generales, como se ve con su AUC mediana más alta de 0,70 respectivamente y su Q1 relativamente alto, lo que garantiza un rendimiento consistentemente bueno. Todos los algoritmos de selección de funciones funcionaron mejor que la selección de funciones "aleatoria".

La Tabla 3 muestra la mediana del AUC [Q1; Q3] para cada uno de los algoritmos clasificadores, independientemente de la selección de características utilizada. La diferencia entre la mediana del AUC de los algoritmos clasificadores fue significativa (valor de P <1e-32). Las comparaciones por pares se presentan en la Tabla 2 del SI.

En nuestros conjuntos de datos, los algoritmos de clasificación lineal (regresión lineal penalizada por crestas, regresión lineal de red elástica, análisis discriminante lineal) y bosque aleatorio dieron rendimientos consistentemente mejores (AUC medianas superiores a 0,70). Algunos algoritmos, como KNN, AdaBoost o XGBoost, dieron rendimientos generales más bajos, aunque ocasionalmente pudieron alcanzar rendimientos muy altos en algunas combinaciones de conjunto de datos/número de características/división de prueba de tren.

La Figura 2 muestra el mapa de calor del AUC mediano para todos los clasificadores y algoritmos de selección de características. La mediana del AUC osciló entre 0,57 y 0,74. Con la excepción de la combinación None-lrElasticNet, las mejores combinaciones de algoritmos fueron aquellas que usaron los mejores algoritmos de selección de características (JMI, JMIM, MRMR) y los mejores algoritmos de clasificación (regresiones lineales penalizadas y Random Forest).

Mapa de calor de la mediana [Q1; P3] Puntuaciones AUC para todas las combinaciones de 9 × 14 de clasificadores y algoritmos de selección de características. Todo: sin selección de funciones (no informativo); Aleatorio: selección aleatoria de funciones (no informativa); Pearson: Coeficiente de correlación de Pearson; Spearman: Coeficiente de correlación de Spearman; RfVarImp: Importancia de la variable de bosque aleatorio; RfPermImp: Importancia de la permutación aleatoria del bosque; JMI: Información Mutua Conjunta; JMIM: Maximización conjunta de información mutua; MRMR: Mínima-Redundancia-Máxima-Relevancia; KNN: K-Vecinos más cercanos; Lr: Regresión lineal; LrL1: Regresión lineal penalizada con lazo; LrL2: Regresión lineal penalizada por Ridge; LrElasticNet: Regresión lineal de red elástica; LDA: Análisis Discriminante Lineal; RF: Bosque aleatorio; AdaBoost : AdaBoost; XGBoost : XGBoost; SVC lineal: Clasificador de vectores de soporte lineal; Poly SVC: Clasificador de vectores de soporte polinómico; RBFSVC: Clasificador de vectores de soporte radial; BNB: Binomial Naive Bayes; GNB: Bayes ingenuo gaussiano.

La Figura 3 muestra diagramas de caja de AUC para los diferentes conjuntos de datos, selección de características y algoritmos de clasificación. El conjunto de datos de gravedad de Covid proporcionó distribuciones más pequeñas de AUC.

Diagrama de caja de AUC por (a) conjunto de datos, (b) algoritmo de selección de características y (c) clasificador. Todo: No-Selección de características (no informativo); Aleatorio: Selección aleatoria de características (no informativa); Pearson: Coeficiente de correlación de Pearson; Spearman: Coeficiente de correlación de Spearman; RfVarImp: Importancia de la variable de bosque aleatorio; RfPermImp: Importancia de la permutación aleatoria del bosque; JMI: Información Mutua Conjunta; JMIM: Maximización conjunta de información mutua; MRMR: Mínima-Redundancia-Máxima-Relevancia; KNN: K-Vecinos más cercanos; Lr: Regresión lineal; LrL1: Regresión lineal penalizada con lazo; LrL2: Regresión lineal penalizada por Ridge; LrElasticNet: Regresión lineal de red elástica; LDA: Análisis Discriminante Lineal; RF: Bosque aleatorio; AdaBoost : AdaBoost; XGBoost : XGBoost; SVC lineal: Clasificador de vectores de soporte lineal; Poly SVC: Clasificador de vectores de soporte polinómico; RBFSVC: Clasificador de vectores de soporte radial; BNB: Binomial Naive Bayes; GNB: Bayes ingenuo gaussiano.

La Figura 4 muestra los diagramas de caja del AUC para los diferentes conjuntos de datos de separación dividida de pruebas de tren de lesiones del pulmón izquierdo, como ejemplo. Los diagramas de caja para los otros conjuntos de datos se muestran en la figura 1-9 del SI. La diferencia máxima en la mediana del AUC entre el tren y el rendimiento de la prueba fue de 0,11 en el conjunto de datos de cabeza y cuello, mientras que la diferencia mínima fue de 0,00 en el ROI del pulmón derecho del conjunto de datos de COVID.

Diagrama de caja de las AUC para las diferentes divisiones de pruebas de tren del conjunto de datos del "Pulmón izquierdo". Los porcentajes respectivos de la clase de enfermedad COVID de alta gravedad en los tres conjuntos de datos de prueba fueron del 82, 78 y 80 %.

En este estudio, comparamos combinaciones de clasificadores y algoritmos de selección de características en diez conjuntos de datos diferentes. En primer lugar, el factor que más impactó en las variaciones en el desempeño fue el conjunto de datos en sí, lo que probablemente refleja la cantidad de información realmente presente en los datos. En segundo lugar, los algoritmos de selección de características basados ​​en la teoría de la información obtuvieron resultados consistentemente superiores a otros algoritmos, para cualquier conjunto de datos determinado. Sin embargo, la elección del algoritmo de selección de características tuvo poco efecto en el rendimiento al analizar las variaciones mediante ANOVA. En tercer lugar, para un conjunto de datos determinado, la elección de los clasificadores fue el factor que más impactó. Algunos clasificadores obtuvieron mejores resultados en general (bosque aleatorio, análisis discriminante lineal y regresión lineal penalizada por crestas), sin embargo, no hubo ningún algoritmo que ofreciera consistentemente el mejor rendimiento. Finalmente, la división tren-prueba explicó el 9% de las variaciones en el rendimiento.

Nuestro estudio encuentra resultados similares a publicaciones anteriores. Dos estudios principales investigaron el impacto de la elección de algoritmos en el rendimiento en radiómica, Parmar et al. en 464 cáncer de pulmón CT8 y Sun et al. en 285 resonancia magnética cerebral en glioblastoma17. En el estudio de Parmar, el clasificador fue la fuente más importante de variabilidad del desempeño, similar a nuestro estudio. Random Forest dio el mejor resultado en el estudio de Parmar, mientras que LDA dio el mejor resultado en el estudio de Sun, los cuales también son consistentes con nuestros resultados. Los estudios en otros campos de investigación también aportan conocimientos sobre la radiómica. El estudio de Wang y Liu sobre microbiología utilizó 29 conjuntos de datos que incluyen entre 29 y 512 observaciones18. En este estudio, SVC proporcionó peores resultados que Elastic-net, Random Forest o XGBoost. Estos resultados podrían explicarse por la similitud entre los conjuntos de datos de radiómica y microbiología en términos de número de observaciones y número de características disponibles.

La selección de características pareció tener un impacto menor en el rendimiento en nuestro estudio en comparación con el de Parmar, pero los resultados del ANOVA mostraron que hubo una interacción entre los algoritmos de selección de características y el conjunto de datos, lo que implica que algunos algoritmos de selección de características parecían más adaptados a algunos conjuntos de datos. Esto puede explicar por qué los mejores algoritmos de selección de características variaron en los diferentes estudios porque se aplicaron a conjuntos de datos únicos17,19. Los algoritmos basados ​​en la teoría de la información pueden funcionar mejor porque tienen en cuenta la redundancia potencial entre características, así como la información que aporta la característica. En cuanto a la cantidad de funciones seleccionadas, Parmar19 y Sun17 están en línea con nuestros resultados y muestran un bajo impacto en el rendimiento.

Este estudio destaca algunos factores que explican la variabilidad en el desempeño en radiómica. Los conjuntos de datos suelen contener un número de características mucho mayor que las observaciones independientes, e incluso con la reducción de dimensiones, esto conduce a modelos sobreajustados y a una generalización deficiente. Los modelos radiómicos a menudo se evalúan mediante una estrategia de prueba de tren. Sin embargo, los estudios de radiómica, incluido el nuestro, muestran que diferentes divisiones entre trenes y pruebas pueden dar lugar a variaciones en el rendimiento. An et al. estudió el impacto de la estrategia de prueba de tren en 258 resonancias magnéticas de meningioma y demostró que el uso de una única división aleatoria de prueba de tren conducía a una pérdida de rendimiento (brecha de generalización) cuando se aplicaba a un conjunto de datos de prueba, especialmente con conjuntos de datos pequeños y cuando se trabajaba en un tarea difícil20. Los estudios sobre datos gaussianos demostraron que la validación cruzada anidada es una mejor manera de evaluar el rendimiento del modelo. Varma y Simon demostraron que la validación cruzada subestimaba el error real de un modelo en más de un 20% en una de cada cinco simulaciones21. Vabalas et al. También investigó cinco enfoques de validación de datos gaussianos simulados. Demostraron que la validación cruzada podría conducir a un sobreajuste al reutilizar los datos tanto en el entrenamiento como en la validación, mientras que la validación cruzada anidada condujo a un sesgo menor. El impacto de la división tren-prueba probablemente se deba al número relativamente bajo de muestras en cada conjunto de datos en comparación con la variabilidad biológica. Esto da como resultado que los rendimientos sean altamente susceptibles a la distribución de datos en el conjunto de entrenamiento versus el conjunto de prueba y puede explicar en parte la falta de generalización de los resultados que se pueden observar en los estudios de radiómica publicados. Para compensar el impacto de la división tren-prueba, se podría utilizar una validación cruzada anidada. Esta estrategia rara vez se utiliza en estudios de radiómica y creemos que podría mejorar el rendimiento de las firmas descubiertas cuando se aplica a un conjunto de datos de validación externo.

Al realizar estudios de radiómica en un conjunto de datos específico, una estrategia común es probar simultáneamente varias combinaciones de clasificadores y algoritmos de selección de características para elegir el que optimice el rendimiento. De hecho, se encuentran disponibles una gran cantidad de clasificadores y algoritmos de selección de características. Sin embargo, multiplicar el número de modelos probados puede conducir a un aumento en la tasa de sobreajuste y descubrimientos falsos, similar a las tasas de descubrimientos falsos observadas en genómica. Según nuestros resultados, podría ser más eficiente seleccionar un número menor de combinaciones, para lograr un mejor equilibrio entre optimización y sobreajuste. Esto también reduciría el tiempo de cálculo. Al igual que otros puntos de referencia científicos, los algoritmos con los mismos enfoques subyacentes parecen dar resultados similares22. Por lo tanto, a la hora de determinar qué subconjunto más pequeño de modelos debería probarse en un estudio de radiómica, una estrategia podría ser elegir clasificadores de diferentes familias. Sin embargo, el número total de algoritmos que deben probarse en un único conjunto de datos no está definido y también puede depender del tiempo de cálculo disponible y del tamaño del conjunto de datos. Determinar el número correcto de algoritmos estaba fuera del alcance de este estudio, pero debería investigarse más a fondo.

Hay algunos límites a nuestro estudio. Si bien la mayoría de los estudios de radiómica se centran en un solo conjunto de datos, nuestro trabajo analizó diez conjuntos de datos de estudios de radiómica publicados anteriormente, lo que fortaleció la generalización de nuestros resultados. Sin embargo, las características de los conjuntos de datos fueron similares, en particular en lo que respecta al número de observaciones y la prevalencia. Por lo tanto, en este estudio no se pudo investigar completamente el impacto de las características del conjunto de datos. Aunque no fue posible calcular la porción exacta de variación explicada por las características del conjunto de datos, planteamos la hipótesis de que contribuyó en parte al 17% explicado en la variación del rendimiento del modelado y posiblemente a parte del 45% de variación restante inexplicable. Aunque investigamos el impacto de la división tren-prueba en el desempeño, se realizaron pocas iteraciones para estimar el impacto de la aleatoriedad durante la división tren-prueba, lo que nos impidió estimar con precisión el impacto del azar en este paso. Finalmente, como en todo análisis de varianza, una parte de la variación inexplicada en el desempeño del modelado podría estar relacionada con características no observadas, posiblemente no observables. La identificación de algunos de los parámetros no observados en nuestro estudio sería un paso útil para aumentar la porción explicada de la variación en el rendimiento del modelado.

Otra limitación del presente estudio fue el número relativamente pequeño de algoritmos probados. Sólo se investigaron siete algoritmos de selección de características y catorce clasificadores, lo que es sólo una pequeña parte de la gran cantidad de algoritmos disponibles. Aunque los métodos lineales proporcionaron buenos rendimientos, la transformación de características no lineal23 o los algoritmos de selección de características envolventes pueden haber mejorado el rendimiento. Sin embargo, su implementación estaba más allá del alcance de este estudio, que pretendía centrarse en la selección de funciones de filtro, que se utilizan con mayor frecuencia en estudios de radiómica. Finalmente, no se utilizaron redes neuronales, en parte debido a los pequeños conjuntos de datos.

Al realizar radiómica, el rendimiento del modelo puede variar mucho y estas variaciones están relacionadas con varios factores principales, incluido el conjunto de datos en sí, el tipo de clasificador y la división entre el tren y los subconjuntos de prueba. Recomendamos probar una pequeña cantidad de combinaciones de clasificación y selección de características para evitar descubrimientos falsos debido a pruebas múltiples y sobreajustes. Los algoritmos de selección de características basados ​​en la teoría de la información, por un lado, y los modelos lineales penalizados y los bosques aleatorios como clasificadores, por el otro, parecieron funcionar de manera más consistente en todos los conjuntos de datos.

Los conjuntos de datos no están disponibles públicamente. El acceso a los datos está sujeto a las autorizaciones éticas específicas de cada conjunto de datos para uso secundario y puede enviarse al autor correspondiente.

Miles, K. Radiómica para la medicina personalizada: el largo camino por recorrer. Hno. J. Cáncer 122, 929–930 (2020).

Artículo PubMed PubMed Central Google Scholar

Lambin, P. y col. Radiómica: el puente entre la imagen médica y la medicina personalizada. Nat. Rev. Clin. Oncol. 14, 749–762 (2017).

Artículo PubMed Google Scholar

Zhang, Y.-P. et al. Estudio de radiómica impulsado por inteligencia artificial en el cáncer: el papel de la ingeniería y el modelado de características. Medicina militar. Res. 10, 22 (2023).

Artículo de Google Scholar

Mongan, J., Moy, L. & Kahn, CE Lista de verificación para inteligencia artificial en imágenes médicas (CLAIM): una guía para autores y revisores. Radiol. Artif. Intel. 2, e200029 (2020).

Artículo PubMed PubMed Central Google Scholar

Roberts, M. y col. Errores comunes y recomendaciones para utilizar el aprendizaje automático para detectar y pronosticar COVID-19 mediante radiografías de tórax y tomografías computarizadas. Nat. Mach. Intel. 3, 199–217 (2021).

Artículo de Google Scholar

Spadarella, G. y col. Revisión sistemática de las aplicaciones de puntuación de calidad radiómica: una iniciativa del grupo de auditoría de radiómica EuSoMII. EUR. Radiol. 33, 1884–1894 (2022).

Artículo PubMed PubMed Central Google Scholar

Varoquaux, G. & Cheplygina, V. Aprendizaje automático para imágenes médicas: fallas metodológicas y recomendaciones para el futuro. Dígito NPJ. Medicina. 5, 48 (2022).

Artículo PubMed PubMed Central Google Scholar

Joskowicz, L., Cohen, D., Caplan, N. y Sosna, J. Variabilidad entre observadores de la delineación manual del contorno de estructuras en TC. EUR. Radiol. 29, 1391-1399 (2019).

Artículo PubMed Google Scholar

Varoquaux, G. Fallo de validación cruzada: los tamaños de muestra pequeños generan barras de error grandes. Neuroimagen 180, 68–77 (2018).

Artículo PubMed Google Scholar

Roelofs, R. et al. Un metaanálisis del sobreajuste en el aprendizaje automático. Sistemas de procesamiento de información neuronal (2019).

Chassagnon, G. y col. Cuantificación, estadificación y predicción de resultados impulsadas por IA de la neumonía por COVID-19. Medicina. Imagen Anal. 67, 101860 (2021).

Artículo PubMed Google Scholar

Durón, L. et al. Una firma radiómica de imágenes por resonancia magnética para distinguir lesiones orbitarias benignas de malignas. Invertir. Radiol. 56, 173–180 (2021).

Artículo PubMed Google Scholar

Roblot, V. y col. Validación de un algoritmo de segmentación de aprendizaje profundo para cuantificar el índice de músculo esquelético y la sarcopenia en el carcinoma renal metastásico. EUR. Radiol. 32, 4728–4737 (2022).

Artículo CAS PubMed Google Scholar

Abdel WC. et al. Algoritmo diagnóstico para diferenciar leiomiomas atípicos benignos de sarcomas uterinos malignos con resonancia magnética ponderada en difusión. Radiología 297, 361–371 (2020).

Park, JE, Park, SY, Kim, HJ & Kim, HS Reproducibilidad y generalización en el modelado radiómico: posibles estrategias en perspectivas radiológicas y estadísticas. Coreano J. Radiol. 20, 1124 (2019).

Artículo PubMed PubMed Central Google Scholar

Friedman, M. El uso de rangos para evitar el supuesto de normalidad implícito en el análisis de varianza. Mermelada. Estadística. Asociación. 32, 675–701 (1937).

Artículo MATEMÁTICAS Google Scholar

Sun, P., Wang, D., Mok, VC & Shi, L. Comparación de métodos de selección de características y clasificadores de aprendizaje automático para el análisis radiómico en la clasificación de gliomas. IEEE Acceso 7, 102010–102020 (2019).

Artículo de Google Scholar

Wang, X.-W. y Liu, Y.-Y. Estudio comparativo de clasificadores de datos del microbioma humano. Medicina. Microeco. 4, 100013 (2020).

Artículo PubMed PubMed Central Google Scholar

Parmar, C., Grossmann, P., Bussink, J., Lambin, P. & Aerts, HJWL Métodos de aprendizaje automático para biomarcadores radiómicos cuantitativos. Ciencia. Rep. 5, 13087 (2015).

Artículo ADS CAS PubMed PubMed Central Google Scholar

An, C. et al. Estudio de aprendizaje automático radiómico con un tamaño de muestra pequeño: la división aleatoria única del conjunto de pruebas de entrenamiento puede generar resultados poco confiables. MÁS UNO 16, e0256152 (2021).

Artículo CAS PubMed PubMed Central Google Scholar

Varma, S. y Simon, R. Sesgo en la estimación de errores cuando se utiliza validación cruzada para la selección de modelos. BMC Bioinf. 7, 91 (2006).

Artículo de Google Scholar

Olson, RS, La Cava, W., Orzechowski, P., Urbanowicz, RJ & Moore, JH PMLB: un gran conjunto de referencias para la evaluación y comparación del aprendizaje automático. Minería BioData 10, 36 (2017).

Artículo PubMed PubMed Central Google Scholar

Malakar, P., Balaprakash, P., Vishwanath, V., Morozov, V. y Kumaran, K. Evaluación comparativa de métodos de aprendizaje automático para el modelado del rendimiento de aplicaciones científicas. En 2018, IEEE/ACM Modelado de rendimiento, evaluación comparativa y simulación de sistemas informáticos de alto rendimiento (PMBS) 33–44 (IEEE, 2018). doi: https://doi.org/10.1109/PMBS.2018.8641686.

Descargar referencias

Este trabajo fue financiado en parte por el gobierno francés bajo la dirección de la Agence Nationale de la Recherche como parte del programa "Investissements d'avenir", referencia ANR19-P3IA-0001 (Instituto PRAIRIE 3IA) y el Fonds Unique Interministériel (FUI) , referencia DOS0066427/00 (proyecto RIHDO).

Universidad Paris Cité, PARCC UMRS 970, INSERM, París, Francia

Anthony Decoux, Loic Duron, Paul Habert, Victory Roblot y Emina Arsovic

Unidad de Investigación Clínica, Centro de Investigación Clínica 1418 Epidemiología Clínica, Universidad Paris Cité, AP-HP, Hospital Europeo Georges Pompidou, INSERM, París, Francia

Antoine Decoux y Armelle Arnoux

Departamento de Radiología, Hospital de la Fundación Oftalmológica Adolphe de Rothschild, París, Francia

Loic Durón

Departamento de Imagenología, Hôpital Nord, APHM, Universidad Aix Marseille, Marsella, Francia

Pablo Habert

Aix Marseille Univ, LIIE, Marsella, Francia

Pablo Habert

Departamento de Radiología, Universidad Paris Cité, AP-HP, Hospital Cochin, París, Francia

Guillaume Chassagnon

Departamento de Radiología, Universidad Paris Cité, AP-HP, Hospital Europeo Georges Pompidou, PARCC UMRS 970, INSERM, París, Francia

Laura Fournier

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

AD: Metodología, Programación, Análisis formal, Redacción- Elaboración de borrador original. LD: Recolección de Datos, Metodología, Revisión. PH: Recolección de Datos, Metodología, Revisión. VR: Recolección de Datos, Metodología. EA: Recolección de Datos, Metodología. GC: Recolección de Datos, Metodología. AA: Metodología, Supervisión, Redacción-Revisión y Edición. LF: Metodología, Supervisión, Redacción-Revisión y Edición.

Correspondencia a Laure Fournier.

LSF: General Electric Healthcare (honorarios), Median Technologies (honorarios), Sanofi (honorarios), Guerbet (financiación de conferencias), Bristol-Myers-Squibb (beca de investigación). GC: Chiesi SA (honorarios), Gleamer (honorarios), Guerbet (financiación de conferencias), Bayer (financiación de conferencias). Los restantes autores no tienen conflictos de intereses que declarar.

Springer Nature se mantiene neutral con respecto a reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

Acceso Abierto Este artículo está bajo una Licencia Internacional Creative Commons Attribution 4.0, que permite el uso, compartir, adaptación, distribución y reproducción en cualquier medio o formato, siempre y cuando se dé el crédito apropiado a los autores originales y a la fuente. proporcione un enlace a la licencia Creative Commons e indique si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la normativa legal o excede el uso permitido, deberá obtener permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.

Reimpresiones y permisos

Decoux, A., Duron, L., Habert, P. et al. Rendimientos comparativos de algoritmos de aprendizaje automático en radiómica y factores de impacto. Representante científico 13, 14069 (2023). https://doi.org/10.1038/s41598-023-39738-7

Descargar cita

Recibido: 10 de marzo de 2023

Aceptado: 30 de julio de 2023

Publicado: 28 de agosto de 2023

DOI: https://doi.org/10.1038/s41598-023-39738-7

Cualquier persona con la que comparta el siguiente enlace podrá leer este contenido:

Lo sentimos, actualmente no hay un enlace para compartir disponible para este artículo.

Proporcionado por la iniciativa de intercambio de contenidos Springer Nature SharedIt

Al enviar un comentario, acepta cumplir con nuestros Términos y pautas de la comunidad. Si encuentra algo abusivo o que no cumple con nuestros términos o pautas, márquelo como inapropiado.