Kapoor, S., Narayanan, A., 2023: Leakage and the reproducibility crisis in machine-learning-based science, Patterns, 4, 100804, https://doi.org/10.1016/j.patter.2023.100804

Intérprete

Takahashi Guevara Ken

Fecha de interpretación

29/12/2023

Resultados y conclusiones

El aprendizaje automático (machine learning, ML) es una importante herramienta para la predicción, pero la fuga de datos (data leakage) es un problema generalizado en la ciencia de ML (posiblemente también aplicada al cambio climático, incluyendo estudios de regresión) que lleva a la sobreestimación de la bondad del desempeño de los modelos de ML. Se propone una taxonomía de ocho tipos de fuga que debería verificarse en los estudios de ciencia de ML: 1) No hay dataset de "testeo" independiente (puede resultar en sobreajuste y sobreestimación del desempeño). 2) Pre-procesamiento usando datasets de testeo y entrenamiento (la separación debe ser previa al sobremuestreo o data augmentation). 3) Selección de predictores usando datasets de testeo y entrenamiento (esto es parte del desarrollo del modelo, no se debe ni siquiera mirar los datos de testeo para esto). 4) Datos duplicados (cuidado con que el dataset inicial tenga duplicados antes de dividir en entrenamiento / testeo). 5) Predictores (features) ilegítimos (por ej. predictores que sean proxies del predictando). 6) Fuga temporal (ej. entrenamiento con datos posteriores a testeo, correlación temporal). 7) Falta de independencia entre los datos de testeo y entrenamiento (conexiones no detectadas entre datos individuales en testeo y entrenamiento, por ej. de los mismos pacientes en estudios médicos). 8) Sesgo en el muestreo (por ej. sesgo espacial, de manera que el entrenamiento y testeo sea para la misma zona pero el despliegue sea para otras zonas). El análisis de reproducibilidad de predicción de guerras civiles indica que cuando los errores debidos a fuga se corrigen, los modelos de ML complejos no tienen un desempeño sustancialmente mejor a los de regresión logística.

Metodología y datos

Búsqueda y análisis bibliográfico. Se hallaron 22 artículos sobre 17 dominios que indican errores en ciencia de ML en estos, afectando en conjunto a 294 estudios. La fuga es un problema en cada uno de estos. Se realiza un estudio de reproducibilidad sobre predicción de guerras civiles, un dominio en el que los modelos de ML supuestamente superan grandemente modelos simples como regresión logística.

Limitaciones de la investigación

Se limita a revision de estudios previos realizados en algunos dominios. No se aplica específicamente a ciencias de ML aplicada al cambio climático, salvo en el dominio de imágenes satelitales.

Recomendaciones

Los investigadores trabajando en ML deben asegurarse de no incurrir en fuga de datos, idealmente utilizando las fichas de información propuestas en este estudio. Los usuarios de las investigaciones deberían verificar que estas no hayan incurrido en fuga de datos. Particularmente, varios los estudios que proponen empíricos de predicción de clima no consideran dataset de testeo, en parte por lo limitado de los datasets disponibles pero también por falta de cultura en la comunidad. Sería deseable hacer un estudio de reproducibilidad en este dominio usando datos posteriores a la publicación para el testeo.

Adaptación: ---

Mitigación: ---

Escala: Global

Ámbito geográfico: Perú,Global

Palabras clave: Machine learning, Inteligencia artificial, Ciencia de datos, Fuga de datos, Data leakage

Cita de la interpretación

Takahashi Guevara, Ken, 2023: Interpretación de Kapoor et al. (2023, doi:10.1016/j.patter.2023.100804), Observatorio de Conocimiento Científico sobre Cambio Climático del Perú, IGP, https://cienciaclimatica.igp.gob.pe/entities/interpretation/9af756a1-68de-44b7-9e26-31273257efbd