Observaciones anómalas intraclase y su impacto en la generalización de redes neuronales artificiales
Las redes neuronales artificiales han adquirido un papel y una popularidad notables dentro del aprendizaje profundo y la inteligencia artificial en los últimos años. Están transformando la tecnología al punto de que su campo de aplicación está experimentando una explosión tremenda, abarcando desde el reconocimiento de voz, la visión y el procesamiento del lenguaje natural, hasta campos más específicos de la ciencia como las finanzas, las ciencias de la salud y la asistencia en la gestión de recursos naturales. Independientemente del método de entrenamiento de una red neuronal, las capas internas son responsables de realizar transformaciones no lineales de los datos y, por lo tanto, de extraer las relaciones y características relevantes para llevar a cabo una tarea de interés (regresión o clasificación). En el caso de la clasificación, se espera que, a medida que avanzan las épocas de entrenamiento, las capas internas de la red neuronal sean capaces de clasificar de manera eficiente. Sin embargo, los datos "complejos" son casi imposibles de clasificar durante el entrenamiento y afectan el rendimiento y la generalización de toda la red. A estos datos complejos los llamaremos observaciones anómalas intra-clase. A partir del análisis de varianza y de las pruebas de independencia de t de Student, se encontró evidencia significativa de que los datos atípicos perjudican la precisión de redes neuronales de pocas capas (por ejemplo, Khamis et al., 2005). A medida que los conjuntos de datos aumentan en dimensión y complejidad, las herramientas existentes son insuficientes para el aprendizaje óptimo de los algoritmos clásicos de aprendizaje automático, y con esto, aumenta el riesgo de tomar decisiones con algoritmos mal entrenados si no se analiza previamente la calidad de las observaciones. En el contexto particular de las redes neuronales entrenadas con algoritmos de descenso de gradiente, los datos mal clasificados producen la retropropagación de gradientes incorrectos, obligando a la red a ajustarse a datos "atípicos" y aumentando la probabilidad de predicciones poco fiables; por ello, se propone la implementación de técnicas de clustering en las activaciones de las primeras capas de la topología de una red neuronal (completamente conectada, recurrente o convolucional) para identificar los datos que generan retropropagación de gradientes incorrectos, logrando así un filtrado sistemático y contribuyendo a mejorar las métricas de generalización, lo que tendría un impacto positivo en numerosas aplicaciones con datos de diferentes naturalezas. Algunas metodologías de detección de datos atípicos para mejorar la capacidad de generalización de redes neuronales (Sandbhor y Chaphalkar, 2019) basadas en desviaciones en MADe (Desviaciones Absolutas Medianas) han sido desarrolladas en tiempos recientes. Sin embargo, el enfoque de esta propuesta es mucho más amplio, ya que trabajamos con una clase de “puntos anómalos” en un sentido mucho más general. La metodología y la ejemplificación con datos sintéticos y reales se presentan a través de una biblioteca de código abierto implementada en Python.
Intermedio
Datos