8.2 El futuro de la interpretabilidad

Echemos un vistazo al posible futuro de la interpretabilidad del aprendizaje automático.

La atención se centrará en las herramientas de interpretación independientes del modelo.

Es mucho más fácil automatizar la interpretabilidad cuando se desacopla del modelo de aprendizaje automático subyacente. La ventaja de la interpretabilidad agnóstica del modelo radica en su modularidad. Podemos reemplazar fácilmente el modelo subyacente de aprendizaje automático. Podemos reemplazar con la misma facilidad el método de interpretación. Por estas razones, los métodos modelo-agnósticos escalarán mucho mejor. Es por eso que creo que los métodos modelo-agnósticos serán más dominantes a largo plazo. Pero los métodos intrínsecamente interpretables también tendrán un lugar.

El aprendizaje automático se automatizará y, con él, la interpretabilidad.

Una tendencia ya visible es la automatización de la formación de modelos. Eso incluye ingeniería automatizada y selección de características, optimización automática de hiperparámetros, comparación de diferentes modelos y ensamblaje o apilamiento de los modelos. El resultado es el mejor modelo de predicción posible. Cuando utilizamos métodos de interpretación independientes del modelo, podemos aplicarlos automáticamente a cualquier modelo que surja del proceso automatizado de aprendizaje automático. En cierto modo, también podemos automatizar este segundo paso: Calcula automáticamente la importancia de la característica, traza la dependencia parcial, entrena un modelo sustituto, etc. Nadie te impide calcular automáticamente todas estas interpretaciones de modelos. La interpretación real todavía requiere personas. Imagínate: cargas un conjunto de datos, especificas el objetivo de predicción y con solo presionar un botón se entrena el mejor modelo de predicción y el programa escupe todas las interpretaciones del modelo. Ya hay primeros productos y sostengo que para muchas aplicaciones será suficiente utilizar estos servicios automatizados de aprendizaje automático. Hoy cualquiera puede crear sitios web sin conocer HTML, CSS y Javascript, pero todavía hay muchos desarrolladores web. Del mismo modo, creo que todos podrán entrenar modelos de aprendizaje automático sin saber cómo programar, y aún será necesario contar con expertos en aprendizaje automático.

No analizamos datos, analizamos modelos.

Los datos sin procesar en sí mismos son siempre inútiles. (Exagero a propósito. La realidad es que necesitas una comprensión profunda de los datos para realizar un análisis significativo). No me importan los datos; Me importa el conocimiento contenido en los datos. El aprendizaje automático interpretable es una excelente manera de extraer el conocimiento de los datos. Puede sondear ampliamente el modelo, el modelo reconoce automáticamente si las características son relevantes para la predicción y cómo lo hacen (muchos modelos tienen una selección de características incorporada), el modelo puede detectar automáticamente cómo se representan las relaciones y, si se entrena correctamente, El modelo final es una muy buena aproximación de la realidad.

Muchas herramientas analíticas ya se basan en modelos de datos (porque se basan en supuestos de distribución):

Pruebas de hipótesis simples como la prueba t de Student.
Pruebas de hipótesis con ajustes para factores de confusión (generalmente GLM)
Análisis de varianza (ANOVA)
El coeficiente de correlación (el coeficiente de regresión lineal estandarizado está relacionado con el coeficiente de correlación de Pearson)
…

Lo que estoy diciendo aquí en realidad no es nada nuevo. Entonces, ¿por qué pasar de analizar modelos transparentes basados en suposiciones a analizar modelos de caja negra sin suposiciones? Porque hacer todos estos supuestos es problemático: Por lo general, están equivocados (a menos que creas que la mayor parte del mundo sigue una distribución gaussiana), son difíciles de verificar, son muy inflexibles y difíciles de automatizar. En muchos dominios, los modelos basados en suposiciones suelen tener un peor rendimiento predictivo en datos de prueba intactos que los modelos de aprendizaje automático de caja negra. Esto solo es cierto para grandes conjuntos de datos, ya que los modelos interpretables con buenas suposiciones a menudo funcionan mejor con conjuntos de datos pequeños que los modelos de caja negra. El enfoque de aprendizaje automático de caja negra requiere una gran cantidad de datos para funcionar bien. Con la digitalización de todo, tendremos conjuntos de datos cada vez más grandes y, por lo tanto, el enfoque del aprendizaje automático se vuelve más atractivo. No hacemos suposiciones, aproximamos la realidad lo más cerca posible (al tiempo que evitamos el sobreajuste de los datos de entrenamiento). Sostengo que deberíamos desarrollar todas las herramientas que tenemos en estadística para responder preguntas (pruebas de hipótesis, medidas de correlación, medidas de interacción, herramientas de visualización, intervalos de confianza, valores p, intervalos de predicción, distribuciones de probabilidad) y reescribirlas para modelos de caja negra. En cierto modo, esto ya está sucediendo:

Tomemos un modelo lineal clásico: el coeficiente de regresión estandarizado ya es una medida de importancia característica. Con la medida de importancia de la característica de permutación, tenemos una herramienta que funciona con cualquier modelo.
En un modelo lineal, los coeficientes miden el efecto de una sola característica en el resultado previsto. La versión generalizada de esto es el gráfico de dependencia parcial.
Prueba si A o B es mejor: Para esto también podemos usar funciones de dependencia parcial. Lo que aún no tenemos (según mi leal saber y entender) son pruebas estadísticas para modelos arbitrarios de caja negra.

Los científicos de datos se automatizarán a sí mismos.

Creo que los científicos de datos eventualmente se automatizarán para muchas tareas de análisis y predicción. Para que esto suceda, las tareas deben estar bien definidas y debe haber algunos procesos y rutinas a su alrededor. Hoy, faltan estas rutinas y procesos, pero los científicos de datos y colegas están trabajando en ellos. A medida que el aprendizaje automático se convierta en una parte integral de muchas industrias e instituciones, muchas de las tareas se automatizarán.

Los robots y los programas se explicarán por sí mismos.

Necesitamos interfaces más intuitivas para las máquinas y los programas que hacen un uso intensivo del aprendizaje automático. Algunos ejemplos: Un automóvil autónomo que informa por qué se detuvo abruptamente (“70% de probabilidad de que un niño cruce la calle”); Un programa de incumplimiento de crédito que explica a un empleado del banco por qué se rechazó una solicitud de crédito (“El solicitante tiene demasiadas tarjetas de crédito y está empleado en un trabajo inestable”); Un brazo robótico que explica por qué movió el artículo de la cinta transportadora al contenedor de basura (“El artículo tiene una mancha en la parte inferior”).

La interpretabilidad podría impulsar la investigación de inteligencia artificial.

Me imagino que al investigar más sobre cómo los programas y las máquinas pueden explicarse, podemos mejorar nuestra comprensión de la inteligencia y mejorar la creación de máquinas inteligentes.

Al final, todas estas predicciones son especulaciones y tenemos que ver lo que realmente trae el futuro. ¡Forma tu propia opinión y sigue aprendiendo!