2.3 Alcance de la interpretabilidad

Un algoritmo entrena un modelo que produce las predicciones. Cada paso puede evaluarse en términos de transparencia o interpretabilidad.

2.3.1 Transparencia del algoritmo

¿Cómo crea el algoritmo el modelo?

La transparencia del algoritmo se trata de cómo el algoritmo aprende un modelo desde los datos, y de qué tipo de relaciones puede incorporar. Si utilizas redes neuronales convolucionales para clasificar imágenes, puedes explicar que el algoritmo aprende detectores de borde y filtros en las capas más bajas. Esto es una comprensión de cómo funciona el algoritmo, pero no para el modelo específico que se aprende al final, y tampoco para la forma en la que se hacen las predicciones individuales. La transparencia del algoritmo solo requiere el conocimiento del algoritmo y no de los datos o el modelo aprendido. Este libro se centra en la interpretabilidad del modelo y no en la transparencia del algoritmo. Algoritmos como el método de mínimos cuadrados para modelos lineales están bien estudiados y entendidos. Se caracterizan por una alta transparencia. Los enfoques de aprendizaje profundo (empujar un gradiente a través de redes con millones de pesos) se entienden menos y el funcionamiento interno es el foco de la investigación en curso. Se consideran menos transparentes.

2.3.2 Interpretabilidad global y holística del modelo

¿Cómo hace predicciones el modelo entrenado?

Puedes describir un modelo como interpretable si puedes comprender todo el modelo de una vez (Lipton 20167). Para explicar el resultado del modelo global necesitas el modelo entrenado, el conocimiento del algoritmo y los datos. Este nivel de interpretabilidad se trata de comprender cómo toma decisiones el modelo, en función de una visión holística de sus características y de cada uno de los componentes aprendidos, como los pesos, parámetros y estructuras. ¿Qué características son importantes y qué tipo de interacciones entre ellas tienen lugar? La interpretación global del modelo ayuda a comprender la distribución de su resultado objetivo en función de las características. La interpretabilidad del modelo global es muy difícil de lograr en la práctica. Es improbable que cualquier modelo que exceda un puñado de parámetros o pesos se ajuste a la memoria a corto plazo del ser humano promedio. Sostengo que realmente no puedes imaginar un modelo lineal con 5 características, porque significaría dibujar mentalmente el hiperplano estimado en un espacio de 5 dimensiones. Cualquier espacio de características con más de 3 dimensiones es simplemente inconcebible para los humanos. Por lo general, cuando las personas intentan comprender un modelo, solo consideran partes de él, como los pesos en los modelos lineales.

2.3.3 Interpretabilidad del modelo global en un nivel modular

¿Cómo afectan las predicciones las partes del modelo?

Un modelo de Naive Bayes -clasificador bayesiano ingenuo- con cientos de características sería demasiado grande para mantenerlo en nuestra memoria de trabajo. E incluso si logramos memorizar todos los pesos, no podríamos hacer predicciones rápidamente para nuevas observaciones. Además, debes tener la distribución conjunta de todas las características en su cabeza para estimar la importancia de cada característica y cómo las características afectan las predicciones en promedio. Una tarea imposible. Pero puedes entender fácilmente un solo peso. Si bien la interpretación global del modelo generalmente está fuera del alcance, existe una buena posibilidad de comprender al menos algunos modelos a nivel modular. No todos los modelos son interpretables a nivel de parámetro. Para los modelos lineales, las partes interpretables son los pesos, para los árboles serían las divisiones (características seleccionadas más puntos de corte) y las predicciones de los nodos foliares. Los modelos lineales, por ejemplo, se ven como si pudieran interpretarse perfectamente en un nivel modular, pero la interpretación de un solo peso está entrelazada con todos los demás pesos. La interpretación de un solo peso siempre viene con la nota al pie de página de que las otras características de entrada permanecen en el mismo valor, que no es el caso en muchas aplicaciones reales. Un modelo lineal que predice el valor de una casa, que tiene en cuenta tanto el tamaño de la casa como el número de habitaciones, puede tener un peso negativo para la característica de la cantidad de habitaciones. Puede suceder porque ya existe la característica de tamaño de la casa altamente correlacionada. En un mercado donde la gente prefiere habitaciones más grandes, una casa con menos habitaciones podría valer más que una casa con más habitaciones si ambas tienen el mismo tamaño. Los pesos solo tienen sentido en el contexto de las otras características del modelo. Pero los pesos en un modelo lineal aún se pueden interpretar mejor que los pesos de una red neuronal profunda.

2.3.4 Interpretabilidad local para una única predicción

¿Por qué el modelo hizo una cierta predicción para una instancia?

Puedes ampliar una sola instancia y examinar lo que el modelo predice para esta entrada, y explicar por qué. Si observas una predicción individual, el comportamiento del modelo complejo podría comportarse de manera más agradable. Localmente, la predicción podría depender solo linealmente o monotónicamente de algunas características, en lugar de tener una dependencia compleja de ellas. Por ejemplo, el valor de una casa puede depender no linealmente de su tamaño. Pero si solo estás mirando una casa particular de 100 metros cuadrados, existe la posibilidad de que para ese subconjunto de datos, la predicción del modelo dependa linealmente del tamaño. Puedes descubrir esto simulando cómo cambia el precio previsto cuando aumenta o disminuye el tamaño en 10 metros cuadrados. Por lo tanto, las explicaciones locales pueden ser más precisas que las explicaciones globales. Este libro presenta métodos que pueden hacer que las predicciones individuales sean más interpretables en la sección sobre métodos modelo-agnósticos.

2.3.5 Interpretabilidad local para un grupo de predicciones

¿Por qué el modelo hizo predicciones específicas para un grupo de instancias?

Las predicciones del modelo para varias observaciones pueden explicarse con métodos de interpretación de modelos globales (a nivel modular) o con explicaciones particulares por observación. Los métodos globales se pueden aplicar tomando un grupo de observaciones, tratándolo como si fuera el conjunto de datos completo y utilizando los métodos globales en este subconjunto. Los métodos de explicación individuales se pueden utilizar en cada instancia y luego enumerar o agregar para todo el grupo.


  1. Lipton, Zachary C. “The mythos of model interpretability.” arXiv preprint arXiv:1606.03490, (2016).