2.2 Taxonomía de los métodos de interpretación

Los métodos para la interpretación de aprendizaje automático se pueden clasificar de acuerdo con varios criterios.

¿Intrínseco o post hoc? Este criterio distingue si la interpretabilidad se logra restringiendo la complejidad del modelo de aprendizaje automático (intrínseco) o aplicando métodos que analizan el modelo después del entrenamiento (post hoc). La interpretabilidad intrínseca se refiere a modelos de aprendizaje automático que se consideran interpretables debido a su estructura simple, como árboles de decisión cortos o modelos lineales dispersos. La interpretabilidad post hoc se refiere a la aplicación de métodos de interpretación después del entrenamiento modelo. La importancia de la característica de permutación es, por ejemplo, un método de interpretación post hoc. Los métodos post hoc también se pueden aplicar a modelos intrínsecamente interpretables. Por ejemplo, la importancia de la característica de permutación se puede calcular para los árboles de decisión. La organización de los capítulos de este libro está determinada por la distinción entre modelos intrínsecamente interpretables y métodos de interpretación post hoc (y modelo-agnósticos).

Resultado del método de interpretación Los diversos métodos de interpretación pueden diferenciarse aproximadamente de acuerdo con sus resultados.

Estadísticas de resumen de características: Muchos métodos de interpretación proporcionan estadísticas de resumen para cada covariable. Algunos métodos devuelven un solo número por característica, como la importancia de la característica, o un resultado más complejo, como las fortalezas de interacción de características por pares.
Visualización de resumen de características: La mayoría de las estadísticas de resumen de características también se pueden visualizar. Algunos resúmenes de características en realidad solo tienen sentido si se visualizan y una tabla sería una elección incorrecta. La dependencia parcial de una característica es tal caso. Las gráficas de dependencia parcial son curvas que muestran una característica y el resultado promedio pronosticado. La mejor manera de presentar dependencias parciales es dibujar la curva en lugar de imprimir las coordenadas.
Elementos internos del modelo (p. Ej., Pesos aprendidos): La interpretación de modelos intrínsecamente interpretables entra en esta categoría. Algunos ejemplos son los pesos en modelos lineales o la estructura de árbol aprendida (las características y los umbrales utilizados para las divisiones) de los árboles de decisión. Las líneas se desdibujan entre las partes internas del modelo y la estadística de resumen de características en, por ejemplo, modelos lineales, porque los pesos son tanto las partes internas del modelo como las estadísticas de resumen de las características al mismo tiempo. Otro método que genera modelos internos es la visualización de detectores de características aprendidos en redes neuronales convolucionales. Los métodos de interpretación que generan elementos internos del modelo son, por definición, específicos del modelo (consulte el siguiente criterio).
Punto de datos: Esta categoría incluye todos los métodos que devuelven observaciones (ya existentes o recién creados) para hacer que un modelo sea interpretable. Un método se llama explicaciones contrafácticas. Para explicar la predicción de una instancia de datos, el método encuentra una observación similar al cambiar algunas de las características para las cuales el resultado predicho cambia de manera relevante. Otro ejemplo es la identificación de prototipos de clases predichas. Para ser útiles, los métodos de interpretación que generan nuevos puntos de datos requieren que los propios puntos de datos puedan ser interpretados. Esto funciona bien para imágenes y textos, pero es menos útil para datos tabulares con cientos de características.
Modelo intrínsecamente interpretable: Una solución para interpretar modelos de caja negra es aproximarlos (global o localmente) con un modelo interpretable. El modelo interpretable en sí mismo se interpreta mirando los parámetros internos del modelo o las estadísticas de resumen de sus características.

¿Modelo específico o modelo agnóstico? Las herramientas de interpretación modelo-específicas están limitadas a ciertos modelos. La interpretación de los pesos de regresión en un modelo lineal es una interpretación de este tipo ya que, por definición, siempre es específica del modelo. Herramientas que solo funcionan para la interpretación de, por ejemplo, las redes neuronales son específicas del modelo. Las herramientas independientes del modelo se pueden usar en cualquier modelo de aprendizaje automático y se aplican después de que el modelo haya sido entrenado (post hoc). Estos métodos generalmente funcionan mediante el análisis de pares de entrada y salida de características. Por definición, estos métodos no pueden tener acceso a los modelos internos, como los pesos o la información estructural.

¿Local o global? ¿El método de interpretación explica una predicción individual o el comportamiento completo del modelo? ¿O algún punto intermedio? Lee más sobre el criterio de alcance en la siguiente sección.