2.5 Propiedades de las explicaciones

Queremos explicar las predicciones de un modelo de aprendizaje automático. Para lograr esto, confiamos en algún método de explicación, que es un algoritmo que genera explicaciones. Una explicación generalmente relaciona los valores de características de una instancia con la predicción de su modelo de una manera humanamente comprensible. Otros tipos de explicaciones consisten en un conjunto de instancias de datos (por ejemplo, en el caso del modelo vecino k-más cercano). Por ejemplo, podríamos predecir el riesgo de cáncer utilizando una SVM y explicar las predicciones utilizando el método sustituto local, que genera árboles de decisión como explicaciones. O podríamos usar un modelo de regresión lineal en lugar de una SVM. El modelo de regresión lineal ya está equipado con un método de explicación (interpretación de los pesos).

Echamos un vistazo más de cerca a las propiedades de los métodos de explicación y explicaciones (Robnik-Sikonja y Bohanec, 2018⁸). Estas propiedades se pueden usar para juzgar qué tan bueno es un método. No está claro para todas estas propiedades cómo medirlas correctamente, por lo que uno de los desafíos es formalizar cómo podrían calcularse.

Propiedades de los métodos de explicación

Poder expresivo es el “lenguaje” o estructura de las explicaciones que el método puede generar. Un método de explicación podría generar reglas SI-ENTONCES (IF-THEN), árboles de decisión, una suma ponderada, lenguaje natural u otra cosa.
Translucidez describe cuánto se basa el método de explicación en analizar el modelo de aprendizaje automático, como sus parámetros. Por ejemplo, los métodos de explicación que se basan en modelos intrínsecamente interpretables como el modelo de regresión lineal (específico del modelo) son altamente translúcidos. Los métodos que solo se basan en manipular entradas y observar las predicciones tienen cero translucidez. Dependiendo del escenario, diferentes niveles de translucidez pueden ser deseables. La ventaja de la alta translucidez es que el método puede confiar en más información para generar explicaciones. La ventaja de la baja translucidez es que el método de explicación es más portátil.
Portabilidad describe la gama de modelos de aprendizaje automático con los que se puede utilizar el método de explicación. Los métodos con baja translucidez tienen una mayor portabilidad porque tratan el modelo de aprendizaje automático como una caja negra. Los modelos sustitutos pueden ser el método de explicación con la mayor portabilidad. Métodos que solo funcionan, por ejemplo, para explicar las redes neuronales tienen baja portabilidad.
Complejidad algorítmica describe la complejidad computacional del método que genera la explicación. Es importante tener en cuenta esta propiedad cuando el tiempo de cálculo es un cuello de botella en la generación de explicaciones.

Propiedades de explicaciones individuales

Precisión: ¿Qué tan bien una explicación predice datos nuevos? La alta precisión es especialmente importante si la explicación se usa para las predicciones, y no para el modelo en sí. La baja precisión puede estar bien si la precisión del modelo de aprendizaje automático también es baja, y si el objetivo es explicar lo que hace el modelo de caja negra. En este caso, solo la fidelidad es importante.
Fidelidad: ¿Qué tan bien se aproxima la explicación a la predicción del modelo de caja negra? La alta fidelidad es una de las propiedades más importantes de una explicación, porque una explicación con baja fidelidad es inútil para explicar el modelo de aprendizaje automático. La precisión y la fidelidad están estrechamente relacionadas. Si el modelo de caja negra tiene una alta precisión y la explicación tiene una alta fidelidad, la explicación también tiene una alta precisión. Algunas explicaciones ofrecen solo fidelidad local, lo que significa que la explicación solo se aproxima bien a la predicción del modelo para un subconjunto de datos (por ejemplo, modelos sustitutos locales) o incluso solo para una observación individual (por ejemplo, Valores de Shapley).
Consistencia: ¿Cuánto difiere una explicación entre los modelos que han sido entrenados en la misma tarea y que producen predicciones similares? Por ejemplo, entreno una SVM y un modelo de regresión lineal en la misma tarea y ambos producen predicciones muy similares. Calculo explicaciones usando un método de mi elección y analizo cuán diferentes son las explicaciones. Si las explicaciones son muy similares, las explicaciones son muy consistentes. Encuentro esta propiedad algo complicada, ya que los dos modelos podrían usar características diferentes, pero obtener predicciones similares (también llamado “Efecto Rashomon”). En este caso, no es deseable una alta consistencia porque las explicaciones tienen que ser muy diferentes. Es deseable una alta consistencia si los modelos realmente dependen de relaciones similares.
Estabilidad: ¿Qué tan similares son las explicaciones para instancias similares? Mientras que la coherencia compara explicaciones entre modelos, la estabilidad compara explicaciones entre instancias similares para un modelo fijo. Alta estabilidad significa que ligeras variaciones en las características de una observación no cambian sustancialmente la explicación (a menos que estas ligeras variaciones también cambien fuertemente la predicción). La falta de estabilidad puede ser el resultado de una alta variación del método de explicación. En otras palabras, el método de explicación se ve fuertemente afectado por ligeros cambios en los valores de las características de la observación a explicar. La falta de estabilidad también puede ser causada por componentes no deterministas del método de explicación, como un paso de muestreo de datos: un ejemplo de esto es el uso del método sustituto local. La alta estabilidad siempre es deseable.
Comprensibilidad: ¿Qué tan bien entendemos los humanos las explicaciones? Esto se parece a una propiedad más entre muchas, pero es el elefante en la habitación. Difícil de definir y medir, pero extremadamente importante para acertar. Muchas personas están de acuerdo en que la comprensión depende de la audiencia. Las ideas para medir la comprensibilidad incluyen medir el tamaño de la explicación (número de características con un peso distinto de cero en un modelo lineal, número de reglas de decisión, …) o probar qué tan bien las personas pueden predecir el comportamiento del modelo de aprendizaje automático a partir de las explicaciones. También se debe considerar la comprensión de las características utilizadas en la explicación. Una transformación compleja de características podría ser menos comprensible que las características originales.
Certeza: ¿La explicación refleja la certeza del modelo de aprendizaje automático? Muchos modelos de aprendizaje automático solo dan predicciones sin una declaración sobre la confianza de los modelos de que la predicción es correcta. Si el modelo predice un 4% de probabilidad de cáncer para un paciente, ¿es igual de cierto que un 4% de probabilidad para otro paciente con diferentes valores de características, pero igual valor predicho? Una explicación que incluye la certeza del modelo es muy útil.
Grado de importancia: ¿Qué tan bien refleja la explicación la importancia de las características o partes de la explicación? Por ejemplo, si se genera una regla de decisión como explicación para una predicción individual, ¿está claro cuál de las condiciones de la regla fue la más importante?
Novedad: ¿La explicación refleja si una instancia de datos a explicar proviene de una “nueva” región muy alejada de la distribución de datos de entrenamiento? En tales casos, el modelo puede ser inexacto y la explicación puede ser inútil. El concepto de novedad está relacionado con el concepto de certeza. Cuanto mayor sea la novedad, más probable es que el modelo tenga poca certeza debido a la falta de datos.
Representatividad: ¿Cuántas instancias cubre una explicación? Las explicaciones pueden abarcar todo el modelo (p. Ej., Interpretación de pesos en un modelo de regresión lineal) o representar solo una predicción individual (p. Ej., Valores de Shapley).

Robnik-Sikonja, Marko, and Marko Bohanec. “Perturbation-based explanations of prediction models.” Human and Machine Learning. Springer, Cham. 159-175. (2018).↩