Capítulo 2 Interpretabilidad

No existe una definición matemática de interpretabilidad. Una definición (no matemática) que me gusta de Miller (2017)3 es: Interpretabilidad es el grado en que un humano puede comprender la causa de una decisión. Otra es: Interpretabilidad es el grado a lo que un humano puede predecir constantemente el resultado del modelo4. Cuanto mayor sea la interpretabilidad de un modelo de aprendizaje automático, más fácil será para alguien comprender por qué se han tomado ciertas decisiones o predicciones. Un modelo es más interpretable que otro si, comparativamente, sus decisiones son más fáciles de comprender para un humano. Usaré los términos interpretable y explicable en forma indistinta. Al igual que Miller (2017), creo que tiene sentido distinguir entre los términos interpretabilidad / explicabilidad y explicación. Usaré “explicación” para explicaciones de predicciones individuales. Lee la sección sobre explicaciones para aprender lo que los humanos vemos como una buena explicación.


  1. Miller, Tim. “Explanation in artificial intelligence: Insights from the social sciences.” arXiv Preprint arXiv:1706.07269. (2017).

  2. Kim, Been, Rajiv Khanna, and Oluwasanmi O. Koyejo. “Examples are not enough, learn to criticize! Criticism for interpretability.” Advances in Neural Information Processing Systems (2016).