2.1 Importancia de la interpretabilidad

Si un modelo de aprendizaje automático funciona bien, ¿por qué no confiamos en el modelo e ignoramos por qué tomó una determinada decisión? “El problema es que una sola métrica, como la precisión de la clasificación, es una descripción incompleta de la mayoría de las tareas del mundo real”. (Doshi-Velez y Kim 20175)

Profundicemos en las razones por las que la interpretabilidad es tan importante. Cuando se trata de modelado predictivo, debes hacer una compensación: ¿solo deseas saber qué se predice? Por ejemplo, la probabilidad de que un cliente abandone un servicio o qué tan efectivo será un medicamento para un paciente. ¿O quieres saber por qué se hizo la predicción, posiblemente pagando la interpretabilidad con una caída en el rendimiento predictivo? En algunos casos, no te importa por qué se tomó una decisión, es suficiente saber que el rendimiento predictivo en un conjunto de datos de prueba fue bueno. Pero en otros casos, conocer el ‘por qué’ puede ayudarlo a aprender más sobre el problema, los datos y la razón por la cual un modelo puede fallar. Es posible que algunos modelos no requieran explicaciones porque se usan en un entorno de bajo riesgo, lo que significa que un error no tendrá consecuencias graves (por ejemplo, un sistema de recomendación de películas) o que el método ya ha sido ampliamente estudiado y evaluado (por ejemplo, reconocimiento óptico de caracteres). La necesidad de interpretabilidad surge de una incompletitud en la formalización del problema (Doshi-Velez y Kim 2017), lo que significa que para ciertos problemas o tareas no es suficiente obtener la predicción (el qué). El modelo también debe explicar cómo llegó a la predicción (el por qué), porque una predicción correcta solo resuelve parcialmente su problema original. Las siguientes razones impulsan la demanda de interpretabilidad y explicaciones (Doshi-Velez y Kim 2017 y Miller 2017).

Curiosidad y aprendizaje humanos: los humanos tenemos un modelo mental de nuestro entorno que se actualiza cuando ocurre algo inesperado. Esta actualización se realiza buscando una explicación para el evento inesperado. Por ejemplo, un humano se siente enfermo y pregunta: “¿Por qué me siento tan enfermo?”. Se entera de que se enferma cada vez que come frutos rojos. Actualiza su modelo mental y decide que esos frutos causaron la enfermedad y, por lo tanto, deben evitarse. Cuando se usan modelos opacos de aprendizaje automático en la investigación, los hallazgos científicos permanecen completamente ocultos si el modelo solo da predicciones sin explicaciones. Para facilitar el aprendizaje y satisfacer la curiosidad de por qué ciertas predicciones o comportamientos son creados por máquinas, la interpretación y las explicaciones son cruciales. Por supuesto, los humanos no necesitamos explicaciones para todo lo que sucede. Para la mayoría de las personas, no hay problemas en no entender cómo funciona una computadora. Eventos inesperados nos hacen curiosos. Por ejemplo: ¿Por qué mi computadora se apaga inesperadamente?

Estrechamente relacionado con el aprendizaje está el deseo humano de encontrar significado en el mundo. Queremos armonizar las contradicciones o inconsistencias entre los elementos de nuestras estructuras de conocimiento. “¿Por qué mi perro me mordió a pesar de que nunca antes lo había hecho?” Un humano podría preguntar. Existe una contradicción entre el conocimiento del comportamiento pasado del perro y la experiencia desagradable recién hecha de la mordedura. La explicación del veterinario concilia la contradicción del dueño del perro: “El perro estaba estresado y mordió”. Cuanto más la decisión de una máquina afecta la vida de una persona, más importante es que la máquina explique su comportamiento. Si un modelo de aprendizaje automático rechaza una solicitud de préstamo, esto puede ser completamente inesperado para los solicitantes. Solo pueden conciliar esta inconsistencia entre la expectativa y la realidad con algún tipo de explicación. En realidad, las explicaciones no tienen que explicar completamente la situación, sino que deben abordar una causa principal. Otro ejemplo es la recomendación algorítmica de productos. Personalmente, siempre pienso en por qué ciertos productos o películas me han sido recomendados algorítmicamente. A menudo es bastante claro: la publicidad me sigue en Internet porque recientemente compré una lavadora, y sé que en los próximos días me seguirán anuncios de lavadoras. Sí, tiene sentido sugerir guantes si ya tengo un gorro de nieve en mi carrito de compras. El algoritmo recomienda esta película, porque los usuarios a quienes les gustaron otras películas que me gustaron también disfrutaron la película recomendada. Cada vez más, las compañías de Internet están agregando explicaciones a sus recomendaciones. Un buen ejemplo es la recomendación de productos de Amazon, que se basa en combinaciones de productos que se compran con frecuencia:

Productos recomendados cuando se compra pintura en Amazon.

FIGURA 2.1: Productos recomendados cuando se compra pintura en Amazon.

En muchas disciplinas científicas hay un cambio de métodos cualitativos a cuantitativos (por ejemplo, sociología, psicología), y también hacia el aprendizaje automático (biología, genómica). El objetivo de la ciencia es obtener conocimiento, pero muchos problemas se resuelven con grandes conjuntos de datos y modelos de aprendizaje automático de caja negra. El modelo en sí se convierte en la fuente de conocimiento en lugar de los datos. La interpretabilidad hace posible extraer este conocimiento adicional capturado por el modelo.

Los modelos de aprendizaje automático asumen tareas del mundo real que requieren medidas de seguridad y pruebas. Imagina que un automóvil autónomo detecta automáticamente a los ciclistas en función de un sistema de aprendizaje profundo. Deseas estar 100% seguro de que la abstracción que ha aprendido el sistema está libre de errores, porque no podrías tolerar ni un atropello. Una explicación podría revelar que la característica aprendida más importante es reconocer las dos ruedas de una bicicleta, pero existen casos de borde, como bicicletas con bolsas laterales que cubren parcialmente las ruedas.

Por defecto, los modelos de aprendizaje automático recogen sesgos de los datos de entrenamiento. Esto puede convertir sus modelos de aprendizaje automático en racistas que discriminan determinados grupos. La interpretabilidad es una herramienta de depuración útil para detectar sesgos en modelos de aprendizaje automático. Puede suceder que el modelo de aprendizaje automático que hayas entrenado para la aprobación automática o el rechazo de las solicitudes de crédito discrimine a una minoría. Su objetivo principal es otorgar préstamos solo a personas que eventualmente los pagarán. Lo incompleto de la formulación del problema en este caso radica en el hecho de que no solo desea minimizar los impagos de préstamos, sino que también está obligado a no discriminar sobre la base de ciertos datos demográficos. Esta es una restricción adicional que forma parte de la formulación de su problema (otorgar préstamos de manera riesgosa y conforme) que no está cubierta por la función de pérdida para la que se optimizó el modelo de aprendizaje automático.

El proceso de integración de máquinas y algoritmos en nuestra vida diaria requiere interpretabilidad para aumentar la aceptación social. Las personas atribuyen creencias, deseos, intenciones, etc. a los objetos. En un famoso experimento, Heider y Simmel (1944)6 mostraron a los participantes videos de formas en las que un círculo abría una “puerta” para ingresar a una “habitación” (que era simplemente un rectángulo). Los participantes describieron las acciones de las formas como describirían las acciones de un agente humano, asignando intenciones e incluso emociones y rasgos de personalidad a las formas. Los robots son un buen ejemplo, como mi aspiradora, a la que llamé “Doge”. Si Doge se atasca, pienso: “Doge quiere seguir limpiando, pero me pide ayuda porque se atascó”. Más tarde, cuando Doge termina de limpiar y busca en la base de operaciones para recargar, pienso: “Doge desea recargar y tiene la intención de encontrar la base de operaciones”. También atribuyo rasgos de personalidad: “Doge es un poco tonto, pero de una manera linda”. Estos son mis pensamientos, especialmente cuando descubro que Doge ha derribado una planta mientras aspiraba la casa. Una máquina o algoritmo que explica sus predicciones encontrará más aceptación. Véase también el capítulo sobre explicaciones, que argumenta que las explicaciones son un proceso social.

Las explicaciones se utilizan para gestionar las interacciones sociales. Al crear un significado compartido de algo, el explicador influye en las acciones, emociones y creencias del receptor de la explicación. Para que una máquina interactúe con nosotros, puede que tenga que moldear nuestras emociones y creencias. Las máquinas tienen que “persuadirnos” para que puedan lograr su objetivo. No aceptaría completamente mi robot aspirador si no explicara su comportamiento, al menos hasta cierto punto. La aspiradora crea un significado compartido de, por ejemplo, un “accidente” (como quedarse atascado en la alfombra del baño … otra vez) al explicar que se atascó en lugar de simplemente detenerse a trabajar sin comentarios. Curiosamente, puede haber un desalineamiento entre el objetivo de la máquina explicadora (crear confianza) y el objetivo del destinatario (comprender la predicción o el comportamiento). Quizás la explicación completa de por qué Doge se atascó podría ser que la batería estaba muy baja, que una de las ruedas no funciona correctamente y que hay un error que hace que el robot vaya al mismo lugar una y otra vez a pesar de que había un obstaculo. Estas razones (y algunas más) hicieron que el robot se atascara, aunque algo estaba en el camino, y eso fue suficiente para que confiara en su comportamiento y se produjera el accidente. Por cierto, Doge se quedó atascado en el baño nuevamente. Tenemos que quitar las alfombras cada vez antes de dejar que Doge aspire.

Doge, nuestra aspiradora, se atascó. Como explicación del accidente, Doge nos dijo que debe estar en una superficie plana.

FIGURA 2.2: Doge, nuestra aspiradora, se atascó. Como explicación del accidente, Doge nos dijo que debe estar en una superficie plana.

Los modelos de aprendizaje automático solo se pueden depurar y auditar cuando se pueden interpretar. Incluso en entornos de bajo riesgo, como las recomendaciones de películas, la capacidad de interpretación es valiosa en la fase de investigación y desarrollo, así como después de la implementación. Más tarde, cuando se usa un modelo en un producto, las cosas pueden salir mal. Una interpretación para una predicción errónea ayuda a comprender la causa del error. Ofrece una dirección sobre cómo arreglar el sistema. Considera un ejemplo de un clasificador entre perros siberianos y lobos, que clasifica erróneamente a algunos siberianos como lobos. Al utilizar métodos de aprendizaje automático interpretables, descubrirás que la clasificación errónea se debió a la nieve en la imagen. El clasificador aprendió a usar la nieve como una característica para clasificar las imágenes como “lobo”, lo que podría tener sentido en términos de separar a los lobos de los siberianos en el conjunto de datos de entrenamiento, pero no en el uso en el mundo real.

Si puedes asegurarte de que el modelo de aprendizaje automático pueda explicar las decisiones, también puedes verificar los siguientes rasgos con mayor facilidad (Doshi-Velez y Kim 2017):

  • Equidad: garantiza que las predicciones sean imparciales y no discriminen implícita o explícitamente a ciertos grupos. Un modelo interpretable puede decirte por qué ha decidido que cierta persona no debería obtener un préstamo, y es más fácil para un humano juzgar si la decisión se basa en un sesgo demográfico aprendido (por ejemplo, racial).
  • Privacidad: garantiza que la información confidencial de los datos esté protegida.
  • Fiabilidad o robustez: garantiza que pequeños cambios en la entrada no conduzcan a grandes cambios en la predicción.
  • Causalidad: comprueba que solo se recogen las relaciones causales.
  • Confianza: es más fácil para los humanos confiar en un sistema que explica sus decisiones en comparación con una caja negra.

Cuando no necesitamos interpretabilidad.

Los siguientes escenarios ilustran los casos en que no necesitamos o incluso no queremos la interpretabilidad de los modelos de aprendizaje automático.

La interpretabilidad no es necesaria si el modelo no tiene un impacto significativo. Imagina a alguien llamado Mike trabajando en un proyecto paralelo de aprendizaje automático para predecir a dónde irán sus amigos para sus próximas vacaciones en base a datos de Facebook. A Mike le gusta sorprender a sus amigos con suposiciones educadas sobre dónde irán de vacaciones. No hay ningún problema real si el modelo está equivocado (en el peor de los casos, solo un poco de vergüenza para Mike), ni hay un problema si Mike no puede explicar el resultado de su modelo. Está perfectamente bien no tener interpretabilidad en este caso. La situación cambiaría si Mike comenzara a construir un negocio en torno a estas predicciones de destinos de vacaciones. Si el modelo está equivocado, el negocio podría perder dinero, o el modelo podría funcionar peor para algunas personas debido al prejuicio racial aprendido. Tan pronto como el modelo tenga un impacto significativo, ya sea financiero o social, la interpretabilidad se vuelve relevante.

La interpretabilidad no es necesaria cuando el problema está bien estudiado. Algunas aplicaciones se han estudiado lo suficientemente bien como para que haya suficiente experiencia práctica con el modelo y los problemas con el modelo se hayan resuelto con el tiempo. Un buen ejemplo es un modelo de aprendizaje automático para el reconocimiento óptico de caracteres que procesa imágenes de sobres y extrae direcciones. Hay años de experiencia con estos sistemas y está claro que funcionan. Además, no estamos realmente interesados en obtener información adicional sobre la tarea en cuestión.

La interpretabilidad podría permitir a las personas o programas manipular el sistema. Los problemas con los usuarios que engañan a un sistema son el resultado de una falta de coincidencia entre los objetivos del creador y el usuario de un modelo. La calificación crediticia es un sistema de este tipo porque los bancos quieren asegurarse de que los préstamos solo se otorguen a los solicitantes que puedan devolverlos, y los solicitantes aspiran a obtener el préstamo incluso si el banco no quiere darles uno. Este desajuste entre los objetivos introduce incentivos para que los solicitantes jueguen con el sistema para aumentar sus posibilidades de obtener un préstamo. Si un solicitante sabe que tener más de dos tarjetas de crédito afecta negativamente su puntaje, simplemente devuelve su tercera tarjeta de crédito para mejorar su puntaje y solicita una nueva tarjeta después de que el préstamo haya sido aprobado. Si bien su puntaje mejoró, la probabilidad real de pagar el préstamo se mantuvo sin cambios. El sistema solo se puede manipular si las entradas son representantes de una característica causal, pero en realidad no causan el resultado. Siempre que sea posible, se deben evitar las funciones de proxy ya que hacen que los modelos sean manipulables. Por ejemplo, Google desarrolló un sistema llamado Google Flu Trends para predecir los brotes de gripe. El sistema correlacionó las búsquedas de Google con los brotes de gripe, y tuvo un mal desempeño. La distribución de las consultas de búsqueda cambió y Google Flu Trends se perdió muchos brotes de gripe. Las búsquedas en Google no causan la gripe. Cuando las personas buscan síntomas como “fiebre”, se trata simplemente de una correlación con los brotes de gripe reales. Idealmente, los modelos solo usarían características causales porque no serían manipulables.


  1. Doshi-Velez, Finale, and Been Kim. “Towards a rigorous science of interpretable machine learning,” no. Ml: 1–13. http://arxiv.org/abs/1702.08608 ( 2017).

  2. Heider, Fritz, and Marianne Simmel. “An experimental study of apparent behavior.” The American Journal of Psychology 57 (2). JSTOR: 243–59. (1944).