2.6 Explicaciones amigables para los humanos

Profundicemos y descubramos lo que los humanos vemos como “buenas” explicaciones y cuáles son las implicaciones para el aprendizaje automático interpretable. La investigación en humanidades puede ayudarnos a descubrirlo. Miller (2017) ha realizado un gran estudio de publicaciones sobre explicaciones, y este capítulo se basa en su resumen.

En este capítulo quiero convencerte de lo siguiente: Como explicación de un evento, los humanos preferimos explicaciones cortas (solo 1 o 2 causas) que contrastan la situación actual con una situación en la que el evento no hubiera ocurrido. Las causas especialmente anormales proporcionan buenas explicaciones. Las explicaciones son interacciones sociales entre el explicador y el explicado (receptor de la explicación) y, por lo tanto, el contexto social tiene una gran influencia en el contenido real de la explicación.

Cuando necesitas explicaciones con TODOS los factores para una predicción o comportamiento particular, no deseas una explicación amigable para los humanos, sino una atribución causal completa. Probablemente desees una atribución causal si estás legalmente obligado a especificar todas las características influyentes o si depuras el modelo de aprendizaje automático. En este caso, ignora los siguientes puntos. En todos los demás casos, donde los destinatarios de la explicación son ‘laicos’ o tienen poco tiempo tiempo, las siguientes secciones te deberían resultar interesantes.

2.6.1 ¿Qué es una explicación?

Una explicación es la respuesta a una pregunta de por qué (Miller 2017).

  • ¿Por qué el tratamiento no funcionó en el paciente?
  • ¿Por qué fue rechazado mi préstamo?
  • ¿Por qué todavía no hemos sido contactados por la vida alienígena?

Las dos primeras preguntas pueden responderse con una explicación “cotidiana”, mientras que la tercera proviene de la categoría “Fenómenos científicos más generales y preguntas filosóficas”. Nos centramos en las explicaciones de tipo “cotidiano”, porque son relevantes para el aprendizaje automático interpretable. Las preguntas que comienzan con “cómo” generalmente se pueden reformular como preguntas de “por qué”: “¿Cómo se rechazó mi préstamo?” puede convertirse en “¿Por qué se rechazó mi préstamo?”.

A continuación, el término “explicación” se refiere al proceso social y cognitivo de explicación, pero también al producto de estos procesos. El explicador puede ser un ser humano o una máquina.

2.6.2 ¿Qué es una buena explicación?

Esta sección condensa aún más el resumen de Miller sobre explicaciones “buenas” y agrega implicaciones concretas para el aprendizaje automático interpretable.

Las explicaciones son contrastantes (Lipton 19909). Los humanos generalmente no preguntamos por qué se hizo una determinada predicción, sino por qué se hizo esta predicción en lugar de otra predicción. Tendemos a pensar en casos contrafácticos, es decir, “¿Cómo habría sido la predicción si la entrada X hubiera sido diferente?”. Para una predicción del precio de la vivienda, el propietario podría estar interesado en saber por qué el precio previsto fue alto, en comparación con el precio más bajo que esperaba. Si mi solicitud de préstamo es rechazada, no me importa escuchar todos los factores que generalmente hablan a favor o en contra de un rechazo. Estoy interesado en los factores en mi solicitud que tendrían que cambiar para obtener el préstamo. Quiero saber el contraste entre mi aplicación y la versión de mi solicitud que sería aceptada. El reconocimiento de que las explicaciones contrastantes importan es un hallazgo importante para el aprendizaje automático explicable. De la mayoría de los modelos interpretables, es posible extraer una explicación que contrasta implícitamente una predicción de una instancia con la predicción de una instancia de datos artificiales o un promedio de instancias. Los médicos podrían preguntar: “¿Por qué el medicamento no funcionó para mi paciente?”. Y podrían querer una explicación que contraste a su paciente con un paciente para quien el medicamento funcionó y que sea similar al paciente que no responde. Las explicaciones contrastantes son más fáciles de entender que explicaciones completas. Una explicación completa de la pregunta del médico de por qué el medicamento no funciona puede incluir: El paciente ha tenido la enfermedad durante 10 años, 11 genes se sobreexpresan, el cuerpo del paciente es muy rápido en descomponer el medicamento en químicos ineficaces. Una explicación contrastante podría ser mucho más simple: en contraste con el paciente que responde, el paciente que no responde tiene una cierta combinación de genes que hacen que el medicamento sea menos efectivo. La mejor explicación es la que destaca la mayor diferencia entre el objeto de interés y el objeto de referencia. Lo que significa para el aprendizaje automático interpretable: los humanos no queremos una explicación completa para una predicción, sino comparar las diferencias con la predicción de otra observación (que puede ser artificial). La creación de explicaciones contrastantes depende de la aplicación, porque requiere un punto de referencia para la comparación. Y esto puede depender del punto de datos a explicar, pero también del usuario que recibe la explicación. Un usuario de un sitio web de predicción del precio de la vivienda puede querer tener una explicación de una predicción del precio de la vivienda en contraste con su propia casa o tal vez con otra casa en el sitio web o tal vez con una casa promedio en el vecindario. La solución para la creación automatizada de explicaciones contrastantes también podría implicar la búsqueda de prototipos o arquetipos en los datos.

Las explicaciones se seleccionan. La gente no espera explicaciones que cubran la lista real y completa de causas de un evento. Estamos acostumbrados a seleccionar una o dos causas de una variedad de causas posibles como LA explicación. Como prueba, encienda las noticias de TV: “El descenso en los precios de las acciones se atribuye a una creciente reacción contra el producto de la compañía debido a problemas con la última actualización de software”. “Tsubasa y su equipo perdieron el partido debido a una defensa débil: dieron a sus oponentes demasiado espacio para desarrollar su estrategia”. “La creciente desconfianza de las instituciones establecidas y nuestro gobierno son los principales factores que han reducido la participación electoral”. El hecho de que un evento puede explicarse por varias causas se llama Efecto Rashomon. Rashomon es una película japonesa que cuenta historias alternativas y contradictorias (explicaciones) sobre la muerte de un samurai. Para los modelos de aprendizaje automático, es ventajoso si se puede hacer una buena predicción a partir de diferentes características. Los métodos de conjunto que combinan múltiples modelos con diferentes características (diferentes explicaciones) generalmente funcionan bien porque promediar esas “historias” hace que las predicciones sean más sólidas y precisas. Pero también significa que hay más de una explicación selectiva de por qué se hizo una determinada predicción. Lo que significa para el aprendizaje automático interpretable: Haz la explicación muy breve, dé solo 1 a 3 razones, incluso si el mundo es más complejo. El método LIME hace un buen trabajo con esto.

Las explicaciones son sociales. Son parte de una conversación o interacción entre el explicador y el receptor de la explicación. El contexto social determina el contenido y la naturaleza de las explicaciones. Si quisiera explicarle a una persona técnica por qué las criptomonedas digitales valen tanto, diría cosas como: “La contabilidad descentralizada, distribuida y basada en blockchain, que no puede ser controlado por una entidad central, resuena con las personas que desean asegurarse su riqueza, lo que explica la alta demanda y el precio”. Pero a mi abuela le diría: “Mira, abuela: las criptomonedas son un poco como el oro de la computadora. A la gente le gusta y paga mucho por el oro, y a los jóvenes les gusta y pagan mucho por el oro de la computadora”. Lo que significa para el aprendizaje automático interpretable: Presta atención al entorno social de tu aplicación de aprendizaje automático y al público objetivo. Obtener la parte social del modelo de aprendizaje automático correcto depende completamente de su aplicación específica. Encuentra expertos de las humanidades (por ejemplo, psicólogos y sociólogos) para que te ayuden.

Las explicaciones se centran en lo anormal. Las personas se enfocan más en causas anormales para explicar los eventos (Kahnemann y Tversky, 198110). Estas son causas que tenían una pequeña probabilidad pero que, sin embargo, ocurrieron. La eliminación de estas causas anormales habría cambiado mucho el resultado (explicación contrafáctica). Los humanos consideramos este tipo de causas “anormales” como buenas explicaciones. Un ejemplo de Štrumbelj y Kononenko (2011)11 es: supongamos que tenemos un conjunto de datos de situaciones de prueba entre profesores y alumnos. Los estudiantes asisten a un curso y lo aprueban directamente después de una presentación exitosa. El maestro tiene la opción de hacer preguntas adicionales al alumno para evaluar su conocimiento. Los estudiantes que no puedan responder estas preguntas reprobarán el curso. Los estudiantes pueden tener diferentes niveles de preparación, lo que se traduce en diferentes probabilidades de responder correctamente las preguntas del maestro (si deciden evaluar al estudiante). Queremos predecir si un alumno aprobará el curso y explicar nuestra predicción. La posibilidad de aprobar es del 100% si el maestro no hace preguntas adicionales; de lo contrario, la probabilidad de aprobar depende del nivel de preparación del alumno y la probabilidad resultante de responder las preguntas correctamente. Escenario 1: el maestro generalmente hace preguntas adicionales a los estudiantes (por ejemplo, 95 de cada 100 veces). Un estudiante que no estudió (10% de posibilidades de aprobar la parte de la pregunta) no fue uno de los afortunados y recibe preguntas adicionales que no responde correctamente. ¿Por qué el alumno reprobó el curso? Yo diría que fue culpa del estudiante por no estudiar. Escenario 2: el profesor rara vez hace preguntas adicionales (por ejemplo, 2 de cada 100 veces). Para un estudiante que no ha estudiado las preguntas, predeciríamos una alta probabilidad de aprobar el curso porque las preguntas son poco probables. Por supuesto, uno de los estudiantes no se preparó para las preguntas, lo que le da un 10% de posibilidades de aprobar las preguntas. No tiene suerte y el profesor hace preguntas adicionales que el alumno no puede responder y no aprueba el curso. ¿Cuál es la razón del fracaso? Yo diría que ahora, la mejor explicación es “porque el profesor evaluó al alumno”. Era poco probable que el maestro hiciera la prueba, por lo que se comportó de manera anormal. Lo que significa para el aprendizaje automático interpretable: Si una de las características de entrada para una predicción fue anormal en algún sentido (como una categoría rara de una característica categórica) y la característica influyó en la predicción, debe incluirse en una explicación, incluso si otras características ‘normales’ tienen la misma influencia en la predicción que la anormal. Una característica anormal en nuestro ejemplo de predicción del precio de la vivienda podría ser que una vivienda bastante cara tiene dos balcones. Incluso si algún método de atribución determina que los dos balcones contribuyen tanto a la diferencia de precio como el tamaño promedio de la casa, el vecindario bueno o la reciente renovación, la característica anormal “dos balcones” podría ser la mejor explicación de por qué la casa es tan costosa.

Las explicaciones son verdaderas. Las buenas explicaciones demuestran ser ciertas en la realidad (es decir, en otras situaciones). Pero inquietantemente, este no es el factor más importante para una “buena” explicación. Por ejemplo, la selectividad parece ser más importante que la veracidad. Una explicación que selecciona solo una o dos causas posibles rara vez cubre la lista completa de causas relevantes. La selectividad omite parte de la verdad. No es cierto que solo uno o dos factores, por ejemplo, hayan causado un colapso del mercado de valores: la verdad es que hay millones de causas que influyen en millones de personas para que actúen de tal manera que al final se causó un colapso. Lo que significa para el aprendizaje automático interpretable: La explicación debe predecir el evento con la mayor veracidad posible, que en el aprendizaje automático a veces se llama fidelidad. Entonces, si decimos que un segundo balcón aumenta el precio de una casa, eso también debería aplicarse a otras casas (o al menos a casas similares). Para los humanos, la fidelidad de una explicación no es tan importante como su selectividad, su contraste y su aspecto social.

Las buenas explicaciones son consistentes con las creencias previas del explicado. Los humanos tendemos a ignorar la información que es inconsistente con sus creencias anteriores. Este efecto se llama sesgo de confirmación (Nickerson 1998 12). Las explicaciones no se salvan de este tipo de sesgo. La gente tenderá a devaluar o ignorar explicaciones que no concuerden con sus creencias. El conjunto de creencias varía de persona a persona, pero también hay creencias previas basadas en grupos, como las cosmovisiones políticas. Lo que significa para el aprendizaje automático interpretable: Las buenas explicaciones son consistentes con las creencias anteriores. Esto es difícil de integrar en el aprendizaje automático y probablemente comprometería drásticamente el rendimiento predictivo. Nuestra creencia previa sobre el efecto del tamaño de la casa en el precio previsto es que cuanto más grande sea la casa, mayor será el precio. Supongamos que un modelo también muestra un efecto negativo del tamaño de la casa en el precio previsto para algunas casas. El modelo ha aprendido esto porque mejora el rendimiento predictivo (debido a algunas interacciones complejas), pero este comportamiento contradice fuertemente nuestras creencias anteriores. Puede aplicar restricciones de monotonicidad (una característica solo puede afectar la predicción en una dirección) o usar algo como un modelo lineal que tenga esta propiedad.

Las buenas explicaciones son generales y probables. Una causa que puede explicar muchos eventos es muy general y podría considerarse una buena explicación. Ten en cuenta que esto contradice la afirmación de que las causas anormales son buenas explicaciones. A mi entender, las causas anormales superan a las causas generales. Las causas anormales son, por definición, raras en el escenario dado. En ausencia de un evento anormal, una explicación general se considera una buena explicación. También recuerda que las personas tienden a juzgar mal las probabilidades de eventos conjuntos. (Joe es bibliotecario. ¿Es más probable que sea una persona tímida o una persona tímida a la que le gusta leer libros?) Un buen ejemplo es “La casa es cara porque es grande”, lo cual es una buena explicación de por qué las casas son caras o baratas. Lo que significa para el aprendizaje automático interpretable: La generalidad se puede medir fácilmente con el soporte de la función, que es el número de instancias a las que se aplica la explicación dividido por el número total de instancias.


  1. Lipton, Peter. “Contrastive explanation.” Royal Institute of Philosophy Supplements 27 (1990): 247-266.

  2. Kahneman, Daniel, and Amos Tversky. “The Simulation Heuristic.” Stanford Univ CA Dept of Psychology. (1981).

  3. Štrumbelj, Erik, and Igor Kononenko. “A general method for visualizing and explaining black-box regression models.” In International Conference on Adaptive and Natural Computing Algorithms, 21–30. Springer. (2011).

  4. Nickerson, Raymond S. “Confirmation Bias: A ubiquitous phenomenon in many guises.” Review of General Psychology 2 (2). Educational Publishing Foundation: 175. (1998).