1.2 ¿Qué es el aprendizaje automático?
El aprendizaje automático es un conjunto de métodos que usan las computadoras para hacer y mejorar predicciones o comportamientos basados en datos.
Por ejemplo, para predecir el valor de una casa, la computadora puede aprender patrones de ventas pasadas de casas. El libro se centra en el aprendizaje automático supervisado, que cubre todos los problemas de predicción en los que tenemos un conjunto de datos para el que ya conocemos el resultado de interés (por ejemplo, precios anteriores de la vivienda) y queremos predecir el resultado de los nuevos datos. Se excluyen del aprendizaje supervisado, por ejemplo, las tareas de agrupación (aprendizaje no supervisado) donde no tenemos un resultado específico de interés, pero queremos encontrar grupos de observaciones. También se excluyen cosas como el aprendizaje por refuerzo, donde un agente aprende a optimizar cierta recompensa actuando en un entorno (por ejemplo, una computadora que juega Tetris). El objetivo del aprendizaje supervisado es aprender un modelo predictivo que relacione características de los datos (por ejemplo: tamaño de la casa, ubicación, tipo de piso, …) con una salida (por ejemplo: el precio de la casa). Si el resultado es categórico, el objetivo se llama clasificación, y si es numérico, se llama regresión. El algoritmo de aprendizaje automático aprende un modelo mediante la estimación de parámetros (como pesos) o estructuras de aprendizaje (como árboles). El algoritmo se guía por una función de puntuación o pérdida que se minimiza. En el ejemplo del valor de la vivienda, la máquina minimiza la diferencia entre el precio estimado de la vivienda y el precio previsto. Un modelo de aprendizaje automático totalmente entrenado se puede utilizar para hacer predicciones para nuevas instancias.
Estimación de precios de la vivienda, recomendaciones de productos, detección de letreros, predicción de incumplimiento crediticio y detección de fraude: Todos estos ejemplos tienen en común que pueden resolverse mediante el aprendizaje automático. Las tareas son diferentes, pero el enfoque es el mismo:
Paso 1: recopilación de datos. Mientras más, mejor. Los datos deben contener el resultado que desea predecir e información adicional a partir de la cual realizar la predicción. Para un detector de letrero de calle (“¿Hay un letrero de calle en la imagen?”), debes recopilar imágenes de la calle y etiquetar si un letrero de calle es visible o no. Para un predictor de incumplimiento de crédito, necesitas datos pasados sobre préstamos reales, información sobre si los clientes estaban en incumplimiento con sus préstamos y datos que lo ayudarán a hacer predicciones, como ingresos, incumplimientos de créditos pasados, etc. Para un programa de estimación automática del valor de la vivienda, podés recopilar datos de ventas de viviendas anteriores e información sobre los bienes inmuebles, como el tamaño, la ubicación, etc.
Paso 2: ingreso de esta información en un algoritmo de aprendizaje automático que genera un modelo de detector de signos, un modelo de calificación crediticia o un estimador del valor de la vivienda.
Paso 3: uso del modelo con nuevos datos. Integrar el modelo en un producto o proceso, como un automóvil sin conductor, un proceso de solicitud de crédito o un sitio web del mercado inmobiliario.
Las máquinas superan a los humanos en muchas tareas, como jugar al ajedrez (o más recientemente Go) o predecir el clima. Incluso si la máquina es tan buena como un ser humano o un poco peor en una tarea, sigue habiendo grandes ventajas en términos de velocidad, reproducibilidad y escala. Una vez implementado, un modelo de aprendizaje automático puede completar una tarea mucho más rápido que los humanos, ofrece resultados consistentes y se puede copiar infinitamente. La replicación de un modelo de aprendizaje automático en otra máquina es rápida y barata. El entrenamiento de un humano para una tarea puede llevar décadas (especialmente cuando son jóvenes) y es muy costoso. Una desventaja importante del uso del aprendizaje automático es que los conocimientos sobre los datos y la tarea que resuelve la máquina están ocultos en modelos cada vez más complejos. Necesita millones de números para describir una red neuronal profunda, y no hay forma de entender el modelo en su totalidad. Otros modelos, como el bosque aleatorio -random forest-, consisten en cientos de árboles de decisión que “votan” por predicciones. Para comprender cómo se tomó la decisión, deberías examinar los votos y las estructuras de cada uno de los cientos de árboles. Eso simplemente no funciona, no importa cuán inteligente seas o cuán buena sea tu memoria de trabajo. Los modelos con mejor rendimiento son a menudo mezclas de varios modelos (también llamados conjuntos) imposibles de interpretar, aún bajo la posibilidad de que cada modelo se pudiera interpretar. Si te enfocas solo en el rendimiento, obtendrás automáticamente modelos cada vez más opacos. Solo echa un vistazo a entrevistas con ganadores en la plataforma de competencia de aprendizaje automático kaggle.com: Los modelos ganadores eran en su mayoría conjuntos de modelos o modelos muy complejos, como árboles potenciados o redes neuronales profundas.