Construyendo la inteligencia

pigeon.jpg

Construyendo la inteligencia

La II Guerra Mundial creó las condiciones perfectas para que la psicología y las ciencias computacionales se encontraran. Y así, de manera indirecta, también otorgamos a las máquinas la capacidad de aprender.

Año 1943. El mundo entero está inmerso en la más catastrófica y mortal guerra que se haya conocido. A pesar de las enormes pérdidas sufridas, la balanza comienza tímidamente a decantarse por el bando aliado, que toma la iniciativa en el conflicto. El ataque a Stalingrado resulta un fracaso en los planes del Fürher, y el 31 de Enero, el Mariscal Paulus rinde el 6º Ejército alemán. En el verano, Mussolini es arrestado, y Roma es bombardeada. Para finales de año, la Conferencia de Teherán reune a Stalin, Churchill y Roosevelt, quienes discuten acerca de los planes de guerra en Europa. Sin embargo, las diferencias ideológicas entre los dos principales actores de la coalición, soviéticos y norteamericanos, son evidentes en todo momento. Puede que Berlín caiga, pero todos saben que ello no es más que la antesala de lo que se conocerá como Guerra Fría.

La guerra requiere siempre de ingentes cantidades de recursos, y su ahorro, sobre todo en el frente, se convierte en una prioridad absoluta. Durante la II Guerra Mundial los bombardeos desde aviones a gran altitud se habían convertido en una herramienta usual del campo de batalla, si bien la tecnología de la época no permitía asegurar que los artefactos terminaran cayendo sobre el objetivo tan a menudo como los oficiales desearían. Terrible como suena, lo cierto es que en el plano militar, una bomba que no cae donde debe supone un despilfarro, amén de una posible ayuda al enemigo. El gobierno de los E.E.U.U. era consciente de la necesidad apremiante de mejorar la precisión de sus misiles.

“Sabíamos que a los ojos del mundo, estábamos locos”[1]

Ese mismo año, Burrhus Frederic Skinner (1904 – 1990), a sus cuarenta años y ya con una sólida reputación como psicólogo a sus espaldas, pasa sus días en un laboratorio repleto de palomas en Minneapolis, financiado casi en exclusiva por una empresa de alimentación y entregado con devoción a sus experimentos. Skinner se había educado bajo la batuta de Edward Thorndike, quien en 1905 había postulado su “Ley de Efecto”[2], según la cual el proceso de aprendizaje consistía esencialmente en buscar recompensas y evitar dolor. Bajo este precepto Skinner, junto con Keller Breland y Norman Guttman, entrenó a decenas de palomas comunes a señalar sobre imágenes del terreno a objetivos militares susceptibles de ser bombardeados[3]. Por cada acierto, la paloma recibiría un premio. Repitiendo la operación una y otra vez, la teoría dictaba que el animal asociaría cumplir esa tarea con la obtención de una satisfacción. La idea era aprovechar las excelentes capacidades visuales de estas aves (así como la falta de asociaciones en pro de los derechos de los animales) para, una vez entrenadas, ser introducidas en la cabeza de los proyectiles a lanzar, y guiar la trayectoria hasta impactar con el objetivo. 

Al ser un proyecto militar ultrasecreto, Skinner y su equipo a menudo tenían que esperar cruzados de brazos a que Washington tomara las oportunas decisiones. Uno de esos días de menor actividad, tuvieron una idea. Quizás, pensaron, sería posible y divertido enseñar a una paloma a jugar a los bolos. Dicho y hecho. Construyeron un pequeño entorno simulando una pista con todo lujo de detalles (bola de madera de tamaño reducido, bolos en miniatura, una pista de carriles…), y esperaron pacientemente a que la paloma se decidiera a empujar la pelota en la dirección de los bolos para darle un premio y reforzar así su conducta.  Sin éxito. En palabras del propio Skinner, “aunque teníamos todo el tiempo del mundo, nos cansamos de esperar.”[4] A fin de cuentas, jugar a los bolos no es un proceso tan sencillo como pudiera parecernos a simple vista. Veamos:

  1. Existen 3 elementos básicos a reconocer: bolos, bola y pista.
  2. El único elemento que le está permitido tocar al jugador es la bola.
  3. El jugador no puede acceder a la pista.
  4. Los bolos sólo pueden ser derribados mediante contacto con otros bolos o con la bola.
  5. El objetivo es derribar los bolos.

 

No hace falta decir que estas cinco reglas son por completo ajenas a cualquier instinto que un ave pueda experimentar jamás, y sin duda su resolución completa supone un enorme desafío. De modo que, en lugar de esperar a que completara de manera exitosa toda una secuencia [empuje de bola – espera para ver el impacto con los bolos – impacto con los bolos], los investigadores decidieron recompensar al animal por cada pequeñísima acción que le acercara a la consecución de la tarea, por nimia que fuera dicha acción. Por ejemplo, mirar en dirección a la bola. Comenzando por premiar esa conducta, y avanzando de manera progresiva (premiando el contacto con la bola, premiando que la empujara en la dirección correcta, etcétera), las palomas lograban dominar el juego de bolos en cuestión de minutos. 

Skinner acuñó en la década de los 50 esta idea bajo el nombre de shaping[3], refiriéndose con ello a la técnica para implantar conductas complejas mediante recompensas simples, tan simples que pudieran ser entendidas como una serie de aproximaciones sucesivas al comportamiento deseado. Durante toda su vida, Skinner hablaría de esta experiencia como una de los mayores momentos de iluminación vital de su vida.

Tan impresionante fue la experiencia que uno de los colaboradores y su mujer, Marian y Keller Breland, dejaron sus carreras académicas para comenzar una pionera empresa de adiestramiento de animales, la Animal Behavior Enterprises[5], la cual disfrutó de un éxito mundial, sentando las bases de prácticamente cualquier técnica de adiestramiento de animales en la actualidad. Y sólo por añadir una nota de humor, sepan que palomas entrenadas para detectar la presencia de cáncer de mama en imágenes médicas alcanzan precisiones de cerca del 99%, muy por encima de cualquier humano o IA. A ver si esa va a ser la auténtica revolución que está por venir…

Cerebros de silicio 

También en 1943, a la par que Skinner descubría cómo enseñar de manera eficiente a sus aves a jugar a los bolos, Warren McCulloch (1898 – 1969) y Walter Pitts (1923 – 1969) presentaban el primer modelo computacional de una neurona artificial[6]. Remotamente inspirado en la estructura general de las neuronas biológicas, las mejoras introducidas posteriormente por Frank Rosenblatt (1928 – 1971), Marvin Minsky (1927 – 2016) y Seymour Papert (1928 – 2016) permitieron a las primeras redes neuronales artificiales de la historia afrontar problemas con cierta complejidad, y no meros acertijos lógico-matemáticos. Y lo más importante, Rosenblatt las dotó en 1958 de mecanismos para adaptarse y presentar respuestas más precisas a medida que aprendían, extendiendo así el posible rango de aplicación de esos modelos[7].

Llegados a este punto, la pregunta del millón es, ¿cómo es posible que una máquina – máxime un ordenador de los de hace seis décadas – sea capaz de mejorar sus respuestas para un problema dado de manera automática, simplemente viendo los datos que se le presentan? Pues evidentemente, bebiendo de la psicología, y replicando los mecanismos de recompensas y castigos que tan buen resultado han dado en animales y personas – al respecto, quizás no esté de más recomendar la lectura de Lingua Tertii Imperii, de Viktor Klemperer, un trabajo excelente acerca de los métodos empleados por el régimen del 3er Reich para alterar el uso del idioma alemán y reforzar con ello el ideario nacionalsocialista. 

Skinner trabajó durante muchos años en el desarrollo de esquemas de recompensas que pivotaban alrededor del concepto de frecuencia. A la hora de inculcar un aprendizaje dado, los premios podían otorgarse de dos maneras: o bien se proporciona una recompensa de forma inmediata en base al ratio de acierto o error cometido, o bien se deja al alumno mayor rango de libertad para elegir varias veces, y sólo después de un cierto intervalo se le ofrece una indicación de si se ha equivocado. A grandes rasgos, esta diferencia define dos de los grandes paradigmas de aprendizaje en el campo de las IAs: el aprendizaje supervisado, donde corregimos de manera continua a nuestros algoritmos, y el aprendizaje por refuerzo, en el cual tan sólo de manera esporádica se corrige al sistema. El paradigma restante, el aprendizaje no supervisado, puede considerarse está más relacionado con métodos estadísticos, y no por tanto nos aleja de nuestra discusión principal aquí.

Aprendizaje supervisado, o supervised learning. En este caso, los problemas a solucionar necesitan estar muy bien definidos, de tal forma que a cada estímulo de entrada (ya sea una imagen, un segmento de audio, un texto…) le podamos asociar una etiqueta, que constituirá lo que consideramos debería ser la respuesta correcta del modelo. Al entrenar dicho sistema, se le presenta de manera continua estímulos de entrada para los cuales va a emitir, por separado y de manera independiente, una predicción. Luego se compara esa predicción con la etiqueta correspondiente, de tal forma que la diferencia entre ambas (esto es, el error en la predicción) supone una suerte de “castigo” para el modelo, que actualiza sus parámetros de cara a la siguiente predicción en una magnitud proporcional a dicho error. Representa el método de aprendizaje seguido por la inmensa mayoría de IAs actuales: reconocimiento de rostro, conducción autónoma, modelos predictivos y análisis de riesgos, síntesis y reconocimiento de voz… Los diseñadores de modelos de IA supervisada buscan definir modelos que aprendan de la manera más precisa posible la relación existente entre los datos de entrada y las etiquetas.

Aprendizaje por refuerzo, o reinforcement learning. Acorde con el segundo de los modos de aprendizaje, aquí las recompensas se presentan de manera esporádica. Por ejemplo, en un modelo de IA que juegue al ajedrez, puede que la única indicación sea saber si has ganado o perdido la partida al final de la misma, tras haber tomado toda una serie de decisiones acerca de los movimientos a seguir. Al depender no sólo de las decisiones del agente que aprende, sino también de cómo responde el entorno, este paradigma supone en la mayor parte de los casos la necesidad de reformular el problema a resolver de manera acorde, lo cual no siempre es posible. En reinforcement learning, lo más importante es diseñar, a la manera de Skinner, un adecuado régimen de recompensas y premios que permitan al agente ir descubriendo poco a poco cuál es la tarea que se le exige, así como la manera óptima de llevarla a cabo

Con las ideas descritas hasta aquí llegamos a un punto de inflexión en la historia de la IA. Por el momento, las influencias en su desarrollo provenían casi exclusivamente de la psicología y de la neurociencia. Grandes mentes como Freud, Pavlov, Skinner, Thorndike nos permitieron observar el proceso de aprendizaje de humanos y animales como un problema científico, descomponible en sus partes. La IA nos proporcionó un campo de pruebas sobre el que observar de manera simplificada esos procesos y validar así sus teorías. Sin embargo, la IA no lograba despegar. El siguiente gran hito vino de la mano de la teoría de la evolución de Charles Darwin.

Referencias

[1]: Skinner, B. F. (1960). Pigeons in a Pelican.

[2]: Thorndike, E. L. (1905). The elements of psychology. A G Seiler.

[3]: Skinner, B. F. (1951). How to teach animals. Scientific American, 185(6), 26–29.

[4]: Peterson, G. B. (2004). A day of great illumination: B.F. Skinner’s discovery of shaping.  Journ. Of the Experimental Analysis of Behavior, 82(3), 317 – 328.

[5]: Bailey RE, Gillaspy JA Jr. Operant psychology goes to the fair: Marian and Keller Breland in the popular press, 1947-1966. Behav Anal. 2005;28(2):143-59.

[6]: McCulloch, W. S., & Pitts, W. (1943). A logical calculus of the ideas immanent in nervous activity. The Bulletin of Mathematical Biophysics, 5(4), 115 –133.

[7]: Rosenblatt, F. (1958). The perceptron: A probabilistic model for information storage and organization in the brain. Psychological Review, 65, 386 – 408. 

 

Compartir :

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

¿Alguna pregunta?

Para más información sobre lo que hacemos, ponte en contacto con nosotros.

¡Gracias!

Sin la colaboración de todos ellos, Foro de Foros no sería posible.

Próxima actividad:

Beers & Movies

25 de junio

Cines Verdi

Días
Horas
Minutos