Algoritmos y placer

La dopamina, como regulador del placer, es vital en nuestras vidas y en nuestro aprendizaje. Su papel en el cerebro humano, gérmen del reinforcement learning, revolucionó nuestra concepción del aprendizaje humano.

Hace no mucho la empresa norteamericana Boston Dynamics publicaba un vídeo en el que mostraban cómo uno de sus robots es capaz de saltar, correr y hacer piruetas en el aire con una fluidez de movimientos nunca antes vista en un sistema mecánico. El documental de 2017 AlphaGo – disponible su versión íntegra en Youtube, y muy recomendado de ver si todavía no lo han hecho – narra la historia de cómo el mejor jugador de Go del mundo (el equivalente asiático al ajedrez) fue derrotado sin paliativos por una Inteligencia Artificial (IA). Hace tan sólo diez años sugerir la posibilidad de que una IA fuera capaz de predecir con acierto la estructura 3D de casi cualquier proteína conocida por los científicos (como en efecto hace la IA AlphaFold) hubiera sido propio de un cuento de ciencia-ficción. Estos ejemplos son una realidad gracias a las técnicas de reinforcement learning empleadas en IA, y que en cierto modo imitan nuestra incansable búsqueda de placer constante.

Aprendemos más rápido y mejor aquello que nos gusta

Todos hemos oído alguna vez aquello de “la letra, con sangre entra”, pero por lo general procuramos aprender aquello que nos gusta y que nos resulta placentero. Esto se aplica también a nuestros comportamientos. Desarrollamos nuestras rutinas, en la medida de lo posible, para maximizar las sensaciones positivas que recibimos a lo largo del día, y evitar tanto como podemos las experiencias negativas. Esta tendencia humana por priorizar el placer por encima del dolor era bien conocida para los filósofos griegos (¡cómo olvidar a los hedonistas!), pero fue el famoso padre de la psicología moderna, el austríaco Sigmund Freud (1856 – 1939), quien comenzó a plantear el fenómeno como un asunto científico en su “Principio del placer” ^[1]: que todo ser humano tiende a desarrollar conductas que le reportan sensaciones placenteras mientras repelemos todo aquello que nos resulta doloroso.

Edward Thorndike (1874 – 1949), alumno en Harvard de William James, el archienemigo intelectual de Freud, profundizaría sin embargo en esta idea, sentando las bases para toda teoría del aprendizaje del siglo XX. Su “Ley de efecto”, publicada en 1905 ^[2], es simple en su raíz: si una acción que tomamos es seguida por una consecuencia percibida como positiva y satisfactoria, es más probable que repitamos dicha acción en el futuro. De manera similar, si a una acción le sigue un sentimiento negativo o doloroso, las probabilidades de repetir esta acción en un contexto similar se reducen. Esta teoría sería fuente directa de inspiración para el célebre psicólogo ruso Ivan Pavlov (1849 – 1936), quien publicaría en 1927 su obra Los Reflejos Condicionados en inglés ^[3]. Pavlov estaba interesado en conocer cómo el cerebro anticipa la obtención de un estímulo agradable – esto es, una recompensa – y qué efecto tenía ello en el proceso de aprendizaje. Su resultado más conocido es aquel según el cual los perros con los que experimentaba comenzaban a salivar no ante la presencia de comida, sino al escuchar un sonido que anticipaba la llegada de esta comida. Él interpretaba que los perros habían aprendido a reconocer que tras ese sonido, inevitablemente llegaría la recompensa en sí, y de ahí la profusa salivación de los canes. Un alumno de Thorndike, Burrhus Frederick (B.F.) Skinner (1904 – 1990) llevaría estas ideas a la experimentación con humanos, desarrollando técnicas para modificar de manera deliberada la conducta de las personas. El Conductismo que él fundó sigue siendo enseñado en facultades de psicología de todo el mundo como un conjunto de herramientas psicológicas para enseñar a los individuos a adaptar su conducta en base a la consecución de recompensas asociadas a acciones concretas.

Pero a los científicos nos gusta cuestionarlo todo, ¡maldita costumbre la nuestra! Es por ello que pese al éxito cosechado por las técnicas de Skinner, continuamos buscamos la manera de ubicar los mecanismos encargados de asociar estímulos, acciones y respuestas en nuestro cerebro. A fin de cuentas, ¿cómo se almacena recompensa positiva en una neurona?

Un mapa neuronal del placer

James Olds (1922 – 1976) y Peter Milner (1919 – 2018), ambos en la McGill University de Montreal, Canadá, trabajaron con devoción durante la década de los años 50 para encontrar los “centros del placer” del cerebro ^[4]. Para ello, conectaron electrodos en posiciones específicas del cerebro de ratas, a las cuales entrenaron para accionar una palanca. Esta palanca liberaba una ligera descarga eléctrica en uno de los electrodos, elegido a discreción por los investigadores. A base de seleccionar y estimular las diversas regiones del cerebro de las ratas, Olds y Milner buscaban encontrar áreas particularmente relacionadas con cambios en el comportamiento de los animales. Y aunque la mayor parte de los electrodos no conllevaban un cambio aparente en la conducta de las ratas, sí encontraron regiones específicas que provocaban en los animales cambios súbitos, como activar la palanca 5000 veces por hora o no hacer otra cosa durante 24 horas de manera ininterrumpida. En otras palabras, una corriente eléctrica inyectada en ciertos puntos del cerebro podía llevar a un comportamiento adictivo, donde el animal olvidara todo lo demás salvo obtener una nueva dosis de recompensa. El trabajo de Olds y Milner se vería complementado por el descubrimiento un año más tarde, en 1957, de la dopamina.

No entraremos aquí a desgranar la naturaleza, función y mecanismos de este neurotransmisor. A menudo la cultura popular se refiere a la dopamina como “la hormona de la felicidad”, ya que es una sustancia que liberamos especialmente cuando realizamos actividades placenteras como el sexo, pero también mediante el ejercicio, al escuchar música o incluso cuando alcanzamos las metas que nos proponemos. Siendo tan dispares las fuentes de liberación de dopamina – incluso mirar a los ojos a tu perro produce esa sensación placentera – ¿qué representa realmente la dopamina, y a qué proceso cognitivo obedece?

Esa fue la pregunta que durante cerca de veinte años atormentó al científico alemán Wolfram Schultz (1944), quien diseñó una serie de experimentos con primates para entender qué papel concreto juega la dopamina en el proceso de aprendizaje ^[5]. Los simios debían alcanzar una cajita cercana que contenía comida, la cual permancía cerrada (y por tanto, inaccesible) hasta que una señal lumínica indicaba la apertura de la misma. Progresivamente, igual que los perros de Pavlov, los monos aprendían a relacionar la señal con la recompensa que la seguía. Schultz registró los niveles de dopamina liberadas en los cerebros de los animales, relacionando así este neurotransmisor con cada una de las acciones tomadas por ellos. Al principio, todo encajaba con la teoría pavloviana: inicialmente, los monos liberaban dopamina sólamente cuando recibían la recompensa. Sin embargo, a medida que aprendían la relación entre la señal de luz y la obtención de comida, el pico de dopamina se desplazaba hacia la señal, no existiendo ninguna reacción cuando tras la misma se lograba la comida. Es decir, el aprendizaje había sido condicionado y ahora los primates se emocionaban no ante la recompensa en sí, sino ante la expectativa de la misma.

Todo cambiaba cuando tras la señal lumínica no había comida en la caja. Cuando eso sucedía el animal liberaba dopamina al ver la señal previa, anticipando de manera normal la recompensa, pero al comprobar que no existía tal premio… Sus niveles de dopamina caían en picado, más allá de lo que cualquier teoría existente podía explicar. En sus experimentos, Schultz había comprobado que la dopamina no representaba exactamente una señal de recompensa, entendida como un premio. Tampoco era exactamente sorpresa o excitación, porque entonces no se explicaría la “dopamina negativa” que observaba cuando retiraba la recompensa del experimento. Parecera por tanto que la dopamina actuaba como una suerte de estimación, pero ¿estimación de qué?

La IA y sus expectativas

En la época de los experimentos de Schultz descritos arriba, la IA era ya un campo de investigación fértil y asentado, si bien todavía restringido en gran medida a círculos académicos. Warren McCulloch (1898 – 1969) y Walter Pitts (1923 – 1969) habían presentado en 1943 un primer modelo de neurona artificial, y Arthur Samuel en 1959 había ya definido el machine learning (aprendizaje de máquina o aprendizaje automático en castellano) como la capacidad de un sistema computacional – ergo, una máquina – de aprender por sí misma a resolver un problema concreto para la cual no tuviera instrucciones precisas por parte de su programador ^[6].

La investigación en IA siempre ha bebido de los últimos avances en neurociencia para desarrollar sus propuestas, pero esta vez el flujo se invertiría, y sería la IA la que daría la respuesta a las dudas de Schultz acerca de la naturaleza de la dopamina en el cerebro.

Harry Klopf era investigador dentro de una sección de la Air Force americana mientras rumiaba sus ideas acerca de cómo todo proceso de aprendizaje podría resumirse en la maximización de una recompensa en forma de dopamina, y cómo llevar esta poderosa idea a un sistema computacional. Sus pensamientos, publicados en 1982 bajo el título “La Neurona Hedonista”, dejan poco lugar a la interpretación. En su afán de llevar a la práctica sus teorías, encargó a dos alumnos suyos, Andrew Barto y Richard Sutton, convertir estas nociones de neurociencia en un cuerpo matemático formal. Su éxito fue absoluto.

Barto y Sutton se dieron cuenta de que, una vez un agente aprende una tarea, esto es, comprende qué secuencia de acciones y estados lleva a una recompensa óptima, el problema puede descomponerse en toma de decisiones (o acción) y estimación de la recompensa. Pensemos en un jugador de ajedrez. En ese entorno, el agente busca ganar la partida a su oponente. Para ello dispone de una serie de piezas que obedecen a una reglas definidas, las cuales debe posicionar a cada paso teniendo en cuenta no sólo sus propias acciones pasadas, sino los movimientos imprevisibles del adversario, los cuales modulan las posibilidades esperadas de victoria. Si el jugador conociera en cada turno la decisión óptima a jugar sería inevitable que ganara siempre. Igualmente, si a cada instante el jugador sabe qué posiciones del tablero le acercan de manera segura a la victoria final, tomaría cada decisión consecuentemente y ganaría. Sin embargo, en el mundo real es imposible disponer de toda esa información. Mucho menos calcularla con ordenadores de la época.

Por tanto, Sutton y Barto desarrollaron el método de las Diferencias Finitas (TD por sus siglas en inglés) ^[7]. Bajo este paradigma de aprendizaje de máquinas, en un inicio el agente computacional toma decisiones sin saber muy bien qué esperar de cada una. En otras palabras, no conoce la recompensa asociada a cada acción, y por tanto no puede estimarla. A medida que el agente prueba alternativas, es capaz de realizar estimaciones de la recompensa. No obstante, el agente no es un demiurgo que conozca el estado absoluto del entorno en que se maneja, sino que sólo puede reaccionar a lo que observa. De nuevo, nosotros podemos elegir si mover el caballo o el alfil, pero no qué hará el rival. Más importante aún, tras cada acción, evaluamos de nuevo nuestra situación, y ajustamos de manera acorde nuestras expectativas. Por continuar con la analogía: podemos haber desarrollado una jugada que nos parece asegura la victoria. De repente, el jugador contrario mueve pieza y nos hace un jaque que desbarata todos nuestros planes. Más nos valdrá ajustar nuestra estrategia o es seguro que perderemos. Este método de TD permite a los sistemas de IA aprender mediante una dinámica parecida a la observada en el caso de la dopamina. Actúa bien, toma las decisiones correctas, y serás premiado. Pero más interesante, equivócate en la estimación hecha, y serás castigado.

Casualidades de la vida, alumnos de Sutton y Barto entraron en contacto con el trabajo de Schultz, y rápidamente identificaron el hueco en la teoría de éste. El problema de la “dopamina negativa” era uno de error en la expectativa de recompensa. La dopamina representaba no ya la recompensa, no ya la estimación de la misma, sino el error cometido al estimar cuánta esperar. El algoritmo que tan bien funcionaba sobre el papel, y que había sido un éxito en IAs, había sido encontrado también en el cerebro. El aprendizaje por TD no sólo asemejaba la función de la dopamina. Era la función de la dopamina ^[8].

Referencias:

[1]: Moccia L, Mazza M, Di Nicola M, Janiri L. The experience of pleasure: A perspective between neuroscience and psychoanalysis. Front Hum Neurosci. 2018;12:359. doi:10.3389/fnhum.2018.00359

[2]: Thorndike, E. L. (1905). The elements of psychology. A G Seiler. https://doi.org/10.1037/10881-000

[3]: Pavlov PI. Conditioned reflexes: An investigation of the physiological activity of the cerebral cortex. Ann Neurosci. 2010 Jul;17(3):136-41. doi: 10.5214/ans.0972-7531.1017309. PMID: 25205891; PMCID: PMC4116985.

[4]: Olds, James. “Pleasure Centers in the Brain.” Scientific American, vol. 195, no. 4, 1956, pp. 105–17. JSTOR, http://www.jstor.org/stable/24941787. Accessed 8 June 2023.

[5]: Mirenowicz J, Schultz W. Importance of unpredictability for reward responses in primate dopamine neurons. J Neurophysiol. 1994 Aug;72(2):1024-7. doi: 10.1152/jn.1994.72.2.1024. PMID: 7983508.

[6]: A. L. Samuel, «Some Studies in Machine Learning Using the Game of Checkers,» in IBM Journal of Research and Development, vol. 3, no. 3, pp. 210-229, July 1959, doi: 10.1147/rd.33.0210.

[7]: Sutton, R. S., & Barto, A. G. (2018). Reinforcement learning: An introduction. MIT press.

[8]: Peter Dayan and L. F. Abbott. (2005). Theoretical Neuroscience: Computational and Mathematical Modeling of Neural Systems. MIT Press.

Deja una respuesta Cancelar la respuesta

Últimas noticias

Los jóvenes se distancian

abril 18, 2024

Nuevamente una gran oportunidad de conversar, escuchar, convivir y disfrutar, gracias a BEERS & MOVIES – III

abril 14, 2024

El tiempo nos irá alumbrando el camino para mantener una armónica convivencia de los verdaderos sentimientos y los artificiales

abril 9, 2024

¿Alguna pregunta?

Para más información sobre lo que hacemos, ponte en contacto con nosotros.

¡Gracias!

Sin la colaboración de todos ellos, Foro de Foros no sería posible.

Próxima actividad:

Beers & Movies

25 de junio

Cines Verdi

Días

Horas

Minutos

Algoritmos y placer