Sobre las cadenas de Markov

 Ricardo Kleinlein

Octubre 1, 2024

 

Sobre las cadenas de Markov

En los últimos compases de la Rusia zarista, un hombre supo ver que el futuro es una extensión de las posibilidades actuales, desarrollando un modelo matemático fundamental en la historia de la Inteligencia Artificial (IA).

Recientemente, un destacado CEO de una de las mayores empresas tecnológicas del mundo predijo que, en cuestión de unas pocas décadas, él y su compañía serían capaces de desarrollar una Inteligencia Artificial General (IAG). De llegar a existir, esta IAG representaría el punto en que las máquinas superarían, en todos los aspectos, la capacidad humana para idear, razonar e imaginar. Sin embargo, permítanme señalar algo: los modelos actuales de IA se basan fundamentalmente en estadística, y parece poco probable que el cerebro humano funcione exclusivamente bajo estos principios.

La realidad es que, incluso en los modelos de IA más avanzados, existen limitaciones significativas, y no hay certezas claras sobre cuál debería ser el rumbo exacto de nuestras investigaciones. A menudo se tiende a pensar en la ciencia como una actividad puramente intelectual, gobernada por principios establecidos, formales y lógicos, que conducen a conclusiones inequívocas y, sobre todo, objetivamente verdaderas. Sin embargo, los científicos, como seres humanos, están inevitablemente influenciados por el contexto sociocultural en el que viven. Por ello, las teorías, los experimentos y las conclusiones de todo descubrimiento científico reflejan ese ambiente. Es crucial, por tanto, comprender de dónde surgen las ideas y cuál ha sido el trayecto que nos ha llevado a ciertos hitos tecnológicos. En esta ocasión, todo comienza con una partida de dados…

Tiradas independientes

Ya habíamos mencionado cómo la rama de las matemáticas que hoy conocemos como Teoría de la Probabilidad comenzó a tomar forma entre partidas de dados y juegos de azar. En efecto, todo indica que, hacia 1654, un aficionado a las matemáticas llamado Antoine Gombaud (apodado El Caballero de Mère) planteó a los gigantes intelectuales Pierre Fermat (1601-1665) y Blaise Pascal (1623-1662) un problema sobre cuál sería la mejor estrategia en un juego de azar entre dos jugadores cuando la partida se interrumpe antes de tiempo [1, 2]. Aún conservamos gran parte de la correspondencia entre ellos, en la que ambos se dieron cuenta de que, al lanzar los dados, el resultado no era completamente aleatorio, sino que obedecía a ciertas reglas estadísticas. Con muy buen criterio dada la naturaleza del problema, tanto Fermat como Pascal consideraron cada lanzamiento de los dados como un evento independiente, sin relación alguna con tiradas anteriores o futuras.

Menos de un siglo después, el zar Pedro I El Grande (1694-1725), tras múltiples viajes por Europa occidental, fundó en San Petersburgo la Academia de Ciencias (institución aún en activo), la cual rápidamente obtuvo prestigio internacional. Por sus aulas desfilaron grandes mentes como el matemático suizo Leonard Euler (1707-1783) y los hermanos Daniel (1700-1782) y Nikolaus (1695-1726) Bernoulli. Este último publicó en 1713, de manera póstuma, los trabajos de su tío Jacob Bernoulli en el campo de la estadística bajo el título Ars Conjectandi. Texto considerado por muchos como el primer texto formal de estadística, uno de sus principales contribuciones es la Ley de los Grandes Números, que establece que, al lanzar un dado (no amañado) un número infinito de veces, la proporción de veces que sale cada cara tenderá a ser igual para todas, es decir, obtendremos cada número una sexta parte de las veces. Aunque a simple vista parezca una idea elemental, proporcionar una demostración matemática rigurosa constituía en aquel entonces un desafío considerable.

En el siglo XIX, Rusia ya contaba con una sólida base de talento matemático propio, representada por figuras como Pafnuty Chebyshev (1821-1894), quien, entre otros logros, proporcionó una demostración rigurosa de la mencionada ley. Sin embargo, esta ley seguía considerando cada evento, como una tirada de dados, como una acción independiente, sin relación con otros eventos, ni siquiera dentro de una misma partida. Es fácil ver que tratar cada estado posible de un sistema como un evento independiente tiene sentido en el caso de los dados, pero no tanto en situaciones más complejas, como el ajedrez. ¿A alguien se le ocurriría mover las piezas en el tablero sin tener en cuenta lo que ha sucedido antes durante la partida? O pensemos en el clima: sabemos que existe cierta causalidad en la meteorología que hace que podamos esperar varios días lluviosos seguidos, o que durante el verano los días serán calurosos. No necesitamos asomarnos a la ventana cada mañana para saber si necesitaremos un abrigo o un bañador. En resumen, en muchos escenarios, la probabilidad de que algo suceda en el futuro inmediato depende principalmente del estado en que se encuentra el sistema en el presente.

«Una cadena de Markov es un modelo matemático en el que el siguiente estado de un sistema (ya sea una ficha en el un juego de mesa, la temperatura de una ciudad…»

A. Markov

Uno de los alumnos más destacados de Chebyshev fue Andrei Andreyvich Markov (1856-1922), originario de Ryazan, a unos 200 km de Moscú. De carácter temperamental desde su juventud, Markov fue un hombre profundamente dedicado al estudio de las matemáticas, lo cual puede haber sido una respuesta al contexto histórico en el que vivió: en su nacimiento, el Imperio Ruso seguía en proceso de anexar los kanatos remanentes de las hordas mongolas, y seis meses después de su muerte, el país ya habría sido transformado en la Unión de Repúblicas Socialistas Soviéticas. Nunca mostró grandes inclinaciones políticas [3], aunque siempre vio con ojos favorables a los revolucionarios (salvo cuando en sus últimos años, cuando tuvo que solicitar al Comité Central un par de zapatos para poder asistir a la Academia). Markov pudo ver cómo un país feudal, derrotado poco antes por Napoleón III y aún sujeto a las leyes de servidumbre para el campesinado, avanzaba imparable hacia la industrialización colectivista.

Desde temprana edad, Markov demostró una habilidad excepcional para las matemáticas (y poca para otras disciplinas), lo que lo llevó a ascender rápidamente en la Academia de Ciencias fundada un siglo y medio antes, alcanzando la posición de Profesor a los treinta años. Sin embargo, fue en 1913, tras su retiro de la vida pública y académica, cuando desarrolló su gran idea [4]. Su contemporáneo Ludwig Boltzmann, tres décadas antes, ya había utilizado leyes estadísticas para describir el comportamiento de los gases, explicando propiedades como el calor y la entropía [5]. Boltzmann trataba cada posible configuración de los átomos del gas como un evento independiente, enfocándose solo en la probabilidad de que el gas estuviera en uno de los millones de estados posibles. Con cada cambio en las condiciones del gas, era necesario recalcular todos los posibles estados. Sin embargo, Markov decidió centrarse en las probabilidades de que un sistema cambiara de estado, una idea que veinte años más tarde se conocería como “cadena de Markov”.

Una cadena de Markov es un modelo matemático en el que el siguiente estado de un sistema (ya sea una ficha en el un juego de mesa, la temperatura de una ciudad, o la próxima sílaba que pronunciemos) depende únicamente del estado presente. Estas cadenas se denominan así porque la relación entre el futuro y el presente es probabilística, creando conexiones posibles entre los diferentes elementos. En una cadena de Markov, estos elementos consisten en una serie de estados posibles (por ejemplo, un día soleado, nublado o lluvioso) conectados por transiciones con probabilidades asociadas. Siguiendo este ejemplo, sería razonable asumir que la probabilidad de pasar de un día lluvioso a uno nublado es mayor que la de pasar directamente a un día soleado. A menos que viva usted en Massachusetts.

El núcleo del modelo de Markov es la matriz de transición, que define las probabilidades de pasar de un estado a otro. Esta matriz —una cuadrícula de números, donde la posición (1, 2) está ocupada por un número que indica la probabilidad de pasar del estado 1 al estado 2— es suficiente para predecir cómo se comportará el sistema a lo largo del tiempo. Uno de los aspectos más fascinantes de las cadenas de Markov es que, salvo casos muy concretos, a medida que el sistema evoluciona, tiende hacia un estado estacionario o equilibrio. De esta manera, extiende la Ley de los Grandes Números al caso de variables dependientes: si dejamos que un sistema evolucione el tiempo suficiente, la probabilidad de que se encuentre en un estado determinado ya no dependerá del estado inicial.

«Por supuesto, las cadenas de Markov no suponen un punto final en nuestra capacidad de representar problemas con una componente causal»

Contando vocales, consonantes… Y más

Para demostrar la validez de su modelo de cadenas de probabilidad, Markov clasificó las primeras 20,000 letras de la obra maestra de la literatura rusa Eugene Onegin de Pushkin (1799 — 1837), analizando si correspondían a una vocal o a una consonante. Con una paciencia comparable a la de Penélope, esposa de Ulises, Markov contó 8,638 vocales frente a 11,362 consonantes, demostrando que la probabilidad de seleccionar una vocal al azar en el comienzo de Onegin es del 43%, en lugar del 50%, como cabría esperar si los estados «vocal» y «consonante» fueran independientes. Mediante la aplicación de su modelo, Markov logró estimar con precisión la probabilidad de que dos vocales aparecieran juntas o cuántas veces una consonante seguía a una vocal.

Reflexionemos sobre su método: Markov tomó un conjunto de datos, lo organizó en vocales y consonantes, los agrupó en parejas y contó cuántas veces ocurría cada uno de esos estados. Con ello, calculó las probabilidades correspondientes, determinando uno de los parámetros clave de su modelo. Una vez «entrenado», este modelo permitió predecir la ocurrencia de diferentes combinaciones en el texto. Pero vayamos más allá: no hay ninguna razón por la que una cadena de Markov deba limitarse a solo dos estados. De hecho, uno de los campos donde estos modelos han sido más utilizados, y donde siguen siendo esenciales, es en el reconocimiento y síntesis de voz, como en los sistemas de IA que impulsan dispositivos como Alexa o Siri [6, 7]. En este contexto, los elementos fonéticos de un idioma pueden considerarse como estados desde los cuales se transiciona a otros, siguiendo una probabilidad inicialmente desconocida. Si contamos con suficientes grabaciones y analizamos las transiciones entre fonemas, básicamente estamos entrenando un modelo capaz de codificar cómo se distribuye la fonética de un lenguaje, permitiéndonos reconocer o generar secuencias fonéticas similares, basándonos en esas mismas probabilidades encapsuladas. De hecho, cualquier sistema que pueda describirse como un conjunto de estados con transiciones posibles entre los mismos es susceptible de ser modelado como un modelo markoviano.

Por supuesto, las cadenas de Markov no suponen un punto final en nuestra capacidad de representar problemas con una componente causal. Así como criticamos a sus predecesores por considerar únicamente eventos independientes, podemos señalar que el trabajo de Markov se limita a una relación de causa-efecto que involucra solo el paso inmediatamente anterior. Esto es insuficiente para modelar muchos problemas complejos. Sin embargo, somos herederos de nuestro tiempo, y nuestro deber es continuar el trabajo de aquellos que nos precedieron. En futuras entregas, hablaremos de modelos regresivos y modelos de aprendizaje basados en energía. Por ahora, les dejo con esta reflexión: ¿cómo habría evolucionado el estudio de la estadística si, en lugar de estudiar juegos de azar (desarrollando por tanto teorías orientadas a conjuntos de eventos independientes) Pascal y Fermat hubieran abordado otro problema como, por ejemplo, el ajedrez?

Referencias:

[1]: Smith, David E., “A source book in mathematics” (1929), New York : McGraw-Hill Book Co.

[2]: Nightingale David, F., “Games, Gods, and Gambling” (1998), Dover Publications.

[3]: Basharin, G., Langville, A., and Naumov, V., “The life and work of A. A. Markov,” Linear Algebra and its Applications. Volume 386, pp. 3 —26, June 2004.

[4]: Markov, A. A. 1913. “An example of statistical investigation of the text Eugene Onegin concerning the connection of samples in chains”. (In Russian.) Bulletin of the Imperial Academy of Sciences of St. Petersburg 7(3):153–162. Unpublished English translation by Morris Halle, 1955. English translation by Alexander Y. Nitussov, Lioudmila Voropai, Gloria Custance and David Link, 2006. Science in Context 19(4):591–600.

[5]: Boltzmann, L.: 1979, Populäre Schriften, Friedr.Vieweg & Sohn, Braunschweig, DE. In German. Eingeleitet und ausgewählt von Engelbert Broda.

[6]: Q. Chen, Z. Guo, D. Zhu and H. Yu, The Research of Application of Hidden Markov Model in the Speech Recognition, 2021 IEEE International Conference on Power, Intelligent Computing and Systems (ICPICS), Shenyang, China, 2021, pp. 202-206.

[7]: K. Tokuda, Y. Nankaku, T. Toda, H. Zen, J. Yamagishi and K. Oura, «Speech Synthesis Based on Hidden Markov Models,» in Proceedings of the IEEE, vol. 101, no. 5, pp. 1234-1252, May 2013,

Ricardo Kleinlein

Post-Doctoral Research Fellow. Brigham & Women’s Hospital, Harvard Medical School. Amigo Foro de Foros

Ricardo Kleinlein

Educational Pitch de Foro de Foros

Nuestro principal objetivo es dotar de conocimiento a la sociedad civil siendo puente para el diálogo

Descargar

Compartir :

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

¿Alguna pregunta?

Para más información sobre lo que hacemos, ponte en contacto con nosotros.

¡Gracias!

Sin la colaboración de todos ellos, Foro de Foros no sería posible.

Próxima actividad:

Beers & Movies

25 de junio

Cines Verdi

Días
Horas
Minutos