Algoritmos y Lenguaje Humano

Algoritmos y Lenguaje Humano

Algoritmos y Lenguaje Humano

GPT-3 saltó a la fama hace ahora algo más de un año por ser capaz de generar texto indistinguible del que producirían escritores humanos en términos de coherencia, léxico y respeto a las reglas gramaticales. Sin embargo, este modelo de lenguaje también ha mostrado tendencias a escribir de manera ofensiva o racista. Ahora que se encuentra abierto al público general, es bueno entender qué podemos esperar de él si decidimos incluirlo en nuestras aplicaciones.

Además, tenemos noticias patrias para congratularnos. Desde aquí felicitamos al Barcelona Supercomputing Center y al resto de actores involucrados en desarrollar el mayor modelo de lenguaje en español hasta la fecha, tan sólo por detrás de otros en inglés o chino mandarín, posicionando nuestro idioma en el podio en cuanto a recursos computacionales disponibles de manera gratuita.

Para qué sirve o qué es un modelo de lenguaje, por qué es importante disponer de modelos avanzados en nuestro idioma, o cómo es posible que dichos modelos presenten sesgos racistas serán el tema de hoy. Sin más preámbulo, ¡adelante con otro número de Catch.batches!

“Todo lo que sea leer, bueno es”

 La capacidad de entender, procesar e interpretar el lenguaje humano, tanto hablado como escrito, constituye uno de los pilares más importantes de cualquier civilización humana, y es sabido que gran parte de lo que llamamos la personalidad de un individuo está fuertemente influida por los recursos lingüísticos y literarios a los que hayamos sido expuestos. Mis padres me repetían a menudo la frase que da título a la sección, estimulando así que desde pequeño leyera todo lo que llegara a mis manos. De manera análoga, los actuales sistemas de Inteligencia Artificial aprovechan las ingentes cantidades de información en forma de lenguaje escrito disponibles en Internet para aprender cómo se estructura el mismo.

De manera pareja, la complejidad y el número de parámetros a aprender por estos algoritmos ha crecido en ciertos casos hasta alcanzar proporciones titánicas. Al aumentar tanto el tamaño de estos modelos como la cantidad de información a la que se exponen al entrenarse, los resultados observados superaron cualquier resultado previo. El último gran hito tuvo lugar durante el verano pasado, cuando un modelo de lenguaje fue capaz de generar textos que resultaban indistinguibles de los que escribirían un ser humano real.

El reinado de GPT-3

 Basta decir que la función de autocompletar del teclado de su teléfono, las sugerencias hechas al realizar una búsqueda en Internet, o las líneas azules y rojas que aparecen al editar un documento descansan en lo que denominamos modelos de lenguaje, probablemente uno de los algoritmos con mayor presencia en todo tipo de aplicaciones. Desde una perspectiva conceptual, los modelos de lenguaje aprenden a predecir la palabra más probable dentro de un contexto u oración. Por ejemplo, sugerir la palabra “ventana” en lugar de “gato” si el contexto es “¡cierra la ___, que hace frío!”. El mismo procedimiento se puede emplear secuencialmente para crear un escrito completo.

Pero aparece un primer problema; para una persona promedio, la relación simbólica que existe entre ventana y frío es inmediata, posibilitando que respondamos sin atisbo de duda. No así para un sistema automático, para el cual cada palabra es sencillamente una combinación de caracteres alfanuméricos sin ningún significado específico. La abrumadora mayoría de sistemas actuales funcionan de modo probabilístico, esto es, aprendiendo la gramática de un idioma como el patrón que emerge al observar cantidades gigantescas de texto. Combinando 590 GB de puro contenido textual con un sistema de 175 mil millones de parámetros, la compañía OpenAI mostraba en el verano de 2020 un modelo que denominaron GPT-3[1], el cual además de ser el mayor sistema de A.I. del mundo en cuanto número de parámetros (actualmente desbancado por un homólogo suyo chino[2]), era capaz de escribir de manera automática blogs y noticias tal como lo haría un humano. Con todo lo bueno y lo malo que acarrea eso.

A consecuencia del tipo de textos que dicho modelo había observado al aprender, procedentes de páginas web como WIkipedia pero también de foros como Reddit, los desarrolladores que tenían acceso al modelo en su versión beta observaron que en los textos generados existía una leve tendencia a relacionar el Islam con violencia[3], a ignorar claros indicios de dolencias graves en conversaciones de tipo médico, o a usar un lenguaje poco apropiado e incluso ofensivo[4, 5] al usarse como componente en un chatbot genérico.

Ahora que acaban de permitir el acceso al modelo por parte de todo usuario[6], es buen momento para que la comunidad investigadora, así como instituciones y proyectos de todo el mundo, puedan aprovecharse de las enormes capacidades que este sistema tiene, ya que su inclusión en complejos mayores puede dar lugar a aplicaciones tan útiles como ilimitadas.

¿Y si quiero usarlo en castellano?

 Si un modelo no está adaptado al lenguaje que se va a utilizar por los usuarios, no sirve de nada. Sencillamente dicho sistema no es capaz de reconocer los patrones lingüísticos de este nuevo idioma al que no se ha enfrentado antes.

Así, mientras que otros campos como la Visión por Computador se ven poco o nada afectados por diferencias geográficas, los usos centrados en herramientas de Procesamiento del Lenguaje Natural (P.L.N.) experimentan fuertes limitaciones.

Por ello es importante destacar los esfuerzos realizados por el Barcelona Supercomputing Center, la Biblioteca Nacional y la Secretaría de Estado de Digitalización e Inteligencia Artificial. Juntos han colaborado para colocar al idioma español a la vanguardia de recursos computacionales disponibles con el proyecto MarIA[7]El objetivo es proporcionar a la comunidad hispanohablante las herramientas necesarias para llevar a cabo cualquier proyecto en el cual un correcto procesamiento de nuestro idioma materno sea necesario.

Uno de los aspectos que más han llamado nuestra atención es el tratamiento y la procedencia de los datos usados para entrenar modelos de lenguaje en español; las fuentes provienen de un archivo recogido durante 10 años por la Biblioteca Nacional, en un esfuerzo meritorio por obtener modelos que reflejen la realidad de nuestro idioma, a la par que minimizando posibles sesgos indeseados, como los acontecidos con GPT-3. Todos los modelos desarrollados dentro de esta iniciativa están disponibles gratuitamente a través de su repositorio oficial.

¡Pero es que el español está de moda!  Recientemente nos enterábamos de que Microsoft y otras empresas del sector a nivel internacional están trabajando con la Real Academia Española para incorporar el conocimiento acumulado por la institución dentro de los sistemas de Procesamiento del Lenguaje Natural, todo ello dentro del marco del programa LEIA.

¡Un mes en el que sin duda tenemos excelentes noticias para todos los que nos expresamos en la lengua de Cervantes!

 Los algoritmos carecen de creatividad y de originalidad

 Sí generan texto original, en cuanto a que un modelo de lenguaje (correctamente entrenado) no copia de manera explícita ninguna muestra anterior. Sin embargo, es importante resaltar que tampoco podemos hablar de originalidad y creatividad como lo haríamos de una persona. Por definición, los actuales modelos de lenguaje no cuentan con estructuras para asignar significados nuevos a palabras ya existentes, o de inventarse términos con un significado concreto a la hora de crear contenido.

Su estructura interna, y el modo en que son entrenados, simplemente les incapacita para acceder a ese tipo de abstracciones inherentes al lenguaje común.

 ¿Acaso I.A. no comprende el humor, la ironía, o las ofensas?

 En efecto, los actuales sistemas de que disponemos son en su abrumadora mayoría absolutamente incapaces de lidiar de manera remotamente satisfactoria con cualquiera de estos aspectos del lenguaje, dependientes tanto del contexto como de la intención del emisor.

Como bien apunta el célebre investigador y divulgador científico Gary Marcus (autor de numerosos libros en el tema) en una entrevista para el Carnegie Council [8], una de las principales limitaciones de los sistemas de I.A. más famosos es que carecen por completo de la capacidad de aprender relaciones simbólicas, limitándose a reconocer relaciones estadísticas entre palabras. Esa limitación intrínseca al tipo de modelos empleados supone una seria barrera al desarrollo de modelos que puedan lidiar con el humor, la sátira y otras sutilezas del lenguaje de manera satisfactoria.

 

REFERENCIAS:

 [1]: Brown, T.B., Mann, et al. (2020). Language Models are Few-Shot Learners. ArXiv, abs/2005.14165.

[2]: ​​Huo, Y. et al. (2021). WenLan: Bridging Vision and Language by Large-Scale Multi-Modal Pre-Training. ArXiv, abs/2103.06561.

[3]: Abid, A., Farooqi, M. & Zou, J. Large language models associate Muslims with violence. Nat Mach Intell 3, 461–463 (2021). https://doi.org/10.1038/s42256-021-00359-2

[4]: OpenAI’s GPT-3 Speaks! (Kindly Disregard Toxic Language) by  Eliza Strickland. IEEE Spectrum. 1 de Febrero de 2021. Disponible online: https://spectrum.ieee.org/open-ais-powerful-text-generating-tool-is-ready-for-business

(visitado por última vez el 25 de Noviembre de 2021).

[5]: McGuffie, K., & Newhouse, A. (2020). The Radicalization Risks of GPT-3 and Advanced Neural Language Models. ArXiv, abs/2009.06807.

[6]: https://openai.com/blog/api-no-waitlist/ (visitado por última vez el 30 de Noviembre de 2021)

[7]: Guti’errez-Fandino, A., Armengol-Estap’e, J., Pàmies, M., Llop-Palao, J., Silveira-Ocampo, J., Carrino, C.P., Gonzalez-Agirre, A., Armentano-Oller, C., Rodríguez-Penagos, C., & Villegas, M. (2021). Spanish Language Models. ArXiv, abs/2107.07253.

[8]: Time for an Honest Scientific Discourse on AI & Deep Learning, por Anja Kaspersen. Carnegie Council for Ethics in International Affairs. 3 de Noviembre de 2021. Disponible online: https://www.carnegiecouncil.org/studio/multimedia/20211103-honest-scientific-discourse-ai-deep-learning-gary-marcus (visitado por última vez el 20 de Noviembre de 2021).

Food for Thought es una publicación  semanal que incluye: una reflexión en la que colocamos el foco sobre un aspecto distinto del mundo. Es un espacio para conocer puntos de vista distintos, reflexiones para el diálogo, preguntas que se quedan en el tintero. 

Ver todos nuestros Food for Thought

Educational Pitch de Foro de Foros

Nuestro principal objetivo es dotar de conocimiento a la sociedad civil siendo puente para el diálogo

Descargar

Compartir :

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

¿Alguna pregunta?

Para más información sobre lo que hacemos, ponte en contacto con nosotros.

¡Gracias!

Sin la colaboración de todos ellos, Foro de Foros no sería posible.

Próxima actividad:

Beers & Movies

25 de junio

Cines Verdi

Días
Horas
Minutos