Engañados por la IA: El carisma de un Deepfake

La Inteligencia Artificial ya es capaz de generar rostros absolutamente indistinguibles de la realidad. Es más, ninguna de las personas mostradas en la siguiente imagen existe.

No sólo eso, sino que un reciente estudio apunta a que los humanos somos proclives a otorgar más credibilidad a un rostro artificial que a uno genuinamente real. La tecnología de Deepfakes parece dirigirnos inexorablemente a un mundo en el que no podremos confiar en nada ni nadie que veamos a través de una pantalla. ¿Cómo defenderse ante ello? ¿Cómo regular, cómo ver las oportunidades y los riesgos que entrañan estas herramientas para nosotros mismos y para nuestra sociedad? En primer lugar, entendiendo el problema. ¡Y para eso está esta entrega de Catch.batches!

Figura 1. Rostros generados de manera automática por una Inteligencia Artificial. Los humanos somos capaces de detectar que son falsos aproximadamente la mitad de las ocasiones.

Para qué se utiliza actualmente

¿Cuándo llegará el día en que la Inteligencia Artificial se rebelará contra nosotros? Un ejército de robots asesinos, un ordenador central con ramalazos dictatoriales… La ciencia-ficción abunda en este tipo de escenarios, donde la supremacía del planeta se dirime en una confrontación directa entre humanos y máquinas. Pero ¿y si estos sistemas inteligentes hubieran leído a Homero? Es probable que en ese caso la computadora en cuestión llegara a la conclusión de que ganarse la confianza del rival es una ruta más rápida hacia la victoria, e ideara la manera de colar su propio caballo de madera en nuestras cabezas. Apostaría a que Usted confía antes en la imagen de una tierna y afable abuelita que en un la de un panel de control impersonal como Hal 9000, el robot de la película “2001: Odisea en el Espacio”. No obstante, Hänsel y Gretel ya nos advirtieron que una anciana no tiene por qué ser necesariamente bondadosa.

En la aclamada serie Black Mirror, la idea de recrear la personalidad de alguien fallecido mediante Inteligencia Artificial articula todo un capítulo: el personaje de Martha Atwood pierde a su amado, Ash, algo que ella no logra superar pese a sus mejores esfuerzos. Al final, hundida, sola y derrotada, decide contratar los servicios de una empresa que le promete que, tras acceder al histórico de mensajes entre ambos, podrán replicar la manera en que ambos conversaban por texto, y así simular su presencia, aunque ya no viva. Como explicamos en otra ocasión, ésta podría ser una realidad no muy lejana. Y no sólo en cuanto a texto. Hollywood nos mostró recientemente cómo hoy en día un actor puede permanecer en activo incluso después de fallecer. Carrie Fisher, la actriz que daba vida a la Princesa Leia en La Guerra de las Galaxias, nos dejaba en 2016. Pese a ello su personaje tuvo un papel relevante en una de las películas más recientes de la saga. Esto fue posible gracias sistemas computacionales entrenados para replicar la apariencia física de la actriz a partir de interpretaciones anteriores. Así, la hermana Skywalker continuó “viva” para alegría de sus seguidores más acérrimos.

Usos no tan loables

Lamentablemente la mayor parte de estas réplicas computacionales del aspecto de una persona (esto es, un Deepfakeno son usadas ni con fines artísticos, ni con el consentimiento adecuado. Entre los usos que suscitan más miedo están aquellos relacionados con la creación de noticias falsas. Las fake news, como también se las conoce, no son en absoluto un fenómeno nuevo. Ya desde hace años se trabaja sobre la base de que que diversas agencias vinculadas a Gobiernos extranjeros, como puede ser la rusa RT, dedican gran parte de sus esfuerzos a diseminar por el entorno de la Unión Europea noticias cuidadosamente diseñadas para confundir a la sociedad y debilitar al conjunto de los estados miembros[1]. Hasta ahora este es un problema limitado a textos escritos, pero cabe pensar qué ocurrirá cuando escuchemos a réplicas falsas de nuestros líderes políticos, indistinguibles de los originales, expresando la necesidad de ir a una guerra abierta, reconociendo abiertamente un escándalo de corrupción o propagando bulos sanitarios[2]. En combinación con la actitud de gatillo fácil tuitero que parece dominar la mentalidad política en nuestros días, es aterrador imaginar qué podría ocurrir en un contexto como el actual en la frontera ruso-ucraniana si se propagara un vídeo falso de Vladimir Putin llamando a las armas, o uno en que Joe Biden declarara abiertamente un comienzo de hostilidades. Incluso en el caso de que se descubriera la falsedad del material difundido, lo más probable es que pasara un tiempo precioso en que el escándalo desbordaría la situación previa hasta un punto de no retorno.

Existen personas que no ostentan un cargo de responsabilidad y quienes, por tanto, sienten que tampoco deben preocuparse por que un Deepfake suplante su identidad. Por el mismo motivo, descuidan por completo la ciberseguridad de sus contraseñas y claves, y no tienen reparo alguno en que multinacionales recopilen sus datos de navegación en Internet, incluidas fotografías y vídeos personales.  A fin de cuentas, ¿a quién le va a importar mi vida? Craso error. El mundo es un gran zoológico, y pese a que no puede darse una cifra exacta, todo apunta a que la mayoría de Deepfakes en Internet no se emplean para la difusión de mensajes de calado político o militar, sino para contenido pornográfico[3]. Esto ha sido alertado por diversas mujeres tras saberse que rostros reconocibles como el de Scarlett Johansson o Kristen Bell estaban siendo empleados a la manera de máscaras en vídeos de elevada carga sexual. Con el tiempo, muchas otras mujeres han descubierto vídeos similares en los que ellas eran las protagonistas involuntarias de vídeos de contenido adulto disponibles en Internet de manera totalmente pública, sin su consentimiento ni conocimiento.

Cómo se genera un Deepfake: Redes Generativas Adversariales

Aunque hay que constatar que la forja de un Deepfake creíble es el fruto de combinar modelos computacionales con el retoque y la supervisión de un humano, es cierto que gran parte del trabajo a la hora de generar un rostro convincente, con las características deseadas, proviene de la acción automática de una red neuronal entrenada específicamente para ello. Hoy en día, el método más extendido es utilizar un procedimiento de Redes Generativas Adversariales, o en inglés, Generative Adversarial Network (GAN)[4] Detrás de un nombre tan intimidante, se oculta simplemente una dinámica inspirada en economía; en concreto, en el equilibrio de Nash.

Estrenada hace ahora 21 años, la película de Ron Howard A Beautiful Mind (“Una Mente Maravillosa” en español) recorría la vida de quien ganaría posteriormente el Premio Nobel de Economía en 1994. Aquellos que la hayan visto recordarán ese momento en que, en lugar de seguirle el juego a sus compañeros de Universidad al acercarse a un grupo de chicas, él vive una epifanía: si todos se esfuerzan al máximo en lograr un mismo objetivo, se estorbarán entre ellos y ninguno logrará a la chica más deseada. Si por el contrario se reparten “objetivos” menos ambiciosos, aunque ninguno se quedará con el premio gordo, las probabilidades de recompensa serán mayores. Dicho en otras palabras, dentro de un juego con reglas fijas donde intervengan dos o más jugadores, es preferible que los objetivos de todos los participantes no sean los mismos, para así lograr en conjunto un mejor resultado para todos.

Siguiendo esa idea, y como puede verse en la Figura 2, podemos pensar en un esquema donde dos redes neuronales aprendan patrones diferentes, pero que combinadas den lugar a la generación de imágenes, texto o voz artificiales con un alto nivel de realismo. El esquema inicial es el siguiente: dos redes neuronales (como las descritas aquí) son enfrentadas a objetivos diferentes. Mientras que una de ellas estará orientada a la generación de muestras (el generador), la otra buscará ser capaz de diferenciar muestras reales de las generadas de manera artificial (el discriminador). Además, necesitaremos material original del tipo que queramos que la red aprenda a imitar.

Figura 2. Estructura básica de una Red Generativa Adversarial (GAN). La dinámica entre el generador y el discriminador permite la creación de material muy similar a los auténticos, pero sin ser idénticos.

A partir de este momento, la red generadora se encarga de producir muestras que serán presentadas junto con otras reales a la red discriminadora. Si ésta última reconoce correctamente cuál es la creada artificialmente, el generador se verá forzado en futuros pasos a mejorar sus intentos de producir contenido creíble para el discriminador. Análogamente, cuando el discriminador falla debe corregirse para ser más exigente de manera que, aunque indirectamente, el generador debe desarrollar en futuras etapas nuevas maneras de engañar al discriminador. Se establece así una dinámica entre ambas muy especial, donde ambos modelos de red neuronal trabajan por separado para mejorar respectivamente en la tarea que tienen asignada (una generar muestras suficientemente parecidas a las reales, otra distinguir original de artificial), pero que por la manera en que interactúan entre ellas terminan dando lugar a un sistema más complejo. El proceso continúa ininterrumpidamente hasta que ambos jugadores son igualmente buenos en sus tareas de engaño y detección.

Figura 3. Escenarios posibles al entrenar una Red Generativa Adversarial. Dependiendo de qué red cometa el error, el sistema se regula para forjar imitaciones más creíbles o para ser más estricto a la hora de decidir si un caso es original o no.

¿Es por tanto una IA con creatividad?

Rotundamente no. La capacidad de generar muestras que parezcan reales no significa que la red encargada de producirlo sea genuinamente creativa, o que haya seguido un proceso de elaboración simbólico y coherente. Como ya viene siendo habitual en esta sección, debe quedar claro que las muestras generadas no dejan de ser una combinación estadística de los datos de entrada durante el entrenamiento de los modelos.

Figura 4. Las diez primeras ejecuciones de uno de los modelos más populares de GAN arroja alguna luz acerca de las limitaciones y sesgos que de manera implícita existen en esta tecnología.

Todas las personas mostradas en la Figura 4 son ficticias. No existen. Sus rostros fueron generados utilizando StyleGAN2[9], un modelo de Red Generativa Adversarial con el que puede experimentarse en la página web thispersondoesnotexist. Los resultados son impresionantes, no hay duda. Si bien los que trabajamos a diario con este tipo de herramientas conocemos ciertos puntos débiles de estos Deepfakes (como el fondo poco definido, o ciertos artefactos presentes en pelo, orejas y accesorios), lo cierto es que a primera vista es absolutamente imposible reconocer si un rostro es real o no.

Llama la atención un detalle importante, y es la relativa escasez de diversidad racial y sexual. De las diez primeras ejecuciones del modelo, tan sólo dos personas son claramente de una etnia no caucásica, y cuatro son mujeres frente a seis hombres. Si bien a esta escala puede no parecer un problema relevante, este fenómeno sólo se intensifica a medida que generamos más imágenes. Y no, la Inteligencia Artificial responsable de generar estas caras no puede llamarse racista o poco ética. Sencillamente, está entrenada sobre una base de datos de imágenes de personas que son en su mayoría hombres blancos occidentales. Si el generador propone otras etnias, es más probable que el discriminador señale esa imagen como falsa, y por tanto las posibilidades de “ganar” del generador son menores, con el consiguiente efecto de sesgo en el resultado final.

En el Deepfake confiamos

Tal y como discutíamos anteriormente, el potencial mal uso de estas tecnologías puede llevar a consecuencias fatales si la calidad es suficientemente buena y somos incapaces de saber si lo que vemos es verdad o no. Sin embargo, el cerebro humano no es una simple calculadora, y nuestros juicios, así como nuestras respuestas acerca de los estímulos que recibimos del exterior son procesados con arreglo a una serie de sesgos que se han ido desarrollando a lo largo de milenios de evolución humana. Dichos sesgos no son necesariamente malos. Todo lo contrario, su origen se halla en la necesidad de asegurar la supervivencia del grupo. Aunque en los últimos años se ha entendido mejor el rol que juega el entorno cultural en la percepción de la belleza facial de una persona, en los años 90 algunos estudios parecían indicar que existían ciertos rasgos asociados a una mayor belleza compartidos de manera unánime por nuestra especie[10]. De igual manera, en nuestro grupo de investigación hemos aprendido hace poco que existe un conjunto de puntos de especial importancia en la expresión facial a la hora de interpretar las emociones de otra persona[11]. Ambos casos responden a representaciones con las que nuestro cerebro compacta la información recibida para hacerla más sencilla de procesar. Sin embargo, en redes sociales y medios de comunicación vemos constantemente mensajes que buscan explotar estas debilidades de nuestra mente.

Investigadores de la Universidad de Lancaster y de la Universidad de California han encontrado que, en sus experimentos, cientos de voluntarios decían percibir como más dignos de confianza imágenes de rostros humanos generados artificialmente[12]. Una posible explicación que aducen es que, en línea con lo que sabemos de la percepción humana, por norma general aquellos rostros más próximos al promedio son resultan más agradables. Es un comportamiento humano innato juzgar como más confiable a aquellas personas que no presentan malformaciones o asimetrías evidentes. Por consiguiente, dado que los Deepfakes son hasta cierto punto un promedio aproximado de todas las caras sobre las que la red neuronal ha sido entrenada a imitar, no es de extrañar que se generen imágenes que nos resultan más familiares, agradables y merecedoras de confianza que la propia realidad.

Qué será lo próximo

Es de esperar que cada día sean más las empresas e instituciones que utilicen de manera legítima y ética estas herramientas. A fin de cuentas, puede llegar a ser una auténtica revolución en el mundo de la producción audiovisual, simplificando la realización de escenas de acción, la aparición de intérpretes famosos o el surgimiento de nuevas corrientes artísticas que aprovechen las nuevas posibilidades que estas técnicas presentan. No obstante, no podemos olvidar que toda moneda tiene su anverso y su reverso, y que aquello que es beneficioso en un caso puede no serlo en otro.

La creación de contenido audiovisual de manera automática es un fenómeno cada vez más grande, y debemos asumir que la tendencia continuará creciendo. Los desarrolladores de Inteligencia Artificial tienen el deber de mantener la cordura y utilizar la tecnología de manera responsable. Pero de igual manera el ciudadano tiene la necesidad de mantener los ojos abiertos, ser crítico y no dejarse llevar por burbujas de pensamiento como las que nos atrapan en este mundo de redes sociales e inmediatez. A los más valientes, les invito antes de despedirme a que realicen el siguiente test, formulado por Microsoft y la Universidad de Washington.

Les esperamos en el próximo número de Catch.batches. Como siempre, estaremos encantados de atender sus sugerencias, dudas y recomendaciones. ¡Muchas gracias por llegar hasta aquí!

[1]: “How Russia spreads disinformation via RT is more nuanced tan we realise”, Robert Elliot para The Guardian, 26 de Julio de 2019. Visitado por última vez el 18/02/2022.
[2]: Chesney, R., & Citron, D. K. (2018). Deep Fakes: A Looming Challenge for Privacy, Democracy, and National Security. SSRN Electronic Journal. https://doi.org/10.2139/ssrn.3213954
[3]: “Deepfake porn is ruining women’s lives. Now the law may finally ban it.”, Karen Hao para MIT Technology Review, 12 de Febrero de 2021. Visitado por última vez el 19/02/2022.
[4]: Goodfellow, I.J. (2017). NIPS 2016 Tutorial: Generative Adversarial Networks. ArXiv, abs/1701.00160.
[5]: Hossam, M., Le, T., Papasimeon, M., Huynh, V., & Phung, D.Q. (2021). Text Generation with Deep Variational GAN. ArXiv, abs/2104.13488.
[6]: Liu, J.-Y., Chen, Y.-H., Yeh, Y.-C., Yang, Y.-H. (2020) Unconditional Audio Generation with Generative Adversarial Networks and Cycle Regularization. Proc. Interspeech 2020, 1997-2001, doi: 10.21437/Interspeech.2020-1137.
[7]: Clark, A., Donahue, J., & Simonyan, K. (2019). Efficient Video Generation on Complex Datasets. ArXiv, abs/1907.06571.
[8]: Skandarani, Y., Jodoin, P., & Lalande, A. (2021). GANs for Medical Image Synthesis: An Empirical Study. ArXiv, abs/2105.05318.
[9]: Karras, T., Laine, S., Aittala, M., Hellsten, J., Lehtinen, J., & Aila, T. (2020). Analyzing and Improving the Image Quality of StyleGAN. 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 8107-8116.
[10]:   Sorokowski, P., Kościński, K., & Sorokowska, A. (2013). Is Beauty in the Eye of the Beholder but Ugliness Culturally Universal? Facial Preferences of Polish and Yali (Papua) People. Evolutionary Psychology. https://doi.org/10.1177/147470491301100414.
[11]: Luna-Jiménez C., Kleinlein R., Griol D., Callejas Z., Montero J.M., Fernández-Martínez F. A Proposal for Multimodal Emotion Recognition Using Aural Transformers and Action Units on RAVDESS Dataset. Applied Sciences. 2022; 12(1):327. https://doi.org/10.3390/app12010327.
[12]: Nightingale, S. J., & Farid, H. (2022). AI-synthesized faces are indistinguishable from real faces and more trustworthy. Proceedings of the National Academy of Sciences, 119(8), e2120481119. https://doi.org/10.1073/pnas.2120481119.
Compartir :
Compartir en facebook
Compartir en twitter
Compartir en linkedin

Deja una respuesta

Tu dirección de correo electrónico no será publicada.

¿Alguna pregunta?

Para más información sobre lo que hacemos, ponte en contacto con nosotros.