El Posible Desenlace para el Aprendizaje Supervisado

El conocimiento es poder. En efecto, en el mundo digital en que vivimos las bases de datos parecen llamadas a convertirse en el recurso más deseado por gobiernos y empresas de todo el mundo. La mayoría de algoritmos de Inteligencia Artificial (IA) con que contamos precisan además que dichos datos contengan etiquetas, variables de interés que conozcamos de antemano y que constituyen el objetivo principal del aprendizaje de estos modelos. Obtener dicho etiquetado es un proceso extremadamente costoso que pocas organizaciones pueden asumir, por lo que la abrumadora mayoría de organizaciones terminan dependiendo de fuentes de datos externas. Hoy en Catch.batches veremos los riesgos que ello conlleva, y cómo en la búsqueda de alternativas podemos estar alumbrando a la nueva generación de máquinas inteligentes.

Aprendizaje Supervisado: Una respuesta a cada pregunta

Imagine que desde el departamento de Recursos Humanos de su organización le encargan formar a alguien recién incorporado a la plantilla. Especialmente si la persona a su
cargo está comenzando sus andaduras laborales, es impensable suponer que esta
persona sabrá qué hacer y cómo dar respuesta a sus dudas. Así, lo normal es
acompañar a dicho trabajador durante una fase de aprendizaje en la que de
manera más o menos constante corregiríamos las equivocaciones de nuestro
pupilo, y premiaríamos sus aciertos. Pero por norma general, pasado un cierto
tiempo la mayoría de aprendices lograrían aprender a tomar sus propias
decisiones de manera satisfactoria, sin dejar de obedecer al criterio que
nosotros impusiéramos en un inicio.

Con una Inteligencia Artificial ocurre algo similar, salvo que tendremos que
repetirle la respuesta a una misma pregunta cientos, miles o incluso millones
de veces. Esto contrasta mucho con la experiencia con otro humano, donde
habitualmente perdemos interés en responder si se nos pregunta repetidamente la
misma cuestión una y otra vez. Si el trabajo a realizar por la IA consistiera,
pongamos por caso, en separar fotos de gatos de imágenes de perros, tendríamos
que decirle para cada imagen (recordemos que eso implica muchas, muchas
fotografías) qué clase de animal es. Esta categoría asignada a cada muestra es
lo que se conoce como “etiqueta” (label en inglés). Puede parecer una ejemplo algo simplón, pero les aseguro que los actuales coches autónomos [1], el seguimiento del estado de salud en pacientes en Unidades de Cuidados Intensivos [2], los sistemas de cuidado de cultivos [3]
e incluso la selección de personal [4] funcionan en muchas ocasiones gracias a
esta estrategia de aprender en base a etiquetas presentes en las bases de datos
usadas.

Figura 1: Ilustración del aspecto que tienen por general las bases de datos orientadas al entrenamiento de sistemas de conducción autónoma. En este caso, el sistema debería aprender a reconocer cada uno de los objetos señalados al presentársele esta imagen como entrada. Fíjese el lector en que es común que el etiquetado no sea exhaustivo (los humanos reconocemos en la imagen más coches de los que aparecen etiquetados), o que la anotación sea vaga e imperfecta (los objetos se anotan como cajas marco, sin atender a sus particularidades reales).

Sin embargo, estas bases de datos, organizadas alrededor del concepto de duplas entrada-respuesta, adolecen de una serie de problemas entre los que destacan:

Son extremadamente costosas de obtener. Conseguir una segmentación como la de la figura 1 exige que  al menos una persona (debidamente compensada económicamente) enmarque los objetos en categorías que tengan sentido para nosotros. Extendamos este proceso a miles de imágenes y será evidente el coste en tiempo y dinero que conlleva crear una base de datos así. ¡Por no mencionar aquellos casos en que el anotador debe ser un experto, como un médico o un ingeniero especialista!

Rara vez se adecúan a nuestro problema específico. Un estudio de la Universidad de California en colaboración con Google descubrió que más del 50% de las principales bases de datos usadas en investigación e industria procedían de tan sólo una docena de universidades [5]. Por añadidura, dichas fuentes fueron creadas con propósitos no necesariamente alineados con nuestros intereses, por lo que necesitamos herramientas como la “transferencia de conocimiento” (transfer learning, [6]) para poder sacar el máximo partido a nuestros modelos de IA.

Las etiquetas se asumen como la verdad absoluta, pese a contener errores o ser imprecisas. Consideramos un sistema mejor que otro si sus predicciones se ajustan mejor a las etiquetas de los datos de entrenamiento. Sin embargo, por cansancio, por limitaciones técnicas, por falta de seguridad o por nociones erróneas… Las etiquetas logradas de este modo no reflejan la realidad tal y como los humanos la percibimos, pero en cambio sí arrastran nuestros prejuicios (en una suerte de versión moderna del sesgo de supervivencia descubierto por Abraham Wald).

La idea de etiqueta choca frontalmente con la divergencia de opiniones. Hace quince años, ImageNet [7], una base de datos centrada en la clasificación de objetos simples, animales y personas dentro de imágenes marcaba el techo de lo posible para nuestros modelos de IA. Problemas así, con respuestas únicas y ante las que no cabe discusión en el etiquetado, se han tornado fáciles en muchos ámbitos con las técnicas actuales. Pero, ¿qué ocurre si en nuestro problema no existe una única opción correcta? Por ejemplo, un mismo cuadro puede encantarle a usted mientras que a mi puede resultarme espantoso, y ello sin que ninguno de los dos estemos necesariamente equivocados.

Estos problemas no ocurren de manera aislada o independiente, sino que siempre están presentes en cierta medida. Y si bien existen otros paradigmas de aprendizaje que no requieren de datos etiquetados, fuera de ciertos entornos nicho suelen dar resultados inferiores a los obtenidos mediante aprendizaje supervisado con anotaciones humanas. Idealmente desearíamos mantener todas las bondades de aprovechar que el conocimiento existe de una manera implícita en los datos, pero eliminando todo lo posible la necesidad de que sea un humano quien lo ponga de manifiesto para el algoritmo.

Próximos pasos

La obtención de datos de valor, utilizables y en grandes cantidades es un proceso costoso e imperfecto, lejos de las posibilidades de la mayoría de organizaciones y empresas, pero que sin embargo puede proporcionar una ventaja competitiva difícil de salvar. De hecho, parte del negocio de gigantes como Meta o Google está íntimamente relacionado con la acumulación y venta de datos anotados por sus usuarios. Por suerte, a medida que avanza la tecnología y se abren nuevas puertas, comienzan a vislumbrarse a lo lejos ideas que podrían hacer obsoleta la necesidad de datos a gran escala a la par que resolverían las deficiencias mencionadas antes.

Una opción a considerar pasa por acercarnos al proceso de aprendizaje de aquel trabajador novato con que comenzábamos nuestra discusión y que nuestros algoritmos, a partir de muy poca información, fueran capaces de concentrar sus esfuerzos de manera selectiva para extraer el máximo provecho del material que encontraran por sí mismos para aprender. Estrategias como el few-shot learning [8], orientada en que una IA aprenda nuevas tareas a partir de unas pocas muestras etiquetadas, o el continual learning [9], donde el algoritmo se actualiza de manera continua según le ofrecemos información relevante, ofrecen perspectivas muy halagüeñas pero carecen de la capacidad de planificar qué y de dónde aprender. Quizás la IA, tras copiar el concepto de neurona, deba volver a inspirarse en el campo de la neurociencia, donde ciertos investigadores parecen señalar a la atención selectiva y la curiosidad como engranajes esenciales de la mente humana [10].

Referencias

[1]: Cordts, M., Omran, M., Ramos, S., Rehfeld, T., Enzweiler, M., Benenson, R., Franke, U., Roth, S., & Schiele, B. (2016). The Cityscapes Dataset for Semantic Urban Scene Understanding. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 3213-3223.

[2]: Johnson, A. E. W. et al. MIMIC-III, a freely accessible critical care database.Sci.Data 3:160035 doi: 10.1038/sdata.

[3]: Liu, X., Min, W., Mei, S., Wang, L., & Jiang, S. (2021). Plant Disease Recognition: A Large-Scale Benchmark Dataset and a Visual Region and Loss Reweighting Approach. IEEE transactions on image processing : a publication of the IEEE Signal Processing Society30, 2003–2015. https://doi.org/10.1109/TIP.2021.3049334

[4]: Bodhisattwa Prasad Majumder*, Shuyang Li*, Jianmo Ni, Julian McAuley (2020). Interview: Large-scale Modeling of Media Dialog with Discourse Patterns and Knowledge Grounding. EMNLP, 2020

[5]: Koch, B., Denton, E., Hanna, A., & Foster, J. G. (2021). Reduced, reused and recycled: The life of a dataset in machine learning research. arXiv preprint arXiv:2112.01716.

[6]: Weiss, K., Khoshgoftaar, T.M. & Wang, D. A survey of transfer learning. J Big Data 3, 9 (2016). https://doi.org/10.1186/s40537-016-0043-6.

[7]: Deng, J., Dong, W., Socher, R., Li, L.-J., Li, K., & Fei-Fei, L. (2009). Imagenet: A large-scale hierarchical image database. In 2009 IEEE conference on computer vision and pattern recognition (pp. 248–255).

[8]: Brown, T.B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., Neelakantan, A., Shyam, P., Sastry, G., Askell, A., Agarwal, S., Herbert-Voss, A., Krueger, G., Henighan, T.J., Child, R., Ramesh, A., Ziegler, D.M., Wu, J., Winter, C., Hesse, C., Chen, M., Sigler, E., Litwin, M., Gray, S., Chess, B., Clark, J., Berner, C., McCandlish, S., Radford, A., Sutskever, I., & Amodei, D. (2020). Language Models are Few-Shot Learners. ArXiv, abs/2005.14165 .

[9] Zhiyuan Chen & Bing Liu (2018). Lifelong Machine Learning. Morgan & Claypool Publishers, ISBN 9781681733029.

[10]: Graziano, M. S., & Webb, T. W. (2015). The attention schema theory: a mechanistic account of subjective awareness. Frontiers in psychology6, 500. https://doi.org/10.3389/fpsyg.2015.00500.

Compartir :

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

¿Alguna pregunta?

Para más información sobre lo que hacemos, ponte en contacto con nosotros.

¡Gracias!

Sin la colaboración de todos ellos, Foro de Foros no sería posible.

Próxima actividad:

Beers & Movies

25 de junio

Cines Verdi

Días
Horas
Minutos