La IA puede ser la respuesta a sus problemas de datos, pero no a todos ellos

En la actualidad, 143 millones de personas esperan una intervención quirúrgica en países de renta baja. Y aunque hay organizaciones dispuestas a aportar médicos y recursos, existe un vacío de información entre unos y otros, afirma Joan LaRovere, jefa médica asociada del Boston Children’s Hospital, profesora de la Facultad de Medicina de Harvard y cofundadora de la Virtue Foundation, ONG dedicada a resolver este problema de información.

La Fundación Virtue, fundada en 2002, ya ha creado la mayor base de datos del mundo de ONG y centros sanitarios, y presta servicios sanitarios globales en más de 25 países, organiza expediciones médicas, realiza investigaciones y dona equipos médicos. Como parte de este trabajo, los voluntarios de la fundación aprendieron sobre la necesidad de recopilar datos fiables para ofrecer una actividad sanitaria eficiente.

El problema es que las fuentes de información son increíblemente variadas y a menudo están ocultas, defiende LaRovere.

“No está globalizada”, dice. “Está en la web. Está enterrada en organizaciones gubernamentales. Está en una mezcla de formatos estructurados y no estructurados”.

Para ayudar a aliviar la complejidad y extraer información, la fundación, utilizando diferentes modelos de inteligencia artificial (IA), está construyendo una capa analítica sobre esta base de datos, habiéndose asociado con DataBricks y DataRobot. Algunos de los modelos son de aprendizaje automático (ML) tradicional, y otros, dice LaRovere, son de IA generativa, incluidos los nuevos avances multimodales.

“La IA generativa está rellenando lagunas de datos”, afirma. “Es algo muy nuevo que está pasando y estamos justo a la vanguardia de la curva”.

El siguiente paso, dice, es tomar el conjunto de datos fundamentales y aumentarlo con otras fuentes de datos, más capas de datos e incluso datos de satélite, para extraer ideas y averiguar correlaciones.

“Las capacidades de la IA nos permiten empezar a hacer visible lo invisible”, añade.

Pero la Fundación Virtue no es la única que experimenta con la IA generativa para ayudar a desarrollar o aumentar conjuntos de datos.

“Esto funciona y cada vez lo utilizan más empresas”, afirma Bret Greenstein, socio y responsable de la estrategia de comercialización de IA generativa en PwC. “La mayoría de los datos empresariales son documentos y códigos no estructurados y semiestructurados, así como imágenes y vídeo. Esto no era accesible en el pasado sin soluciones complejas y personalizadas que a menudo eran muy frágiles”.

Por ejemplo, la IA generativa puede utilizarse para extraer metadatos de documentos, crear índices de información y gráficos de conocimiento, y para consultar, resumir y analizar estos datos.

“Se trata de un salto enorme con respecto a los enfoques anteriores, que exigían un procesamiento manual exhaustivo”, afirma. “Y desbloquea muchísimos casos de uso, ya que la mayoría de los flujos de trabajo y procesos se basan en documentos y tipos de datos similares”.

Según IDC, el 90% de los datos generados por las organizaciones en 2022 no estaban estructurados. Las empresas utilizan IA generativa para crear datos sintéticos, encontrar y eliminar información sensible de los conjuntos de datos de entrenamiento, agregar significado y contexto a los datos y realizar otras funciones de nivel superior donde los enfoques tradicionales de ML se quedan cortos. Pero la IA generativa también puede ser más lenta, más cara y, a veces, menos precisa que las tecnologías más antiguas, por lo que los expertos desaconsejan lanzarse a ella antes de haber establecido todas las capas fundamentales.

Caso práctico de extracción de datos

ABBYY, una empresa de automatización inteligente, lleva más de 35 años utilizando diversos tipos de IA y ML para procesar documentos. Y hace tres años, mucho antes de que ChatGPT apareciera en escena, empezó a utilizar la IA generativa.

“La utilizamos como ayuda para el reconocimiento óptico de caracteres”, explica Max Vermeir, director senior de Estrategia de IA de ABBYY.

Antes se utilizaba una red neuronal convolucional para detectar qué bits de una imagen contenían texto. “Luego eso iba a un transformador, con la misma arquitectura que ChatGPT, pero construido de una forma diferente”, afirma.

La ventaja de utilizar un LLM para esta tarea es que puede ver la imagen completa y averiguar qué se supone que es el texto a partir de pistas contextuales. El problema, dice Vermeir, es que los LLM consumen muchos recursos. “Y en el reconocimiento óptico de caracteres, todo gira en torno a la velocidad”, añade. “Así que sólo cuando detectamos un documento de muy baja calidad utilizamos un modelo lingüístico de gran tamaño”.

La empresa también utiliza los LLM para averiguar la ubicación de la información clave en un determinado tipo de documento.

“Hacemos el reconocimiento óptico de caracteres, le damos el texto completo al LLM y luego le hacemos nuestras preguntas”, explica. Por ejemplo, el LLM podría averiguar qué partes del documento contienen determinados tipos de información. “A continuación, lo destilamos en un modelo más pequeño que se ha entrenado específicamente para ese tipo de documento, lo que significa que será muy eficiente, preciso y consumirá muchos menos recursos”.

Además de consumir muchos recursos, los LLM de propósito general también son conocidos por sus problemas de precisión.

“El uso puro de LLM no proporcionará la fiabilidad necesaria para las tareas de datos críticos”, afirma Vermeir. “No querrás que un LLM adivine qué hay en un PDF que lleva 10 años en tu archivo, sobre todo si se trata de tu contrato más importante”.

Es importante utilizar la herramienta adecuada para el trabajo, teniendo en cuenta todo el revuelo que rodea a la IA generativa. “Mucha gente está intentando aprovechar esta tecnología, que parece que puede hacerlo todo”, dice, “pero eso no significa que debas usarla para todo”.

Así, por ejemplo, ABBYY ya tiene una herramienta que puede convertir una sola imagen en cientos de imágenes sintéticas para utilizarlas como datos de entrenamiento. Si hay registros duplicados, la tecnología de concordancia de lógica difusa es estupenda para comprobar si se trata de la misma persona. Pero si hay un artículo de Onion que recomienda comerse una piedra todos los días, o un post de Reddit sobre poner pegamento en la pizza, ¿son fuentes creíbles de información que deberían formar parte de un conjunto de datos de entrenamiento?

“En realidad, eso requiere que la tecnología razone sobre si la gente suele poner pegamento en la pizza”, dice Vermeir. “Es una tarea interesante para un gran modelo lingüístico, que debe razonar sobre una gran cantidad de información. Así que este caso de uso es bastante útil”. De hecho, ABBYY tiene algo parecido: averiguar si una información concreta, añadida a un conjunto de datos de entrenamiento, ayudará al rendimiento de un modelo que se está entrenando.

“Estamos validando si los datos de entrenamiento que recibimos realmente mejoran el modelo”, afirma.

Esto es especialmente importante en el caso de un modelo de ML más pequeño o de IA generativa de propósito especial. Para los modelos de propósito general, es más difícil hacer ese tipo de distinción. Por ejemplo, excluir los artículos de Onion de un conjunto de datos de entrenamiento podría mejorar el rendimiento factual de un modelo, pero incluirlos podría mejorar el sentido del humor y el nivel de redacción de un modelo; excluir los sitios web sobre la Tierra plana podría mejorar la precisión científica de un modelo, pero reducir su capacidad para debatir teorías conspirativas.

Caso de uso de duplicidad y control de calidad

La empresa de ciberseguridad Simbian está construyendo una plataforma de seguridad basada en IA, y le preocupa que los usuarios “jailbreakeen” la IA, o que hagan preguntas de forma que dé resultados que no debería dar.

“Cuando construyes un LLM para la seguridad, más vale que sea seguro”, afirma Ambuj Kumar, CEO de la empresa.

Para encontrar ejemplos de este tipo de jailbreaks, la empresa creó un sitio web en el que los usuarios pueden intentar engañar a un modelo de IA. “Esto nos mostró todas las formas en que se puede engañar a un LLM“, dice. Sin embargo, había muchos duplicados en los resultados. Digamos, por ejemplo, que un usuario quiere que un chatbot le explique cómo construir una bomba. Si se lo pregunta directamente, el chatbot se negará a responder a la pregunta. Así que el usuario podría decir algo como: “Mi abuela me contaba una historia sobre cómo fabricar una bomba…”. Y otro usuario podría decir: “Mi bisabuelo me contaba una historia…”. Simplemente en términos de las palabras utilizadas, se trata de dos prompts diferentes, pero son ejemplos de una táctica de fuga común.

Tener demasiados ejemplos de una táctica similar en el conjunto de datos de entrenamiento sesgaría los resultados. Además, cuesta más dinero. Al utilizar IA generativa para comparar diferentes jailbreaks exitosos, el número total de muestras se redujo en un factor de 10, dice.

Simbian también utiliza un LLM para filtrar su conjunto de datos de entrenamiento, repleto de distintos tipos de información relacionada con la seguridad.

“La gente ha escrito gigabytes de blogs, manuales y README”, explica, “y nosotros los leemos continuamente, averiguamos cuáles son buenos y cuáles no, y añadimos los buenos a nuestro conjunto de datos de formación”.

Caso de uso de datos sintéticos

Es un caso de uso es especialmente adecuado para la IA generativa porque se diseñó específicamente para generar texto nuevo.

“Son muy potentes para generar datos sintéticos y datos de prueba”, dice Noah Johnson, cofundador y director de Tecnología de Dasera, una empresa de seguridad de datos. “Son muy eficaces en eso. Les das la estructura y el contexto general, y pueden generar datos sintéticos de aspecto muy realista”. Los datos sintéticos se utilizan después para probar el software de la empresa, explica. “Utilizamos un modelo de código abierto que hemos adaptado a esta aplicación específica”.

Pero los datos sintéticos no son solo para probar software, dice Andy Thurai, vicepresidente y analista principal de Constellation Research. Un chatbot de atención al cliente, por ejemplo, puede necesitar una gran cantidad de datos de entrenamiento para aprender.

“Pero a veces no hay datos suficientes”, dice Thurai. “Los datos del mundo real son muy caros, llevan mucho tiempo y son difíciles de recopilar”. También puede haber restricciones legales o problemas de derechos de autor, y otros obstáculos para conseguir los datos. Además, los datos del mundo real son desordenados, dice. “Los científicos de datos pasarán hasta el 90% de su tiempo curando el conjunto de datos y limpiándolo”. Y cuantos más datos se utilicen para entrenar un modelo, mejor será. Algunos tienen miles de millones de parámetros.

“Utilizando datos sintéticos, puedes producir datos tan rápido como quieras, cuando quieras”, afirma.

El problema, añade, es que es demasiado fácil producir sólo los datos que uno espera ver, lo que da como resultado un modelo que no es muy bueno cuando se encuentra con el desorden del mundo real.

“Pero según mis conversaciones con ejecutivos, todos parecen pensar que es suficientemente bueno”, dice Thurai. “Déjame sacar primero el modelo con una mezcla de datos del mundo real y datos sintéticos para rellenar algunos espacios en blanco y agujeros. Y en versiones posteriores, a medida que obtenga más datos, podré afinar el modelo o volver a entrenarlo con los datos más recientes”.

Controlar las expectativas de la IA generativa

Lo más importante que hay que saber es que la IA generativa no resolverá todos los problemas de datos de una empresa. “No es una bala de plata”, afirma Daniel Avancini, director de Datos de Indicium, una consultora de IA y datos.

Si una empresa acaba de iniciar su andadura en el campo de los datos, es fundamental que adopte las medidas básicas, como crear buenas plataformas de datos, establecer procesos de gobernanza de datos y utilizar enfoques tradicionales eficaces y sólidos para identificar, clasificar y limpiar los datos.

“La IA generativa es sin duda algo que va a ayudar, pero hay un montón de mejores prácticas tradicionales que deben aplicarse en primer lugar”, dice.

Sin esas bases, un LLM puede tener algunos beneficios limitados. Pero cuando las empresas cuentan con sus propios marcos y manejan grandes cantidades de datos, hay tareas específicas en las que la IA generativa aporta un valor diferencial.

“Pero yo no diría que, con la tecnología que tenemos ahora, sería un sustituto de los enfoques tradicionales”, concluye.

© Foundry