Lograr la infraestructura adecuada para la IA generativa

Se dice que los hechos son tozudos. Para la IA generativa, un hecho obstinado es que consume grandes cantidades de ciclos de cálculo, almacenamiento de datos, ancho de banda de red, energía eléctrica y aire acondicionado. A medida que los CIO responden a los mandatos corporativos de ‘hacer algo’ con la IA generativa, muchos lanzan iniciativas basadas en la nube o en las instalaciones. Pero mientras que la rentabilidad prometida por muchos proyectos de IA generativa es imprecisa, los costes de la infraestructura para ejecutarlos son finitos y, con demasiada frecuencia, inaceptablemente altos.

Con o sin infraestructura, la IA generativa está en marcha. Según IDC,las cargas de trabajo de la IA generativa están pasando del 7,8% del mercado global de servidores de IA en 2022 al 36% en 2027. En almacenamiento, la curva es similar, con un crecimiento del 5,7% del almacenamiento de IA en 2022 al 30,5% en 2027. La investigación de IDC concluye que aproximadamente la mitad del gasto mundial en IA generativa en 2024 se destinará a infraestructura digital. La firma de análisis e investigación prevé que el mercado mundial de infraestructuras (servidores y almacenamiento) para todo tipo de IA se duplicará, pasando de 28.100 millones de dólares en 2022 a 57.000 millones en 2027.

Pero la enorme cantidad de infraestructura necesaria para procesar los grandes modelos de lenguaje (LLM) de IA generativa, junto con los requisitos de potencia y refrigeración, se está volviendo rápidamente insostenible.

“Se gastará en clústeres con redes de gran ancho de banda para construir entornos casi similares a los de HPC [computación de alto rendimiento]”, advierte Peter Rutten, vicepresidente de Investigación de Computación Intensiva en Rendimiento de IDC. “Todas las organizaciones deberían pensárselo mucho antes de invertir en un gran clúster de nodos de GPU”, afirma Rutten, y se pregunta: “¿Cuál es su caso de uso? ¿Disponen de los conocimientos necesarios para el centro de datos y la ciencia de datos?”.

Cambio a modelos de lenguaje reducido e infraestructura híbrida

Los responsables de TI son conscientes del riesgo de gastar más de la cuenta en infraestructura de IA generativa, ya sea local o en la nube. Tras analizar detenidamente sus operaciones físicas y las capacidades de su personal, así como la letra pequeña de los contratos en la nube, algunos están ideando estrategias que están ofreciendo un retorno positivo de la inversión.

Mozziyar Etemadi, director médico de Tecnologías Avanzadas de Northwestern Medicine, que buscaba aumentar la productividad de los equipos de radiología, crónicamente escasos de personal, emprendió un proyecto de IA generativa diseñado para acelerar la interpretación de las imágenes de rayos X. Pero en lugar de acumular recursos informáticos, el proyecto se basó en la nube. Pero en lugar de amontonar la infraestructura de computación, almacenamiento y redes para gestionar los enormes LLM, Northwestern Medicine redujo los requisitos de infraestructura trabajando con pequeños modelos de lenguaje (SLM).

Etemadi empezó experimentando con servicios basados en la nube, pero descubrió que eran difíciles de manejar y caros. “Los probé, pero no conseguimos que [la IA generativa] funcionara con un sobrecoste favorable”. Eso llevó a Etimadi a darse cuenta de que tendría que encabezar un esfuerzo de ingeniería dedicado.

Al frente de un equipo de una docena de tecnólogos médicos, Etemadi construyó un clúster de cuatro nodos de servidores Dell PowerEdge XE9680 con ocho GPU Nvidia H100 Tensor Core, conectadas con la red InfiniBand Nvidia Quantum-2. El clúster funcionaba en un centro de colocación, donde Etimadi se encargaba de la gestión de la red. El clúster, que se ejecuta en una instalación de colocación, recibe datos multimodales (imágenes, texto y vídeo) que entrenan al SLM para interpretar las radiografías. La aplicación resultante, patentada recientemente, genera interpretaciones muy precisas de las imágenes y las transmite a una persona en bucle (HITL) para que emita su dictamen final.

“Es multimodal, pero diminuta. El número de parámetros es de unos 300 millones. En comparación con ChatGPT, que tiene al menos un billón”, explica Etimadi, que prevé desarrollar la aplicación inicial de rayos X para interpretar tomografías computarizadas, imágenes de resonancia magnética y colonoscopias.

Calcula que utilizar un servicio basado en la nube para el mismo trabajo costaría aproximadamente el doble de lo que cuesta hacer funcionar el clúster de Dell. “En la nube, estás pagando por horas y estás pagando una prima”. En cambio, asegura, “prácticamente cualquier hospital de EE.UU. puede comprar cuatro ordenadores. Está bien dentro del presupuesto”.

En cuanto al almacenamiento de datos, Northwestern Medicine utiliza tanto la nube como la infraestructura local para el almacenamiento temporal y permanente. “Se trata de elegir la herramienta adecuada para el trabajo. Con el almacenamiento, realmente no hay una talla única para todos”, dice Etemadi, y añade: “Como regla general, el almacenamiento es donde la nube tiene la tarifa premium más alta.”

En las instalaciones, Northwestern Medicine está utilizando una mezcla de equipos Dell NAS, SAN, seguros y de infraestructura hiperconvergente. “Analizamos cuántos datos necesitábamos y durante cuánto tiempo. La mayoría de las veces, la nube no es definitivamente más barata”, asegura Editmadi.

El cálculo de costes de los clústeres de GPU

Enfrentada a retos similares, Papercup Technologies, una empresa británica que ha desarrollado servicios de traducción y doblaje de idiomas basados en IA generativa, adoptó un enfoque diferente. Los clientes de Papercup que buscan globalizar el atractivo de sus productos utilizan el servicio de la compañía para generar voces en off convincentes en muchos idiomas para su uso en vídeos comerciales. Antes de finalizar un trabajo, un HITL examina los resultados para comprobar su precisión y pertinencia cultural. El trabajo de LLM empezó en un edificio de oficinas londinense, que pronto se quedó pequeño ante las exigencias de infraestructura de la IA generativa.

“Al principio resultó bastante rentable comprar nuestro propio hardware, que era un clúster de cuatro GPU”, explica Doniyor Ulmasov, jefe de Ingeniería de Papercup. Calcula un ahorro inicial de entre el 60% y el 70% en comparación con los servicios basados en la nube. “Pero cuando añadimos otras seis máquinas, los requisitos de potencia y refrigeración eran tales que el edificio no podía albergarlas. Tuvimos que pagar por máquinas que no podíamos utilizar porque no podíamos refrigerarlas”, relata.

Y la electricidad y el aire acondicionado no eran los únicos obstáculos. “Los equipos de nivel de servidor requieren conocimientos técnicos para cosas como la configuración de redes y la gestión remota. Gastábamos muchos recursos humanos en mantener los sistemas, así que el ahorro no era real”, añade.

En ese momento, Papercup decidió que necesitaba la nube. La empresa utiliza ahora Amazon Web Services, donde se gestionan las cargas de trabajo de traducción y doblaje para los clientes, que revisa un HITL. Las cargas de trabajo de formación más sencillas se siguen ejecutando en las instalaciones, en una mezcla de servidores equipados con hardware Nvidia A100 Tensor Core, GeForce RTX 4090 y GeForce RTX 2080Ti. La formación más intensiva en recursos se gestiona en un clúster alojado en Google Cloud Platform. Basándose en sus servicios actuales, Papercup está explorando la traducción de idiomas y el doblaje de eventos deportivos y películas en directo, afirma Ulmasov.

Para Papercup, las decisiones de infraestructura vienen determinadas tanto por la geografía como por los requisitos tecnológicos. “Si tuviéramos un almacén enorme fuera del área metropolitana [de Londres], se podría argumentar [a favor de mantener el trabajo en las instalaciones]. Pero estamos en el centro de la ciudad. Si el espacio, la energía y la refrigeración no fueran un problema, me plantearía la posibilidad de trabajar en nuestras instalaciones“, afirma Ulmasov.

Más allá de las GPU

Por el momento, los clústeres basados en GPU son simplemente más rápidos que las configuraciones basadas en CPU, y eso importa. Tanto Etimadi como Ulmasov afirman que el uso de sistemas basados en CPU provocaría retrasos inaceptables que harían esperar a sus expertos en HITL. Sin embargo, según Rutten, de IDC, la elevada demanda energética de la actual generación de GPU no hará sino aumentar.

“La GPU actual de Nvidia tiene un consumo de 700 vatios y la siguiente lo duplica. Es como una calefacción. No veo cómo se va a resolver fácilmente ese problema”, afirma el analista.

El reinado de las GPU en IA generativa y otras formas de IA podría verse desafiado por una serie de coprocesadores de IA emergentes y, con el tiempo, quizás por la computación cuántica.

“La GPU se inventó para el procesamiento de gráficos, por lo que no está optimizada para la IA. Cada vez veremos más hardware especializado en IA”, predice Claus Torp Jensen, antiguo director de Información y director de Tecnología y actual asesor tecnológico. Aunque no prevé la desaparición de las GPU, afirma que los futuros algoritmos de IA serán gestionados por una mezcla de CPU, GPU y coprocesadores de IA, tanto en las instalaciones como en la nube.

Otro factor que juega en contra del consumo energético sin paliativos es la sostenibilidad. Muchas organizaciones han adoptado objetivos de sostenibilidad, que los algoritmos de IA que consumen mucha energía dificultan. Rutten dice que, cuando la sostenibilidad es una prioridad, merece la pena explorar el uso de SLM, CPU basadas en ARM y proveedores de nube que mantengan políticas de cero emisiones o que funcionen con electricidad producida por fuentes renovables.

Para las implantaciones que requieren cargas de trabajo a gran escala, el uso de microprocesadores construidos con matrices de puertas programables en campo (FPGA) o circuitos integrados específicos de la aplicación (ASIC) es una opción que merece la pena considerar.

“Son mucho más eficientes y pueden ser más potentes. Hay que codificarlos por hardware desde el principio y eso lleva tiempo y trabajo, pero se puede ahorrar mucho en comparación con las GPU”, afirma Rutten.

Hasta que aparezcan procesadores mucho más rápidos que consuman menos energía y generen menos calor, la GPU será una realidad obstinada para la IA generativa, y poner en marcha implementaciones de IA generativa rentables exigirá ingenio y perseverancia. Pero, como demuestran Etimadi y Ulmasov, el reto no está fuera del alcance de las estrategias que utilizan pequeños modelos lingüísticos y una hábil combinación de servicios locales y basados en la nube.

© Foundry