
Red Hat anuncia una comunidad para potenciar la inferencia distribuida de IA generativa a gran escala
El proveedor de soluciones de código abierto Red Hat ha dado a conocer llm-d, un nuevo proyecto de código abierto que aborda la necesidad más crítica del futuro de la IA generativa: la inferencia a gran escala.
Utilizando tecnologías innovadoras de inferencia para la IA generativa a escala, llm-d es potenciado mediante una arquitectura nativa de Kubernetes, inferencia distribuida basada en vLLM y un enrutamiento de red inteligente con conciencia de IA, lo que permite que las robustas nubes de inferencia de los grandes modelos de lenguaje (LLM) cumplan con los objetivos de nivel de servicio (SLO) de producción más rigurosos.
Si bien el entrenamiento sigue siendo importante, la IA generativa depende realmente de una inferencia más eficiente y escalable, el motor que transforma los modelos de IA en conocimientos accionables y experiencias de usuario. Según Gartner, "para 2028, a medida que el mercado madure, más del 80% de los aceleradores de carga de trabajo de los centros de datos se implementarán específicamente para uso de inferencia, en lugar de para uso de entrenamiento". Esto subraya que el futuro de la IA generativa reside en la capacidad de ejecución. La creciente demanda de recursos de modelos de razonamiento cada vez más complejos y de mayor tamaño limitan la viabilidad de la inferencia centralizada y amenazan con frenar la innovación de la IA con costes prohibitivos y una latencia paralizante.
Abordando la necesidad de inferencia de IA generativa escalable con llm-d
Red Hat y sus socios de la industria están afrontando directamente este desafío con llm-d, un proyecto visionario que amplifica el poder de vLLM para trascender las limitaciones de un solo servidor y desbloquear la producción a escala para la inferencia de IA. Utilizando la probada destreza de orquestación de Kubernetes, llm-d integra capacidades de inferencia avanzadas en las infraestructuras de TI empresariales existentes. Esta plataforma unificada permite a los equipos de TI responder a las diversas demandas de servicio de las cargas de trabajo críticas para el negocio, al mismo tiempo que despliega técnicas innovadoras para maximizar la eficiencia y reducir drásticamente el coste total de propiedad (TCO) vinculado a los aceleradores de IA de alto rendimiento.
llm-d ofrece un potente conjunto de innovaciones, destacando:
• vLLM, que se ha convertido rápidamente en el servidor de inferencia de facto estándar de código abierto, proporcionando soporte de modelos desde el día 0 para modelos de vanguardia emergentes, y soporte para una amplia lista de aceleradores, incluyendo ahora las Unidades de Procesamiento de Tensor (TPU) de Google Cloud.
• Desagregación de prefill y decode para separar las fases de contexto de entrada y generación de tokens de la IA en operaciones discretas, donde luego pueden distribuirse entre múltiples servidores.
• Descarga de caché KV (key-value), basada en LMCache, que traslada la carga de memoria de caché KV de la memoria de la GPU a un almacenamiento estándar más rentable y abundante, como la memoria de la CPU o el almacenamiento en red.
• Clústeres y controladores basados en Kubernetes para una programación más eficiente de los recursos de cómputo y almacenamiento a medida que fluctúan las demandas de carga de trabajo, manteniendo el rendimiento y una menor latencia.
• Enrutamiento de red consciente de la IA para programar las solicitudes entrantes a los servidores y aceleradores que tienen más probabilidades de tener cachés "calientes" de cálculos de inferencia anteriores.
• APIs de comunicación de alto rendimiento para una transferencia de datos más rápida y eficiente entre servidores, con soporte para NVIDIA Inference Xfer Library (NIXL).
llm-d: respaldado por líderes de la industria
Este nuevo proyecto de código abierto ya ha conseguido el apoyo de una impresionante coalición de proveedores líderes de modelos de IA generativa, pioneros en aceleradores de IA y destacadas plataformas de nube de IA. CoreWeave, Google Cloud, IBM Research y NVIDIA son colaboradores fundadores, y se suman como socios AMD, Cisco, Hugging Face, Intel, Lambda y Mistral AI, lo que pone de manifiesto la estrecha colaboración del sector para trazar el futuro del servicio de LLM a gran escala. La comunidad llm-d cuenta, además, con el apoyo de los fundadores del Sky Computing Lab de la Universidad de California, creadores de vLLM, y del LMCache Lab de la Universidad de Chicago, artífices de LMCache.
Arraigado en su firme compromiso con la colaboración abierta, Red Hat reconoce la trascendental importancia de contar con comunidades dinámicas y accesibles en el vertiginoso panorama de la inferencia de IA generativa. Red Hat promoverá activamente el desarrollo de la comunidad llm-d, cultivando un entorno inclusivo para los nuevos integrantes e impulsando su evolución constante.
La visión de Red Hat: cualquier modelo, cualquier acelerador, cualquier nube
El futuro de la IA debe estar definido por oportunidades ilimitadas, y no por las limitaciones impuestas por los silos de infraestructura. Red Hat ve un futuro donde las organizaciones pueden desplegar cualquier modelo, en cualquier acelerador, a través de cualquier nube, ofreciendo una experiencia de usuario excepcional y más consistente sin costes exorbitantes. Para desbloquear el verdadero potencial de las inversiones en IA generativa, las empresas necesitan una plataforma de inferencia universal: un estándar para una innovación en IA más fluida y de alto rendimiento, tanto ahora como en el futuro.
Así como Red Hat fue pionera en su propuesta de empresa abierta al transformar Linux en la base de la TI moderna, ahora está preparada para diseñar el futuro de la inferencia de IA. El potencial de vLLM es el de un eje central para la inferencia de IA generativa estandarizada, y Red Hat se compromete a crear un ecosistema próspero en torno no solo a la comunidad vLLM, sino también a llm-d para la inferencia distribuida a escala. La visión es clara: independientemente del modelo de IA, el acelerador subyacente o el entorno de implementación, Red Hat tiene la intención de convertir a vLLM en el estándar abierto definitivo para la inferencia en la nueva nube híbrida.
Brian Stevens, senior vice president and AI CTO, Red Hat: “El lanzamiento de la comunidad llm-d, apoyado por una vanguardia de líderes en IA, marca un momento decisivo para abordar la necesidad de inferencia de IA generativa escalable, un obstáculo fundamental que debe superarse para permitir una adopción más amplia de la IA empresarial. Al aprovechar la innovación de vLLM y las capacidades probadas de Kubernetes, llm-d allana el camino para una inferencia de IA distribuida, escalable y de alto rendimiento en la nube híbrida expandida, compatible con cualquier modelo, cualquier acelerador y en cualquier entorno de nube, contribuyendo así a materializar una visión de potencial ilimitado para la IA”.