Red Hat pone el proyecto llm-d a disposición de la Cloud Native Computing Foundation
El proveedor de soluciones de software de código abierto Red Hat anuncia que ha puesto el marco de código abierto llm-d a disposición de la organización neutral Cloud Native Computing Foundation, CNCF, con el objetivo establecer el estándar abierto para la inferencia distribuida.
La inferencia, que es el proceso cognitivo de llegar a una conclusión a partir de premisas, puede resultar sumamente costosa, ya que consume grandes cantidades de recursos. llm-d actúa como un director de orquesta inteligente que gestiona estas tareas de manera eficiente, reduciendo costes y mejorando el rendimiento. Al cederlo a CNCF, Red Hat busca que el despliegue de inteligencia artificial a gran escala sea una capacidad más accesible y estandarizada para todas las empresas.
Por qué ponemos llm-d a disposición de la CNCF: estableciendo el estándar el futuro de la IA
Por Brian Stevens, Senior Vice President and Chief Technology Officer (CTO) for AI, Red Hat
Hoy, ponemos el proyecto llm-d a disposición de la Cloud Native Computing Foundation (CNCF) como un proyecto Sandbox.
Esto no es solo una entrega de código. Es un compromiso para hacer que la entrega de servicios de IA de alto rendimiento sea una capacidad central y portable del cloud-native stack. Cuando lanzamos llm-d en mayo de 2025, nos propusimos resolver la enorme brecha de capacidades entre la experimentación de IA y la inferencia de producción de misión crítica a gran escala. Al integrar llm-d en la CNCF, estamos ampliando el objetivo de una coalición de múltiples proveedores —incluyendo CoreWeave, IBM, Google y NVIDIA— para establecer el estándar abierto para la inferencia distribuida.
La inferencia impulsa la era agentiva
A medida que nos adentramos en un futuro agentivo, la inferencia de IA que da soporte a los agentes empresariales de diferentes sectores está a punto de expandirse ampliamente. Será fundamental que el coste y la complejidad de la inferencia no superen el valor comercial de los propios agentes. Sin embargo, la inferencia puede resultar sumamente costosa, ya que consume grandes cantidades de aceleradores especializados, y, al escalar, estos costes pueden dispararse aún más. Las capacidades avanzadas de llm-d abordan directamente esto, cumpliendo los Objetivos de Nivel de Servicio (SLO) empresariales mientras maximizan la eficiencia de la infraestructura. Además, las organizaciones necesitan la flexibilidad para desplegar la inferencia donde tenga sentido —centro de datos, nube o edge — en el hardware de su elección. Esta flexibilidad solo es posible si el ecosistema subyacente se basa en código abierto y estándares abiertos.
Cerrando la brecha en el entorno cloud-native
Aunque Kubernetes es el estándar de la industria para la orquestación, no fue diseñado originalmente para las exigencias únicas y con estado persistente de la inferencia de modelos de lenguaje grandes (LLM). En un microservicio tradicional, una solicitud es una solicitud: cada réplica puede procesarla igual de bien. En la IA generativa, el coste de una solicitud varía enormemente según la longitud de los tokens de entrada y salida, el tamaño y la arquitectura del modelo, la localidad del caché y si el modelo está en la fase de precarga (limitada por el cómputo) o de decodificación (limitada por la memoria).
El enrutamiento de servicios estándar es ciego a estas dinámicas, lo que lleva a una asignación ineficiente y una latencia impredecible. Aquí es donde llm-d cierra la brecha. Funciona como una capa de orquestación de plano de datos especializada entre planos de control de alto nivel como KServe y motores de bajo nivel como vLLM. Utilizando elementos constitutivos nativos de Kubernetes como Gateway API y LeaderWorkerSet (LWS), transforma la compleja inferencia distribuida en una carga de trabajo cloud-native manejable y observable.
Fortaleciendo el ecosistema a través de la contribución
Al poner llm-d a disposición de la CNCF, estamos estableciendo caminos bien definidos —diseños probados y replicables que transforman componentes de IA fragmentados en microservicios modulares e interoperables. Esta contribución es más que un solo proyecto; se trata de enriquecer todo el panorama cloud-native para que la inferencia se convierta en parte integral del mismo entorno que las aplicaciones tradicionales basadas en contenedores.
Una parte central de este trabajo es el endpoint picker (EPP). llm-d actúa como una implementación clave para la extensión de inferencia de la API inference extension (GAIE), y el EPP permite un enrutamiento programable y consciente de la inferencia. Esto significa que el sistema toma decisiones de enrutamiento basadas en el estado real del motor, optimizando las tasas de aciertos del caché KV y las características del acelerador de hardware. Este es un requisito fundamental para mantener un rendimiento sostenido bajo estrictos objetivos de nivel de servicio.
llm-d complementa y extiende el conjunto de soluciones existente dentro de la CNCF:
● Kubernetes: proporciona la plataforma de infraestructura clave para las cargas de trabajo de IA.
● Gateway API: Impulsa la alineación upstream para el enrutamiento específico de IA, asegurando que la gestión del tráfico siga siendo un componente core abierto.
● KServe: Actúa como el plano de control de alto nivel que se integra con llm-d para soportar características avanzadas como el servicio desagregado y el almacenamiento en caché de prefijos.
● LeaderWorkerSet: Utiliza elementos constitutivos nativos de Kubernetes para orquestar réplicas complejas multinodo y paralelismo experto, transformando motores como vLLM en cargas de trabajo cloud-native manejables.
● Prometheus & Grafana: Exporta métricas especializadas como el tiempo hasta el primer token (TTFT) para llevar la observabilidad empresarial a la IA generativa.
Escalando juntos el futuro de la inferencia
La colaboración ha sido el eje central de llm-d desde su inicio. Cuando anunciamos llm-d el año pasado en el Red Hat Summit, los esfuerzos conjuntos de los colaboradores fundadores del proyecto, los líderes de la industria y los académicos fueron un motivo de orgullo para Red Hat, no solo por lanzar llm-d, sino también por establecer una base colaborativa y preparada para el futuro. En los 10 meses transcurridos desde entonces, llm-d ha sido adoptado tanto para MaaS (Model-as-a-Service) privado de IA empresarial como para iniciativas de IA a gran escala. Más importante aún, las raíces abiertas del proyecto siguen profundizando con un creciente ecosistema de contribuyentes y socios. Desarrolladores y empresas están depositando su confianza en llm-d, y poner el proyecto a disposición de la CNCF respaldará y mantendrá un futuro abierto. El camino hacia una innovación de IA de código abierto exitosa es largo, pero juntos estamos construyendo la infraestructura para llegar allí.