HayCanal.com

Snowflake se asocia con Meta para alojar y optimizar la IA basada en código abierto

Snowflake se asocia con Meta para alojar y optimizar la IA basada en código abierto

Snowflake, compañía de IA Data Cloud, ha anunciado que alojará la colección Llama 3.1 de modelos de lenguaje multilingües de código abierto, LLM, en Snowflake Cortex AI para que las empresas puedan aprovechar y crear fácilmente potentes aplicaciones de IA a escala.

El lanzamiento incluye el LLM de código abierto más grande y potente de Meta, Llama 3.1 405B, con Snowflake desarrollando y abriendo el conjunto del sistema de inferencia para permitir la inferencia de alto rendimiento en tiempo real y democratizar aún más las potentes aplicaciones de procesamiento y generación de lenguaje natural. El equipo de investigación en IA de Snowflake, líder del sector, ha optimizado Llama 3.1 405B tanto para la inferencia como para el reajuste, soportando una ventana de contexto masiva de 128K desde el primer día, a la vez que permite la inferencia en tiempo real con una latencia de extremo a extremo hasta 3 veces menor y un rendimiento 1,4 veces mayor que las soluciones de código abierto existentes. Además, permite el reajuste masivo del modelo utilizando un único nodo de GPU, lo que elimina costes y complejidad para desarrolladores y usuarios, todo ello dentro de Cortex AI.

Al asociarse con Meta, Snowflake está proporcionando a los clientes formas fáciles, eficientes y fiables de acceder, ajustar y desplegar sin problemas los modelos más nuevos de Meta en la Nube de Datos de IA, con un enfoque integral de confianza y seguridad incorporado desde el inicio.

"El equipo de investigación de IA de Snowflake está abriendo un camino para que las empresas y la comunidad de código abierto puedan aprovechar modelos abiertos de última generación como Llama 3.1 405B para la inferencia y el reajuste de una manera que maximice la eficiencia", comenta Vivek Raghunathan, vicepresidente de ingeniería de IA de Snowflake. "No sólo estamos llevando los modelos de vanguardia de Meta directamente a nuestros clientes a través de Snowflake Cortex AI. Estamos armando a las empresas y a la comunidad de IA con nueva investigación y código fuente abierto que soporta ventanas de contexto de 128K, inferencia multinodo, paralelismo de canalización, cuantización de punto flotante de 8 bits y más para que pueda avanzar en IA un ecosistema más amplio".

El equipo de investigación de IA de Snowflake desvela la inferencia de código abierto y el reajuste más rápidos y eficientes

El equipo de investigación de IA de Snowflake continúa ampliando los límites de las innovaciones de código abierto a través de sus contribuciones regulares a la comunidad de IA y la transparencia en torno a cómo está construyendo tecnologías LLM de vanguardia. Junto con el lanzamiento de Llama 3.1 405B, el equipo de investigación de inteligencia artificial de Snowflake está abriendo su conjunto de soluciones de inferencia LLM masiva y optimización del sistema de reajuste en colaboración con DeepSpeed, Hugging Face, vLLM y la comunidad de IA en general. Este avance establece un nuevo avance para los sistemas de inferencia y ajuste de código abierto para modelos con cientos de miles de millones de parámetros.

La escala masiva de los modelos y los requisitos de memoria plantean importantes retos a los usuarios que pretenden lograr una inferencia de baja latencia para casos de uso en tiempo real, un alto rendimiento para la rentabilidad y un soporte de contexto prolongado para diversos casos de uso de IA generativa de nivel empresarial. Los requisitos de memoria para almacenar los estados del modelo y la activación también dificultan enormemente el ajuste fino, y los grandes clusters de GPU necesarios para ajustar los estados del modelo para el entrenamiento suelen ser inaccesibles para los científicos de datos.

La pila de optimización del sistema de inferencia LLM masiva y ajuste fino de Snowflake aborda estos retos. Mediante el uso de técnicas avanzadas de paralelismo y optimizaciones de memoria, Snowflake permite un procesamiento rápido y eficiente de la IA, sin necesidad de una infraestructura compleja y costosa. En el caso de Llama 3.1 405B, la pila del sistema Snowflake proporciona un alto rendimiento en tiempo real en un solo nodo de la GPU y admite una enorme ventana de contexto de 128.000 en configuraciones multinodo. Esta flexibilidad se extiende tanto al hardware de última generación como al heredado, lo que lo hace accesible a una gama más amplia de empresas. Además, los científicos de datos pueden ajustar Llama 3.1 405B utilizando técnicas de precisión mixta en menos GPU, lo que elimina la necesidad de grandes clusters de GPU. Como resultado, las organizaciones pueden adaptar e implantar potentes aplicaciones de IA generativa de nivel empresarial de forma fácil, eficiente y segura.

El equipo de investigación de IA de Snowflake también ha desarrollado una infraestructura optimizada para el ajuste fino que incluye destilación de modelos, barreras de seguridad, generación aumentada de recuperación (RAG) y generación de datos sintéticos para que las empresas puedan empezar fácilmente con estos casos de uso dentro de Cortex AI.

Snowflake Cortex AI refuerza su compromiso de ofrecer una IA fiable y responsable

La seguridad de la IA es de suma importancia para Snowflake y sus clientes. Como resultado, Snowflake está haciendo que Snowflake Cortex Guard esté generalmente disponible para salvaguardar aún más contra el contenido dañino para cualquier aplicación LLM o activo construido en Cortex AI - ya sea usando los últimos modelos de Meta, o los LLMs disponibles de otros proveedores líderes incluyendo AI21 Labs, Google, Mistral AI, Reka, y el propio Snowflake. Cortex Guard aprovecha Llama Guard 2 de Meta, desbloqueando aún más la IA de confianza para que las empresas puedan asegurarse de que los modelos que están utilizando son seguros.


Noticias que marcan tendencia en el sector IT

Últimas Noticias

Nombramientos