Tecnología y Ciencia Sigue

Microsoft lanza los modelos Phi-4-multimodal y Phi-4-mini para brindar capacidades de IA avanzadas a los desarrolladores

Microsoft ha anunciado dos nuevos modelos de lenguaje pequeños (SLM, por sus siglas.

Jueves, 27 de Febrero de 2025
(106085)

Microsoft ha anunciado dos nuevos modelos de lenguaje pequeños (SLM, por sus siglas en inglés) de la familia Phi, Phi-4-multimodal y Phi-4-mini, que están diseñados para brindar a los desarrolladores capacidades de Inteligencia Artificial (IA) avanzadas en tareas de procesamiento de voz, texto e imágenes.

La compañía ha comentado en su blog que estos modelos son "ideales para escenarios extremos y entornos con limitaciones de cómputo" y ya se están utilizando para explorar diferentes casos de uso en diversas industrias, incluida la detección de anomalías en la fabricación o la mejora de las experiencias de los clientes en el comercio minorista.

Phi-4-multimodal es un modelo de 5.600 millones de parámetros, que integra procesamiento de voz, imágenes y texto en una única arquitectura unificada. Debido a que aprovecha técnicas avanzadas de aprendizaje intermodal, permite interacciones "más naturales y sensibles al contexto", según ha explicado Microsoft.

Este modelo puede procesar tanto imágenes como audio a la vez, así como gráficos, tablas y documentos, superando a modelos especializados como WhisperV3 y SeamlessM4T-v2-Large, en las tareas de reconocimiento automático de voz y traducción. Además, ofrece una inferencia de baja latencia y alta eficiencia mientras se optimiza la ejecución en el dispositivo y se reduce la sobrecarga computacional.

Microsoft también ha señalado que Phi-4-multimodal "se encuentra entre los pocos modelos abiertos que implementan con éxito el resumen de voz" y alcanzan niveles de rendimiento de GPT-4o. No obstante, presenta una brecha con otros modelos como Gemini-2.0-Flash en tareas de respuesta a preguntas, por lo que está trabajando para mejorar esta capacidad en las próximas iteraciones.

Phi-4-mini, por su parte, es un modelo de 3.800 millones de parámetros, con una capacidad de responder a consultas agrupadas, un vocabulario de 200.000 palabras y "está diseñado para la velocidad y la eficiencia". En este sentido, la marcha ha indicado que, a pesar de que tiene un tamaño compacto, sigue superando a los modelos más grandes en tares basadas en texto, incluido el razonamiento, las matemáticas, el seguimiento de instrucciones y la codificación.

Este modelo admite secuencias de hasta 128.000 tokens y brinda alta precisión y escalabilidad para que los desarrolladores puedan adaptarlo en aplicaciones de IA avanzadas. Además, se puede integrar en interfaces de programación estructuradas.

Microsoft ha señalado finalmente que tanto Phi-4-multimodal como y Phi-4-mini ya están disponibles en Azure AI Foundry,Hugging Face y Nvidia API Catalog, con una experiencia multimodal completa.

Cómo activar el "modo comparsa" en WhatsApp

Tecnología y Ciencia

El logo de la aplicación puede cambiarse por una imagen alusiva a esta particularidad del Carnaval; se trata de un cambio estético que se hace a través de un programa llamado launcher