مایکروسافت از مدلهای زبانی Phi-4 که شامل دو مدل Phi-4-multimodal و Phi-4-mini میشوند، معرفی کرد. این مدلها به خانواده مدلهای کوچک زبانی (SLM) این شرکت اضافه شدهاند و اکنون از طریق Azure AI Foundry، Hugging Face و NVIDIA API Catalog در دسترس هستند.
بهگزارش تکراتو به نقل از analyticsindiamag، مدل Phi-4-multimodal که دارای ۵.۶ میلیارد پارامتر است، قابلیت پردازش همزمان صوت، تصویر و متن را دارد. ویژو چن، معاون هوش مصنوعی مولد در مایکروسافت، درباره این مدل گفت:

«با بهرهگیری از تکنیکهای پیشرفته یادگیری بینحالتی، این مدل امکان تعامل طبیعیتر و درک دقیقتر محتوا را فراهم میکند و دستگاهها را قادر میسازد تا ورودیهای مختلف را بهطور همزمان پردازش و تحلیل کنند.»
سال گذشته، مایکروسافت مدل Phi-4 را با ۱۴ میلیارد پارامتر عرضه کرد که توانایی بالایی در استدلال پیچیده دارد.
مدل Phi-4-multimodal در کاربردهایی مانند تحلیل اسناد و تشخیص گفتار عملکرد قابلتوجهی دارد. در آزمونهای چندحالتی صوتی و تصویری، این مدل توانسته است مدلهای گوگل جمنای 2 فلش و جمنای 1.5 پرو را پشت سر بگذارد. مایکروسافت ادعا میکند که عملکرد آن قابلمقایسه با GPT-4o از OpenAI است.
این شرکت همچنین اعلام کرده که این مدل در وظایف مرتبط با گفتار عملکرد بسیار خوبی داشته و مدلهایی مانند WhisperV3 و SeamlessM4T-v2-Large را در تشخیص خودکار گفتار و ترجمه صوتی پشت سر گذاشته است. همچنین، در رتبهبندی Hugging Face OpenASR با نرخ خطای کلمه ۶.۱۴٪ در جایگاه نخست قرار گرفته است. این مدل در تحلیل اسناد و نمودارها، تشخیص متن در تصویر (OCR) و استدلال علمی بصری نتایج قابلتوجهی ارائه داده است.
در مقابل، مدل Phi-4-mini یک مدل مبتنی بر متن با ۳.۸ میلیارد پارامتر است که برای وظایف استدلال، برنامهنویسی و پردازش متون طولانی طراحی شده است. این مدل قادر است توکنهایی تا طول ۱۲۸,۰۰۰ واحد را پردازش کند و درعینحال، بهینهتر از نظر محاسباتی عمل کند. همچنین، از فراخوانی توابع پشتیبانی میکند که امکان ادغام با ابزارهای خارجی و APIها را فراهم میکند.
مدلهای زبانی Phi-4 برای محیطهای محاسباتی محدود بهینه شدهاند و با استفاده از ONNX Runtime قابلیت اجرا در پلتفرمهای مختلف را دارند، ضمن اینکه تأخیر پردازشی کمتری ایجاد میکنند.
مایکروسافت در حال ادغام این مدلها در اکوسیستم خود، از جمله برنامههای ویندوز و رایانههای Copilot+ است. ویوک پرادیپ، معاون و مهندس ارشد تیم علوم کاربردی ویندوز، میگوید:
«رایانههای کوپایلوت پلاس از تواناییهای Phi-4-multimodal بهره خواهند برد تا بدون مصرف انرژی بالا، قدرت مدلهای پیشرفته SLM مایکروسافت را ارائه دهند.»
توسعهدهندگان اکنون میتوانند از طریق چندین پلتفرم به مدلهای Phi-4-multimodal و Phi-4-mini دسترسی داشته باشند و کاربردهای آنها را در صنایعی مانند مالی، سلامت و فناوری خودروسازی بررسی کنند.