شرکت اوپن‌ای‌آی روز چهارشنبه از عرضه دو مدل جدید استدلالی با نام‌های o3  و o4-mini  خبر داد؛ مدل‌هایی که طراحی شده‌اند تا پیش از پاسخ دادن، ابتدا توقف کرده و به شکل گام‌به‌گام مسئله را تحلیل کنند.

به گفته شرکت، مدل o3  پیشرفته‌ترین مدل استدلالی اوپن‌ای‌آی  تا به امروز است و در آزمون‌های ارزیابی ریاضی، کدنویسی، استدلال، علوم و درک بصری عملکرد بهتری نسبت به مدل‌های پیشین این شرکت دارد. مدلo4-mini  نیز ترکیبی متعادل از قیمت، سرعت و عملکرد را ارائه می‌دهد ؛ سه عاملی که معمولاً برای توسعه‌دهندگان در انتخاب مدل‌های هوش مصنوعی اهمیت زیادی دارد.

بازتعریف استدلال در نسل جدید مدل‌های هوش مصنوعی

برخلاف مدل‌های پیشین، o3   وo4-mini  قادرند از ابزارهای موجود در چت‌جی‌پی‌تی مانند مرور وب، اجرای کد پایتون، پردازش تصویر و تولید تصویر استفاده کنند. از امروز، این مدل‌ها به همراه نسخه‌ای قوی‌تر به نام o4-mini-high (که برای افزایش دقت، زمان بیشتری صرف پاسخ‌گویی می‌کند) برای مشترکان طرح‌های Pro، Plus و Team در دسترس قرار گرفته‌اند.

این مدل‌ها بخشی از تلاش اوپن‌ای‌آی برای پیشی‌گرفتن از رقبای قدرتمندی مانند گوگل، متا، xAI، آنتروپیک و DeepSeek در رقابت تنگاتنگ جهانی در حوزه هوش مصنوعی به شمار می‌روند. هرچند اوپن‌ای‌آی نخستین شرکتی بود که مدل استدلالی(با مدل o1  )عرضه کرد، اما رقبا به‌سرعت مدل‌هایی با عملکرد مشابه یا بهتر معرفی کردند. امروزه مدل‌های استدلالی، بخش اصلی رقابت در حوزه هوش مصنوعی شده‌اند.

در ابتدا قرار نبود o3  در چت‌جی‌پی‌تی منتشر شود. سم آلتمن، مدیرعامل اوپن‌ای‌آی ، در فوریه اعلام کرده بود که این شرکت در حال سرمایه‌گذاری روی جایگزینی پیچیده‌تر و مبتنی بر فناوری o3 است. با این حال، به نظر می‌رسد فشار رقابتی باعث تغییر مسیر شرکت شده است.

اوپن‌اِی‌آی می‌گوید مدل o3 توانسته در آزمون SWE-bench verified (بدون کمک ساختارهای اختصاصی)، که توانایی کدنویسی را می‌سنجد، امتیاز ۶۹.۱٪ کسب کند. مدل o4-mini نیز عملکردی مشابه با امتیاز ۶۸.۱٪ ثبت کرده است. برای مقایسه، مدل قبلی o3-mini امتیاز ۴۹.۳٪ و مدل Claude 3.7 Sonnet از آنتروپیک امتیاز ۶۲.۳٪ را کسب کرده‌اند.

گام بلندی به‌سوی ادراک چندوجهی: از تحلیل تصویر تا اجرای کد

اوپن‌ای‌آی همچنین اعلام کرده که o3  و o4-mini نخستین مدل‌های این شرکت هستند که می‌توانند “با تصویر فکر کنند”. کاربران می‌توانند تصاویری مانند دیاگرام‌ها یا دست‌نوشته‌های وایت‌برد را در چت‌جی‌پی‌تی بارگذاری کنند و مدل‌ها، این تصاویر را در مرحله‌ی زنجیره‌فکری خود تحلیل کرده و سپس پاسخ دهند. این توانایی جدید به آن‌ها امکان درک تصاویر مبهم یا بی‌کیفیت و انجام عملیات‌هایی مانند بزرگ‌نمایی یا چرخاندن تصویر در حین تحلیل را می‌دهد.

فراتر از تحلیل تصویر، این مدل‌ها همچنین می‌توانند کد پایتون را به‌طور مستقیم در مرورگر (از طریق قابلیت Canvas  )اجرا کرده و برای سؤالات مرتبط با رویدادهای روز، در وب جست‌وجو کنند.

علاوه بر چت‌جی‌پی‌تی ، هر سه مدل (o3، o4-mini و o4-mini-high )از طریق رابط‌های API برای توسعه‌دهندگان نیز در دسترس هستند؛ از جمله API تکمیل گفت‌وگو و API پاسخ‌ها، که به مهندسان امکان می‌دهد اپلیکیشن‌هایی مبتنی بر این مدل‌ها ایجاد کنند.

در زمینه قیمت‌گذاری، OpenAI هزینه نسبتاً پایینی برای o3 در نظر گرفته است:
۱۰ دلار برای هر یک میلیون توکن ورودی (تقریباً معادل ۷۵۰ هزار واژه یا طول مجموعه‌ی ارباب حلقه‌ها) و ۴۰ دلار برای هر یک میلیون توکن خروجی.
برای o4-mini نیز همان قیمت مدل o3-mini حفظ شده است: ۱.۱۰ دلار برای ورودی و ۴.۴۰ دلار برای خروجی.

اوپن‌اِی‌آی اعلام کرده که در هفته‌های آینده نسخه‌ای پیشرفته‌تر از مدل o3 با نام o3-pro  را عرضه خواهد کرد که از منابع محاسباتی بیشتر استفاده می‌کند و فقط برای مشترکان ChatGPT Pro  در دسترس خواهد بود.

سم آلتمن همچنین اشاره کرده که o3 و o4-mini احتمالاً آخرین مدل‌های استدلالی مستقل این شرکت پیش از عرضه GPT-5 خواهند بود؛ مدلی که قرار است فناوری مدل‌های سنتی مانند GPT-4.1 را با مدل‌های استدلالی یکپارچه سازد.

source

توسط elmikhabari.ir