مایکروسافت از مدلهای هوش مصنوعی Phi-3.5 رونمایی کرد_دوپلر
[ad_1]
نوشته و ویرایش شده توسط مجله دوپلر
مایکروسافت اگرچه همکاری نزدیکی با OpenAI دارد، اما تنها به کار با این شرکت اکتفا نمیکند. غول دنیای فناوری بهتازگی از سه مدل تازه Phi-3.5 رونمایی کرده که باتوجه به نتایج بنچمارکها میتوان آنها را رقیبی برای مدلهای گوگل و OpenAI دانست.
بر پایه گزارش VentureBeat، مایکروسافت بهتازگی سه مدل تازه سری Phi-3.5 را معارفه کرده است. هر سه مدل برای دانلود از پلتفرم Hugging Face تحت مجوز MIT در دسترس می باشند که امکان منفعت گیری تجاری و تحول بدون محدودیت را فراهم میکند. این سه مدل به شرح زیر می باشند:
مدلهای هوش مصنوعی Phi-3.5 مایکروسافت
به شکل شگفتانگیزی، هر سه مدل در تعدادی از تستهای بنچمارک شخص ثالث عملکردی تقریباً عالی دارند، حتی در برخی موارد از دیگر مدلهای هوش مصنوعی همانند جمینای ۱.۵ فلش گوگل، Llama 3.1 متا و حتی GPT-4o از OpenAI پیشی میگیرند. اراعه این چنین مدلهای قوی و متنبازی تحسین کاربران در شبکه اجتماعی ایکس را نیز در پی داشته است.
Phi-3.5 Mini Instruct یک مدل هوش مصنوعی سبک با ۳.۸ میلیارد پارامتر است که دارای پنجره عرصه با ۱۲۸ هزار توکن است. این مدل برای کارهایی که نیاز به قابلیتهای استدلال قوی دارند همانند کدنویسی، حل مسائل ریاضی و استدلال مبتنی بر علتایدهآل است. مدل Phi-3.5 Mini Instruct با وجود اندازه کوچک خود، عملکردی تقریباً عالی در تعدادی از بنچمارکها دارد و از دیگر مدلهای هماندازه خود همانند Llama-3.1-8B-instruct و Mistral-7B-instruct در بنچمارک RepoQA جلو میزند.

مدل Phi-3.5 MoE انگارً اولین مدل MoE (ترکیب متخصصان) مایکروسافت است، این مدل چندین نوع مدل گوناگون را در خود ترکیب میکند که هر کدام در ماموریت های متغیری تخصص دارند. مدل تازه مایکروسافت از ۴۲ میلیارد پارامتر فعال منفعت میبرد و پنجره عرصه آن ۱۲۸ هزار توکن است. این مدل بهنحوه چشمگیری GPT-4o mini را در بنچمارک MMLU 5 در حوزههایی همانند STEM، علوم انسانی، علوم اجتماعی در سطوح گوناگون ناکامی میدهد.

مدل Phi-3.5 Vision Instruct قابلیتهای پردازش متن و عکس را ادغام میکند. این مدل چندوجهی بهاختصاصی برای کارهایی همانند فهمیدن کلی عکس، تشخیص کاراکترها، فهمیدن نمودار، جدول و خلاصهسازی ویدئو مناسب است. همانند دو مدل قبلی، پنجره عرصه این مدل ۱۲۸ هزار توکن است.
مدل Phi-3.5 Mini Instruct روی ۳.۴ تریلیون توکن با منفعت گیری از ۵۱۲ پردازشگر گرافیکی H100-80G طی ۱۰ روز آموزش داده شده است، در حالی که مدل Vision Instruct روی ۵۰۰ میلیارد توکن با منفعت گیری از ۲۵۶ پردازشگر گرافیکی A100-80G در زمان ۶ روز آموزش دید. مدل Phi-3.5 MoE نیز که دارای معماری ترکیبی از متخصصان است، در طول ۲۳ روز روی ۴.۹ تریلیون توکن با ۵۱۲ پردازشگر گرافیکی H100-80G آموزش داده شد.
دسته بندی مطالب
مقالات کسب وکار
[ad_2]