بررسی GPT-4o Mini و Llama 3.1: دو مسیر به سوی نوآوری در هوش مصنوعی!

به نظر می‌رسه که امسال مدل‌های زبانی بزرگ (LLM) بسیاری منتشر بشه و تحولات زیادی رو با خودش به همراه داشته باشه. اخیراً دو مدل مهم و بدون اطلاع قبلی توسط شرکت openAI و meta منتشر شدن که هر کدوم می‌تونن تأثیرات مستقیمی رو در حوزه هوش مصنوعی از خودشون به جا بذارن: GPT-4o Mini و Llama 3.1 405B. توی این مقاله قصد داریم که بررسی کنیم که چطور این دوتا مدل می‌تونن آینده هوش مصنوعی رو شکل بدن.


GPT-4o Mini: مدل کوچک مقرون به صرفه

خب این مدل نسبت به مدل‌های دیگه‌ای که تا الان عرضه شده خیلی به صرفه‌است. شما می‌تونید برای هر یک میلیون توکن ورودی (حدوداً هفتصد و پنجاه هزار کلمه) 15 سنت و برای هر یک میلیون توکن خروجی 60 سنت پرداخت کنید و از این مدل استفاده کنید. این قیمت حدوداً از مدل GPT-3.5 Turbo حدود 60 درصد ارزون‌تر هستش.
از جمله ویژگی‌هایی که این مدل رو جذاب‌تر می‌کنه پشتیبانی صدا و تصویر رو به صورت API در اختیار کاربران قرار می‌ده، پنجره محتوا (context window) اون 128هزار توکن هست، برای هر درخواستی که بهش داده می‌شه تا 16هزار توکن خروجی تولید می‌کنه و در نهایت با داده‌های به‌روزتر (تا اکتبر 2023) آموزش داده شده.
علاوه بر همه این‌ها، GPT-4o Mini از یه ساختار دستورات سلسله مراتبی پیروی می‌کنه تا در برابر حملات و تزریق درخواست‌ها (prompt injection) جلوگیری کنه.


Llama 3.1 405B: بزرگترین مدل متن‌باز

Llama 3.1 در حال حاضر بزرگترین و قدرتمند‌ترین مدل زبانی هست که انتشار داده شده. این مدل 405 میلیارد پارامتری که به صورت متن باز هست، به توسعه‌دهندگان این امکان رو میده که در صورت نیاز مدل رو برای کاربردهای خاص و با داده‌های جدید آموزش بدن و استفاده کنن. شما برای دسترسی به این مدل کافیه یه سر به سایت شرکت متا بزنید یا اینکه مدل رو از سایت hugging face دانلود کنید. این مدل در حال حاضر با بیشتر از 15000 میلیارد توکن و 16000 کارت گرافیک H100 آموزش دیده و می‌تونی پنجره محتوایی 128000 توکنی رو در هشت زبان مختلف پشتیبانی کنه. برای ساخت همچین مدل عظیمی، 25 شرکت غول حوزه فناوری مثل گوگل کلاود، Nvidia، AWS و … کنار هم جمع شدن. با اینکه متن‌باز کردن این مدل رو خیلی دوست داشتم و کلاً این رویکرد رو خیلی خیلی خیلی درست می‌دونم، اما با توجه به زیرساخت‌هایی که بهش اشاره کردم می‌تونیم بگیم که این مدل برای توسعه‌دهنده‌های فردی، شرکت‌های کوچک، یا پژوهشگرها خیلی به کار نمیاد و تقریباً استفاده ازش امکان‌ناپذیره.


مقایسه عملکرد

اگر بخوایم قضاوت بهتری رو نسبت به این دو مدل داشته باشیم، باید بتونیم اون‌ها رو به صورت عددی و از جنبه‌های مختلف بررسی کنیم که این‌جا من یک سری‌هاشو آوردم براتون:


جنبه ارزیابی

GPT-4o mini

Llama 3.1 405B

هوش عمومی (MMLU)

82.0٪

88.6٪

کدنویسی (HumanEval)

87.2٪

89.0٪

استدلال ریاضی (Math)

70.2٪

73.8٪

حل مساله عمومی (GPQA)

40.2٪

51.1٪

مسائل ریاضی کلامی (GSM8K)

87.0٪

96.8٪
مقایسه عملکردی

با اینکه Llama3.1 405B در همه مواردی که مورد ارزیابی قرار گرفته از GPT-4o mini بهتر عملکرد داشته، اما به نظر من با توجه به اندازه و پیچیدگی دو مدل، نتایج GPT-4o mini خیلی هیجان برانگیزتر بود.

تفاوت‌های کلیدی

همونطور که می‌دونید برای استفاده از GPT-4o mini کافیه که شما از APIهای در دسترس شرکت OpenAI استفاده کنید. اما برای استفاده از مدل Llama3.1 405B باید مدل رو خودتون دانلود و راه‌اندازی کنید. همین‌مساله به نظر میاد که از لحاظ هزینه، Llama3.1 خیلی گرون در بیاد و برای توسعه‌دهندگان نسبت به GPT-4o mini مقرون به صرفه نباشه. اما متن‌باز بودن Llama3.1 این امکان رو برای ما فراهم می‌کنه که با توجه به دامنه داده‌های خودمون مدل رو دوباره آموزش بدیم و ازش استفاده کنیم. این در حالی هست که برای مدل GPT رو به ساختارهایی مثل RAG بیاریم که اون هم برای خودش چالش‌هایی داره. البته یه گزینه آموزش مدل رو هم جدیداً توی سایت OpenAI دیدم که باید دقیق‌تر بررسیش کنم ببینم داستانش چیه. از طرف دیگه GPT-4o mini مدل کوچیک ولی کارآمده، در صورتی‌که Llama3.1 یک مدل متن بازه خیلی بزرگ هست.


موارد مورد استفاده

GPT-4o mini مدلی هست که میشه برای کاربردهای گسترده‌ای به صورت real-time ازش استفاده کرد. این در حالی هست که میشه از Llama3.1 برای وظایف پیشرفته‌تری مثل تولید داده‌های مصنوعی و یا پژوهش استفاده کرد.


اهمیت کنسرسیوم‌ها برای مدل‌های زبانی بزرگ

با اینکه Llama3.1 قابلیت‌های بی‌سابقه‌ای رو در دنیای هوش مصنوعی متن باز به ما ارائه داده، اما پیچیدگی و بزرگی بیش از اندازه این مدل‌ها چالش‌های زیادی رو برای پیاده‌سازی ایجاد می‌کنه. شرکت متا برای اینکه بتونه این مدل عظیم‌الجثه رو آموزش بده با طیف گسترده‌ای از غول‌های فناوری و ارائه دهنده‌های خدمات ابری همکاری کرده. این دسته از همکاری‌های و ایجاد کنسرسیوم‌ها برای آموزش و توسعه مدل‌های زبانی بزرگ مسأله مهمی هست که موفقیت رو می‌تونه تضمین کنه، و به توسعه‌دهنده‌ها و سازمان‌ها این امکان رو می‌ده که بتونن از قابلیت‌های بزرگ این مدل‌ها بدون نیاز به زیرساخت‌های داخلی گسترده سازمان خودشون استفاده کنن. این اکوسیستم‌ها در عین‌ حال می‌تونن حمایتی برای دموکراتیزه کردن دسترسی عموم به AI پیشرفته رو تضمین کنن و نیازهای محاسباتی و زیرساختی این مدل‌های بزرگ رو مدیریت کنند.

ارسال پاسخ

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *