به نظر میرسه که امسال مدلهای زبانی بزرگ (LLM) بسیاری منتشر بشه و تحولات زیادی رو با خودش به همراه داشته باشه. اخیراً دو مدل مهم و بدون اطلاع قبلی توسط شرکت openAI و meta منتشر شدن که هر کدوم میتونن تأثیرات مستقیمی رو در حوزه هوش مصنوعی از خودشون به جا بذارن: GPT-4o Mini و Llama 3.1 405B. توی این مقاله قصد داریم که بررسی کنیم که چطور این دوتا مدل میتونن آینده هوش مصنوعی رو شکل بدن.
GPT-4o Mini: مدل کوچک مقرون به صرفه
خب این مدل نسبت به مدلهای دیگهای که تا الان عرضه شده خیلی به صرفهاست. شما میتونید برای هر یک میلیون توکن ورودی (حدوداً هفتصد و پنجاه هزار کلمه) 15 سنت و برای هر یک میلیون توکن خروجی 60 سنت پرداخت کنید و از این مدل استفاده کنید. این قیمت حدوداً از مدل GPT-3.5 Turbo حدود 60 درصد ارزونتر هستش.
از جمله ویژگیهایی که این مدل رو جذابتر میکنه پشتیبانی صدا و تصویر رو به صورت API در اختیار کاربران قرار میده، پنجره محتوا (context window) اون 128هزار توکن هست، برای هر درخواستی که بهش داده میشه تا 16هزار توکن خروجی تولید میکنه و در نهایت با دادههای بهروزتر (تا اکتبر 2023) آموزش داده شده.
علاوه بر همه اینها، GPT-4o Mini از یه ساختار دستورات سلسله مراتبی پیروی میکنه تا در برابر حملات و تزریق درخواستها (prompt injection) جلوگیری کنه.
Llama 3.1 405B: بزرگترین مدل متنباز
Llama 3.1 در حال حاضر بزرگترین و قدرتمندترین مدل زبانی هست که انتشار داده شده. این مدل 405 میلیارد پارامتری که به صورت متن باز هست، به توسعهدهندگان این امکان رو میده که در صورت نیاز مدل رو برای کاربردهای خاص و با دادههای جدید آموزش بدن و استفاده کنن. شما برای دسترسی به این مدل کافیه یه سر به سایت شرکت متا بزنید یا اینکه مدل رو از سایت hugging face دانلود کنید. این مدل در حال حاضر با بیشتر از 15000 میلیارد توکن و 16000 کارت گرافیک H100 آموزش دیده و میتونی پنجره محتوایی 128000 توکنی رو در هشت زبان مختلف پشتیبانی کنه. برای ساخت همچین مدل عظیمی، 25 شرکت غول حوزه فناوری مثل گوگل کلاود، Nvidia، AWS و … کنار هم جمع شدن. با اینکه متنباز کردن این مدل رو خیلی دوست داشتم و کلاً این رویکرد رو خیلی خیلی خیلی درست میدونم، اما با توجه به زیرساختهایی که بهش اشاره کردم میتونیم بگیم که این مدل برای توسعهدهندههای فردی، شرکتهای کوچک، یا پژوهشگرها خیلی به کار نمیاد و تقریباً استفاده ازش امکانناپذیره.
مقایسه عملکرد
اگر بخوایم قضاوت بهتری رو نسبت به این دو مدل داشته باشیم، باید بتونیم اونها رو به صورت عددی و از جنبههای مختلف بررسی کنیم که اینجا من یک سریهاشو آوردم براتون:
جنبه ارزیابی | GPT-4o mini | Llama 3.1 405B |
هوش عمومی (MMLU) | 82.0٪ | 88.6٪ |
کدنویسی (HumanEval) | 87.2٪ | 89.0٪ |
استدلال ریاضی (Math) | 70.2٪ | 73.8٪ |
حل مساله عمومی (GPQA) | 40.2٪ | 51.1٪ |
مسائل ریاضی کلامی (GSM8K) | 87.0٪ | 96.8٪ |
با اینکه Llama3.1 405B در همه مواردی که مورد ارزیابی قرار گرفته از GPT-4o mini بهتر عملکرد داشته، اما به نظر من با توجه به اندازه و پیچیدگی دو مدل، نتایج GPT-4o mini خیلی هیجان برانگیزتر بود.
تفاوتهای کلیدی
همونطور که میدونید برای استفاده از GPT-4o mini کافیه که شما از APIهای در دسترس شرکت OpenAI استفاده کنید. اما برای استفاده از مدل Llama3.1 405B باید مدل رو خودتون دانلود و راهاندازی کنید. همینمساله به نظر میاد که از لحاظ هزینه، Llama3.1 خیلی گرون در بیاد و برای توسعهدهندگان نسبت به GPT-4o mini مقرون به صرفه نباشه. اما متنباز بودن Llama3.1 این امکان رو برای ما فراهم میکنه که با توجه به دامنه دادههای خودمون مدل رو دوباره آموزش بدیم و ازش استفاده کنیم. این در حالی هست که برای مدل GPT رو به ساختارهایی مثل RAG بیاریم که اون هم برای خودش چالشهایی داره. البته یه گزینه آموزش مدل رو هم جدیداً توی سایت OpenAI دیدم که باید دقیقتر بررسیش کنم ببینم داستانش چیه. از طرف دیگه GPT-4o mini مدل کوچیک ولی کارآمده، در صورتیکه Llama3.1 یک مدل متن بازه خیلی بزرگ هست.
موارد مورد استفاده
GPT-4o mini مدلی هست که میشه برای کاربردهای گستردهای به صورت real-time ازش استفاده کرد. این در حالی هست که میشه از Llama3.1 برای وظایف پیشرفتهتری مثل تولید دادههای مصنوعی و یا پژوهش استفاده کرد.
اهمیت کنسرسیومها برای مدلهای زبانی بزرگ
با اینکه Llama3.1 قابلیتهای بیسابقهای رو در دنیای هوش مصنوعی متن باز به ما ارائه داده، اما پیچیدگی و بزرگی بیش از اندازه این مدلها چالشهای زیادی رو برای پیادهسازی ایجاد میکنه. شرکت متا برای اینکه بتونه این مدل عظیمالجثه رو آموزش بده با طیف گستردهای از غولهای فناوری و ارائه دهندههای خدمات ابری همکاری کرده. این دسته از همکاریهای و ایجاد کنسرسیومها برای آموزش و توسعه مدلهای زبانی بزرگ مسأله مهمی هست که موفقیت رو میتونه تضمین کنه، و به توسعهدهندهها و سازمانها این امکان رو میده که بتونن از قابلیتهای بزرگ این مدلها بدون نیاز به زیرساختهای داخلی گسترده سازمان خودشون استفاده کنن. این اکوسیستمها در عین حال میتونن حمایتی برای دموکراتیزه کردن دسترسی عموم به AI پیشرفته رو تضمین کنن و نیازهای محاسباتی و زیرساختی این مدلهای بزرگ رو مدیریت کنند.