ارزشیابی مدل‌ های زبانی بزرگ (LLMs)

ارزشیابی مدل‌ های زبانی بزرگ (LLMs)

تعداد مدل‌های زبانی بزرگ (LLMs) در حال افزایش است. ارزشیابی و مقایسه آنها و تعیین بنچمارک یکی از دغدغه‌های مهم پژوهشگران این حوزه است. در راستای این مسئله، تیمی از اساتید و دانشجویان دانشگاه Berkeley دست به کار خلاقانه‌ای زده‌اند.

آن‌ها پروژه اوپن سورسی به نام Chatbot Arena را راه‌اندازی کرده‌اند که مأموریت آن ایجاد یک پلتفرم جمع‌سپاری باز (open crowdsourced platform) برای جمع‌آوری بازخوردهای کاربران و ارزشیابی LLM ها با استفاده از سناریوهای واقعی است. آن‌ها امکان چت و مقایسه در 33 مدل زبانی را مهیا کرده‌اند (مثل GPT، Cluade، Gemini، LLaMA و خیلی‌های دیگر)

🔗 برای استفاده از این پروژه به سایت زیر مراجعه کنید:

https://chat.lmsys.org

ارزشیابی مدل‌ های زبانی بزرگ

چند روش برای استفاده از این سرویس وجود دارد:

☑️ ‎Arena (Battle)

این گزینه در حقیقت نبرد بین LLM هاست! کافیست سؤال یا prompt خودتان را وارد کنید تا بصورت ناشناس، دو مدل زبانی به شما جواب بدهد. در آخر مشخص می‌کنید که جواب کدام مدل بهتر است: مدل A یا مدل B؟ اگر هر دو بد بودند گزینه Both are bad را انتخاب کنید و اگر هر دو برابر بودند و مدلی بر مدل دیگر غلبه نکرد، گزینه Tie را انتخاب کنید.

هر کدام از گزینه‌های فوق را انتخاب کنید، بلافاصله دو مدل زبانی که داشتند با هم مبارزه می کردند-و شما نمی‌دانستید کدام ها هستند-، اسمشان آشکار می‌شود.

☑️ Arena (side-by-side):

در این حالت شما دو مدل را از لیست مدل‌ها انتخاب می‌کنید و با prompt واحد آنها را به مبارزه می‌طلبید. بنابراین برخلاف گزینه اولی، شما از قبل نام مدل‌ها را می‌دانید.

☑️ Direct Chat:

در اینجا دیگر مبارزه‌ای در کار نیست و شما هر بار یکی از مدل‌ها را انتخاب و چت می‌کنید و در نهایت پاسخ داده شده را بر اساس نظر خودتان (نه در مقایسه با بقیه مدل‌ها) ارزشیابی می‌کنید.

☑️ Vision Direct Chat:

در این جا فقط سه ورژن از مدل LLaVA وجود دارد که قابلیت درک تصاویر را دارند. کافیست تصویر مد نظرتان را آپلود کنید و درباره تصویر از این مدل سؤال کنید!

✅ درست است این سرویس برای ارزشیابی مدل‌ها ایجاد شده است، ولی شما می‌توانید برای اهداف دیگر هم از آن استفاده کنید. این سایت را پلتفرمی در نظر بگیرید که تعداد زیادی از مدل‌ها را در یکجا ارائه می‌کند و شما براحتی می‌توانید از هر کدام که خواستید، استفاده کنید. طبیعی است برخی از مدل‌های غیر رایگان محدودیت‌هایی دارند.

گزارشی از این پروژه در قالب preprint در سرور Arxiv آپلود شده است برای مطالعه به این لینک مراجعه فرمایید.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

×