ارزشیابی مدل های زبانی بزرگ (LLMs)
تعداد مدلهای زبانی بزرگ (LLMs) در حال افزایش است. ارزشیابی و مقایسه آنها و تعیین بنچمارک یکی از دغدغههای مهم پژوهشگران این حوزه است. در راستای این مسئله، تیمی از اساتید و دانشجویان دانشگاه Berkeley دست به کار خلاقانهای زدهاند.
آنها پروژه اوپن سورسی به نام Chatbot Arena را راهاندازی کردهاند که مأموریت آن ایجاد یک پلتفرم جمعسپاری باز (open crowdsourced platform) برای جمعآوری بازخوردهای کاربران و ارزشیابی LLM ها با استفاده از سناریوهای واقعی است. آنها امکان چت و مقایسه در 33 مدل زبانی را مهیا کردهاند (مثل GPT، Cluade، Gemini، LLaMA و خیلیهای دیگر)
🔗 برای استفاده از این پروژه به سایت زیر مراجعه کنید:
چند روش برای استفاده از این سرویس وجود دارد:
☑️ Arena (Battle)
این گزینه در حقیقت نبرد بین LLM هاست! کافیست سؤال یا prompt خودتان را وارد کنید تا بصورت ناشناس، دو مدل زبانی به شما جواب بدهد. در آخر مشخص میکنید که جواب کدام مدل بهتر است: مدل A یا مدل B؟ اگر هر دو بد بودند گزینه Both are bad را انتخاب کنید و اگر هر دو برابر بودند و مدلی بر مدل دیگر غلبه نکرد، گزینه Tie را انتخاب کنید.
هر کدام از گزینههای فوق را انتخاب کنید، بلافاصله دو مدل زبانی که داشتند با هم مبارزه می کردند-و شما نمیدانستید کدام ها هستند-، اسمشان آشکار میشود.
☑️ Arena (side-by-side):
در این حالت شما دو مدل را از لیست مدلها انتخاب میکنید و با prompt واحد آنها را به مبارزه میطلبید. بنابراین برخلاف گزینه اولی، شما از قبل نام مدلها را میدانید.
☑️ Direct Chat:
در اینجا دیگر مبارزهای در کار نیست و شما هر بار یکی از مدلها را انتخاب و چت میکنید و در نهایت پاسخ داده شده را بر اساس نظر خودتان (نه در مقایسه با بقیه مدلها) ارزشیابی میکنید.
☑️ Vision Direct Chat:
در این جا فقط سه ورژن از مدل LLaVA وجود دارد که قابلیت درک تصاویر را دارند. کافیست تصویر مد نظرتان را آپلود کنید و درباره تصویر از این مدل سؤال کنید!
✅ درست است این سرویس برای ارزشیابی مدلها ایجاد شده است، ولی شما میتوانید برای اهداف دیگر هم از آن استفاده کنید. این سایت را پلتفرمی در نظر بگیرید که تعداد زیادی از مدلها را در یکجا ارائه میکند و شما براحتی میتوانید از هر کدام که خواستید، استفاده کنید. طبیعی است برخی از مدلهای غیر رایگان محدودیتهایی دارند.
گزارشی از این پروژه در قالب preprint در سرور Arxiv آپلود شده است برای مطالعه به این لینک مراجعه فرمایید.