Svoboda | Graniru | BBC Russia | Golosameriki | Facebook
BBC Russian

В РФ появилась русскоязычная платформа для оценки генеративных нейросетей

BBC Russian2 мин
BBC Russian1.5K

В России появилась первая платформа на русском языке для оценки качества больших языковых моделей на основе пользовательских задач. Платформу под названием LLM Arena создал разработчик Роман Куцев в коллаборации с экспертами по нейросетям TrainingData.ru. Платформа позволяет в режиме реального времени тестировать русскоязычные нейросети и оценивать качество их ответов в соответствии с запросом. 

Для сравнения пользователю платформы предлагаются две случайные модели. Он может написать любой запрос, сравнить ответы моделей и выбрать лучшие. Если ответы нерелевантные или одинаковые, это также можно отметить. На основе полученных оценок формируется рейтинг генеративных нейросетей на русском языке.

Сейчас пользователям платформы доступны для тестирования 21 ИИ-модели, среди которых как зарубежные (ChatGPT, LLaMa), так и российские (YandexGPT, GigaChat, Saiga). Список доступных нейросетей регулярно пополняется: новые модели смогут добавить и их разработчики. 

«Наша цель — создать объективный, открытый и актуальный рейтинг языковых моделей на русском языке. Даже несмотря на то, что в мире появляется всё больше бенчмарков, позволяющих сравнивать модели, протестировать российские LLM на родном языке на реальных пользовательских задачах очень сложно. Та же LMSYS Chatbot Arena не предоставляет доступ ни к одной российской нейросети. Поэтому нам и пришла в голову идея создать собственную платформу, чтобы пользователи могли сами сравнивать российские и иностранные генеративные нейросети и делать собственные выводы», — рассказал Роман Куцев.

Разработчики планируют в ближайшее время добавить на платформу новые возможности, которые позволят оценивать качество ответов по разным категориям запросов, например, написание кода, решение сложных вопросов или поддержка длинного контекста беседы. В перспективе можно будет сравнивать ответы нейросетей по мультимодальным задачам. Например, оценить, насколько хорошо модель понимает, что на картинке, или справляется с генерацией видео по тексту. 

Отечественный бенчмарк качества генеративных нейросетей создан по открытой лицензии и работает по принципу рейтинга LMSYS Chatbot Arena.

Теги:
Хабы:
BBC Russian+8
BBC Russian2

Другие новости

Истории

Ближайшие события

27 августа – 7 октября
Премия digital-кейсов «Проксима»
МоскваОнлайн
11 сентября
Митап по BigData от Честного ЗНАКа
Санкт-ПетербургОнлайн
14 сентября
Конференция Practical ML Conf
МоскваОнлайн
19 сентября
CDI Conf 2024
Москва
20 – 22 сентября
BCI Hack Moscow
Москва
24 сентября
Конференция Fin.Bot 2024
МоскваОнлайн
25 сентября
Конференция Yandex Scale 2024
МоскваОнлайн
28 – 29 сентября
Конференция E-CODE
МоскваОнлайн
28 сентября – 5 октября
О! Хакатон
Онлайн
30 сентября – 1 октября
Конференция фронтенд-разработчиков FrontendConf 2024
МоскваОнлайн