AI Воспроизводимый рейтинг: можно ли с помощью краудсорсинга предсказать выбор пользователей LLM?

AI

Редактор
Регистрация
23 Август 2023
Сообщения
2 822
Лучшие ответы
0
Реакции
0
Баллы
51
Offline
#1
Всем привет! Сегодня хотим поделиться историей нашего эксперимента, который начался с простого вопроса: а можно ли с помощью краудсорсинга воссоздать рейтинг нейросетей, который мы получаем от тысяч реальных пользователей на нашем сайте LLM Arena?

Причём не в жёсткой парадигме «оцени по инструкции», а приближаясь к реальному user preference, когда пользователь выбирает то, что ему субъективно больше нравится.

TL/DR:


  • Мы можем за 3 дня воспроизвести пользовательский рейтинг LLM с точностью 90%+;


  • У нас есть отобранная команда аннотаторов и автоматический фильтр качества;


  • Мы научились фильтровать фрод и мусорные промпты лучше, чем стандартные крауд-платформы;;


  • Теперь мы можем быстро тестировать новые модели и выдавать предрейтинг до массового запуска.
Зачем всё это было нужно?


Наша цель была амбициозной – понять, сможем ли мы с помощью экспертов с крауд-платформ воспроизвести рейтинг моделей, который органически формируется на сайте. Причём не заставляя их работать по строгой инструкции, а позволяя выбирать ответ, который им, как обычным пользователям, субъективно нравится больше.

Для чистоты эксперимента мы отобрали 17 актуальных моделей, которые появились на LLM Arena в 2025 году и уже имели достаточно оценок в основном лидерборде на llmarena.ru. За время работы с официальной Arena мы установили, что планка в 300+ голосов на модель обеспечивает относительно стабильные результаты. Поэтому именно такую выборку мы использовали и в крауд-эксперименте, что дало неплохую базу для сравнения.

Почему краудсорсинг, а не “LLM as a judge”?


"LLM as a judge" выглядит привлекательно: быстро, дешево и масштабируемо. Однако автоматическая оценка несет в себе предвзятости моделей, упускает тонкости человеческого восприятия и требует постоянной перекалибровки.

Краудсорсинг же медленнее и затратнее, но дает нам главное – объективный взгляд живых людей и понимание реальных потребностей пользователей.

Этап №1: Базовый отбор и оглушительный провал


Мы решили поручить разметчикам самостоятельно составлять и оценивать запросы, чтобы каждый формулировал их в своей области экспертизы, охватывая весь цикл — от создания до выбора лучшего ответа модели.

Для запуска выбрали крауд-платформу с фильтрами: только пользователи с ПК, с образованием и антифрод против слишком быстрых ответов.

Однако результат оказался провальным: вместо осмысленных задач мы получили поток примитивных запросов вроде «Привет», «2+2» или «Какая сегодня погода?», а рейтинги не имели ничего общего с пользовательскими.

Этап №2: Экзамен на адекватность


Для фильтрации халтурщиков и ботов, мы придумали входной экзамен для аннотаторов. Логика простая: если человек может внимательно прочитать запрос и осознанно выбрать лучший ответ из нескольких вариантов, значит, он подойдет и для создания качественных запросов, и для вдумчивой оценки результатов.

В экзамен вошли контрольные задания с заведомо правильными ответами:

Запрос: Расскажи про ворк энд Холидей визу в Австралию для россиян


  • Вариант А: К сожалению, на данный момент виза типа Working Holiday (Рабочая туристическая виза, подклассы 417 и 462) в Австралию недоступна для граждан России…


  • Вариант Б: Work and Holiday (Work and Holiday) виза в Австралию для россиян: Основные условия: 1. Возраст: 18-30 лет 2. Действует 12 месяцев 3. Можно работать до 6 месяцев у одного работодателя…

Экзамен позволил показать полезные запросы, отсекать бессмысленные и проверить критическое мышление, в итоге прошедшие порог в 80% шли дальше.

После первой волны мы вручную проверили запросы тех, кто прошел экзамен и увидели, что система на этом этапе работает неидеально: часть прошедших всё равно генерировала слабые или «синтетические» промпты. Поэтому мы усилили отбор и усложнили фильтрацию.

Этап №3: Проверяем через своего ИИ-судью


В качестве решения мы протестировали использование LLM для автоматической фильтрации простых и неинформативных промптов.

Самое сложное было не скатиться в формализм и не убить креативность, объясняя, почему «Привет, как дела?» плохой запрос для оценки модели.

В итоге мы сформулировали свои критерии для качественных и некачественных запросов.

Качественный запрос — это чёткая и конкретная формулировка задачи с ограничениями по длине, стилю или формату, достаточным контекстом или примерами. Он может требовать логики и анализа, касаться специализированных тем или определённых ролей и аудиторий, включать многоаспектные задания (редактирование, стилизацию, переформулировку) либо запрос на объяснение понятий и связей.

Некачественный запрос — напротив, отличается тривиальностью или слабой информативностью, бессмысленностью и «троллингом», отсутствием явной задачи, избыточным копипастом без инструкций или шаблонностью, характерной для автоматически сгенерированных промптов.

Для оценки эффективности нашего ИИ-фильтра мы провели исследование на выборке из 384 запросов от аннотаторов. Три эксперта (особую благодарность выражаем Александру Кукушкину за помощь в разметке) независимо классифицировали каждый запрос как «хороший» или «плохой», дополняя и уточняя критерии оценки в процессе работы.

Полученные данные выявили важную проблему субъективности оценок:


  • Согласованность с консенсусом: доля совпадений между решениями отдельных экспертов и результатом голосования по принципу большинства составила около 80%.


  • Межэкспертная согласованность: показатели совпадения между экспертами варьировались от 60% до 70%.

Это показало, что даже эксперты не всегда сходятся в оценке запроса, а автоматизировать этот процесс еще сложнее.

Строгий, но обоснованный фильтр


Анализ показал: строгий фильтр относит к «плохим» даже спорные запросы, но это совпадало с нашими задачами по минимизации сомнительных случаев в нашей системе отбора аннотаторов.

Мы предпочли потерять часть пограничных, но добросовестных кандидатов, чем допустить попадание мошеннических и некачественных запросов в основную выборку. Исходя из этих соображений, мы сохранили текущие настройки фильтра и перешли к следующему этапу работы.

Ниже представлены метрики по “модели-фильтру”.

 

precision

recall

f1-score

support

Некачественные запросы​

0.27​

0.88​

0.42​

51​

Качественные запросы​

0.97​

0.64​

0.77​

333​

accuracy​

  

0.67​

384​

macro avg​

0.62​

0.76​

0.60​

384​

weighted avg​

0.88​

0.67​

0.73​

384​


Финальный флоу отбора


В итоге мы пришли к многоступенчатой системе отбора, которая наконец-то заработала:


  1. Экзамен: Проходной балл ≥ 80%.


  2. 20 тестовых промптов от аннотаторов: Наш ИИ-фильтр должен одобрить > 70% из них.

Кто прошёл оба этапа попадает в пул доверенных экспертов.

На этом этапе мы уже получили сильный результат: с отобранными аннотаторами по нашей системе экзаменации без дополнительных фильтров корреляция с продакшен-рейтинга достигала практически 90% по Пирсону.



На графике крест на каждой точке показывает неопределённость рейтинга конкретной модели в двух экспериментах.


  • X-координата точки: медиана рейтинга модели mm по всем раундам исходного эксперимента (прод.рейтинг): x=median(original[:, m])x=median(original[:, m]).


  • Y-координата точки: медиана рейтинга модели mm по всем раундам эксперимента сравнения (нашего исследования): y=median(experiment[:, m])y=median(experiment[:, m]).


  • Горизонтальная черта (по оси X): бутстреп-интервал рейтинга модели в исходном эксперименте (прод.рейтинге).


  • Вертикальная черта (по оси Y): бутстреп-интервал рейтинга модели в эксперименте сравнения (нашего исследования).

Но мы не остановились и пошли дальше — протестировали несколько дополнительных гипотез, чтобы исследование стало еще прозрачнее, а результаты валиднее. Они подтвердили отдельные эффекты, о которых мы расскажем ниже.

Мы дополнительно протестировали применение модель-фильтра к этим же данным. Корреляция при этом почти не изменилась (≈88%), что показало устойчивость методологии: на больших масштабах фильтр не вносит существенного искажения.



Поэтому мы используем модель-фильтр только на этапе отбора аннотаторов, а основная валидация строится на финальном флоу, о котором рассказали выше.

Дополнительное исследование: Фильтрация по длине ответов


В рамках дополнительных проверок мы исследовали традиционную гипотезу о том, что длина ответа может влиять на восприятие его качества: пользователи зачастую склонны считать более длинные тексты содержательнее.

Чтобы протестировать этот эффект, мы рассчитали среднюю длину ответов в парах A и B, нормализовали разницу и исключили случаи, где она превышала 0.5 (критический дисбаланс по объёму текста).



Результаты показали, что корреляция с продакшен-рейтингом осталась на столь же высоком уровне:


  • без фильтра: Пирсон 0.8945, Спирман 0.8578


  • с фильтром по длине: Пирсон 0.9019, Спирман 0.8627

Таким образом, фильтрация подтвердила наличие эффекта восприятия длины, но серьёзного изменения метрик не продемонстрировала. Это стало дополнительным подтверждением устойчивости нашей методологии: решающим фактором качества остаётся именно отбор аннотаторов.

Мы осознаём, что фильтр по длине несёт риск исключения релевантных длинных, но содержательных ответов. Поэтому в финальную методологию он не вошёл, а используется исключительно как дополнительный инструмент для исследований и проверки.

Результаты и интерпретация


Всего в эксперименте мы собрали 3942 битвы между моделями.

После применения разных фильтров мы получили:


  • 2422 — после модели-фильтра (оценка качества промпта);


  • 2874 — после фильтра по длине ответов;


  • 1852 — после применения обоих фильтров одновременно.


Анализ результатов показал устойчиво высокую корреляцию с продовым рейтингом при использовании различных фильтров для проверки от 86.2% до 90.2%. Это подтверждает, что мы смогли воспроизвести оценки продовой системы с очень высокой точностью, избежав при этом жесткой методологии «с критериями» и сохранив естественность формулировки запросов.

Выводы


Эксперименты показали, что, имея систему для отбора аннотаторов и применяя простую фильтрацию для их отбора, можно с высокой точностью воспроизвести оценку, которую дают тысячи реальных пользователей.

Это открывает новые возможности: новые модели можно «прогреть» через крауд всего за три дня после релиза и уже тогда получить предварительный рейтинг, который почти полностью совпадёт с итоговым на основном лидерборде.

Для бизнеса это означает возможность значительно ускорить принятие решений и снизить риски при запуске новых LLM, позволяя оперативно отсеивать неудачные варианты и фокусировать ресурсы на наиболее перспективных решениях задолго до их полноценного внедрения и массового развертывания.

Делимся с сообществом!


Мы решили, что такие данные не должны лежать под замком, и сделали их открытыми. Вы можете скачать два датасета по 17 моделям и использовать их для своих исследований:


Примечание: данные были очищены от персональной информации, поэтому количество записей может немного отличаться.

Будем рады вашим экспериментам, форкам и упоминаниям! Спасибо за внимание!

Над проектом работала команда LLMArena:

Роман Куцев (@roman_kucev), Альбина Романова (@laavonamor), Владимир Гукасян (@mr_gukas), Максим Никитин (@max_nikitin9), Нина Пеньяфлор (@ninapenyaflor), Артур Казакевич (@arturkaz99), Никита Михайлов (@nk_mkhlv), Максим Кая (@Juste_un_homme), Даниил Ярмольчик (@S1FoN4iKs).

Также особую благодарность за помощь выражаем Александру Кукушкину @alexkuk!
 
Сверху Снизу