В январе 2026 года мы запускаем новый образовательный курс по проектированию и внедрению систем оценки искусственного интеллекта. Этот материал является частью подготовки к курсу.

Оценка качества работы больших языковых моделей (LLM) — сложная и трудоемкая задача. Ручная проверка человеком требует много времени, а автоматизированные метрики на основе кода не всегда могут оценить такие субъективные качества, как «лаконичность» или «уместность». В связи с этим все чаще для оценки одних LLM используются другие LLM, выступающие в роли «судей».

Однако этот подход порождает новую проблему: LLM-оценщики наследуют те же недостатки, что и модели, которые они проверяют — они могут допускать ошибки, быть предвзятыми или неверно интерпретировать инструкции. Возникает вопрос: как убедиться в надежности самих оценщиков? Кто проверяет проверяющих?

Предлагаемое решение: EvalGen

Авторы статьи представляют EvalGen — интерактивную систему (интерфейс) со смешанной инициативой, которая помогает людям создавать и проверять функции оценки LLM. Цель системы — согласовать автоматизированную оценку с требованиями и интуицией человека.

Процесс работы с EvalGen выглядит следующим образом:

  1. Генерация критериев: Система на основе LLM предлагает пользователю список возможных критериев оценки (например, «ответ не содержит извинений», «ответ отформатирован как маркированный список»). Пользователь может редактировать, удалять или добавлять свои критерии.
  2. Создание реализаций: Для каждого критерия EvalGen генерирует несколько вариантов реализации — как в виде кода (функции Python), так и в виде промптов для другой LLM-оценщика.
  3. Оценка человеком: Пока система генерирует реализации, пользователю предлагается оценить небольшую выборку результатов работы основной LLM, ставя оценки «хорошо» или «плохо».
  4. Выбор лучших оценщиков: EvalGen использует оценки пользователя, чтобы автоматически выбрать те реализации (код или промпты), которые лучше всего соответствуют его суждениям.
  5. Итоговый отчет: В конце пользователь получает «отчетную карту», которая показывает, насколько выбранные автоматические оценщики согласованы с его ручными оценками (например, какова доля ложных срабатываний).

Ключевой вывод: «Дрейф критериев» (Criteria Drift)

В ходе исследования с участием 9 отраслевых специалистов был выявлен важный феномен, который авторы назвали «дрейфом критериев». Это парадоксальная ситуация:

  • Чтобы оценивать результаты работы LLM, человеку нужны четкие критерии.
  • Однако именно процесс оценки и просмотра различных результатов помогает человеку сформулировать и уточнить эти самые критерии.

Другими словами, критерии оценки не являются чем-то статичным, что можно определить заранее. Они эволюционируют по мере того, как человек знакомится с реальными ответами модели. Некоторые критерии зависят от конкретных наблюдаемых результатов, а не являются независимыми правилами.

Другие важные выводы

  • Итеративность: Создание системы оценки — это итеративный процесс. Пользователям необходимы инструменты, которые поддерживают быстрое изменение как критериев, так и их реализаций.
  • Субъективность: Понятие «согласованности» (alignment) очень субъективно. То, что один пользователь считает хорошим результатом, другой может оценить иначе.
  • Контроль пользователя: Пользователи высоко оценили EvalGen как отправную точку, но подчеркнули важность возможности контролировать процесс, редактировать предложенные критерии и выбирать реализации.
  • Разница в доверии: Специалисты больше доверяли оценщикам на основе кода (для проверки формата, длины и т.д.), так как их логику легко проверить. К LLM-оценщикам они относились с большим скептицизмом, особенно в контексте использования в производственных системах.

Заключение и значение для практики

Статья ставит под сомнение подходы, которые предполагают, что критерии оценки могут быть полностью определены до начала анализа результатов. Феномен «дрейфа критериев» показывает, что разработка надежных систем оценки для LLM должна быть гибким и интерактивным процессом. Будущие инструменты для LLMOps должны поддерживать эту «неопрятность» и итеративность, позволяя пользователям одновременно уточнять критерии и оценивать результаты.


2026 жылдың қаңтар айында біз жасанды интеллектті бағалау жүйелерін жобалау және енгізу бойынша жаңа білім беру курсын бастаймыз. Бұл материал курсқа дайындықтың бір бөлігі болып табылады.

Негізгі мәселе

Үлкен тілдік модельдердің (LLM) жұмыс сапасын бағалау — күрделі және көп еңбекті қажет ететін міндет. Адамның қолмен тексеруі көп уақытты алады, ал кодқа негізделген автоматтандырылған метрикалар «қысқалық» немесе «орындылық» сияқты субъективті қасиеттерді әрқашан бағалай алмайды. Осыған байланысты, бір LLM-ді бағалау үшін «төреші» рөлін атқаратын басқа LLM-дер жиі қолданылады.

Алайда, бұл тәсіл жаңа мәселе тудырады: LLM-бағалаушылар өздері тексеретін модельдердің кемшіліктерін қайталайды — олар қателесуі, біржақты болуы немесе нұсқауларды дұрыс түсінбеуі мүмкін. Сұрақ туындайды: бағалаушылардың өздерінің сенімділігіне қалай көз жеткізуге болады? Тексерушілерді кім тексереді?

Ұсынылған шешім: EvalGen

Мақала авторлары EvalGen жүйесін ұсынады — бұл адамдарға LLM-ді бағалау функцияларын құруға және тексеруге көмектесетін аралас бастамалы интерактивті жүйе (интерфейс). Жүйенің мақсаты — автоматтандырылған бағалауды адамның талаптарымен және интуициясымен үйлестіру.

EvalGen-мен жұмыс істеу процесі келесідей:

  1. Критерийлерді генерациялау: Жүйе LLM негізінде пайдаланушыға бағалаудың ықтимал критерийлерінің тізімін ұсынады (мысалы, «жауапта кешірім сұрау жоқ», «жауап маркерленген тізім ретінде форматталған»). Пайдаланушы өз критерийлерін өңдей, жоя немесе қоса алады.
  2. Іске асыру нұсқаларын жасау: Әрбір критерий үшін EvalGen бірнеше іске асыру нұсқасын жасайды — код түрінде (Python функциялары) және басқа LLM-бағалаушыға арналған промпттар түрінде.
  3. Адамның бағалауы: Жүйе іске асыру нұсқаларын генерациялап жатқанда, пайдаланушыға негізгі LLM жұмысының нәтижелерінің шағын үлгісін «жақсы» немесе «жаман» деп бағалау ұсынылады.
  4. Үздік бағалаушыларды таңдау: EvalGen пайдаланушының бағаларын пайдаланып, оның пікірлеріне ең жақсы сәйкес келетін іске асыру нұсқаларын (код немесе промпттарды) автоматты түрде таңдайды.
  5. Қорытынды есеп: Соңында пайдаланушы таңдалған автоматты бағалаушылардың оның қолмен жасаған бағаларымен қаншалықты сәйкес келетінін көрсететін «есеп картасын» алады (мысалы, жалған оң нәтижелердің үлесі қандай).

Негізгі тұжырым: «Критерийлердің ығысуы» (Criteria Drift)

9 сала маманының қатысуымен жүргізілген зерттеу барысында авторлар «критерийлердің ығысуы» деп атаған маңызды құбылыс анықталды. Бұл парадоксалды жағдай:

  • LLM жұмысының нәтижелерін бағалау үшін адамға нақты критерийлер қажет.
  • Алайда, дәл осы бағалау процесі мен әртүрлі нәтижелерді қарау адамға сол критерийлерді тұжырымдауға және нақтылауға көмектеседі.

Басқаша айтқанда, бағалау критерийлері алдын ала анықтауға болатын тұрақты нәрсе емес. Олар адам модельдің нақты жауаптарымен танысқан сайын дамып, өзгереді. Кейбір критерийлер тәуелсіз ережелер емес, нақты байқалған нәтижелерге байланысты болады.

Басқа да маңызды тұжырымдар

  • Итеративтілік: Бағалау жүйесін құру — бұл итеративті процесс. Пайдаланушыларға критерийлерді де, оларды іске асыру жолдарын да жылдам өзгертуге мүмкіндік беретін құралдар қажет.
  • Субъективтілік: «Сәйкестік» (alignment) ұғымы өте субъективті. Бір пайдаланушы жақсы деп санайтын нәтижені екіншісі басқаша бағалауы мүмкін.
  • Пайдаланушының бақылауы: Пайдаланушылар EvalGen-ді бастапқы нүкте ретінде жоғары бағалады, бірақ процесті бақылау, ұсынылған критерийлерді өңдеу және іске асыру нұсқаларын таңдау мүмкіндігінің маңыздылығын атап өтті.
  • Сенімдегі айырмашылық: Мамандар логикасын тексеру оңай болғандықтан, кодқа негізделген бағалаушыларға (форматты, ұзындықты және т.б. тексеру үшін) көбірек сенді. Олар LLM-бағалаушыларға, әсіресе өндірістік жүйелерде қолдану контекстінде, күмәнмен қарады.

Қорытынды және практикалық маңызы

Бұл мақала бағалау критерийлерін нәтижелерді талдау басталғанға дейін толық анықтауға болады деген тәсілдерге күмән келтіреді. «Критерийлердің ығысуы» құбылысы LLM үшін сенімді бағалау жүйелерін әзірлеу икемді және интерактивті процесс болуы керектігін көрсетеді. LLMOps-қа арналған болашақ құралдар осы «ретсіздік» пен итеративтілікті қолдап, пайдаланушыларға критерийлерді нақтылауға және нәтижелерді бір уақытта бағалауға мүмкіндік беруі тиіс. Курска жазылу.


Comments

Leave a Reply

Your email address will not be published. Required fields are marked *

Sign In

Register

Reset Password

Please enter your username or email address, you will receive a link to create a new password via email.