Skip to main content
Version: 53.0.0

2.14.4. Оцінювання ШІ

Оцінювання ШІ — це інструмент для перевірки якості та стабільності роботи сценаріїв штучного інтелекту. Він дозволяє порівнювати фактичний результат виконання сценарію з очікуваним результатом на основі заздалегідь визначених наборів даних і критеріїв.


Оцінювання ШІ корисне для:

  • перевірки змін у сценаріях після доопрацювань або оновлень,
  • порівняння якості відповідей різних моделей або налаштувань,
  • автоматизованого контролю якості результатів ШІ перед використанням у бізнес-процесах.

2.14.4.1. Створити Оцінювання ШІ

  1. У панелі навігації виберіть робочий стіл Студія 1.

  2. Виберіть ярлик Центр ШІ 2, а потім виберіть ярлик Оцінювання ШІ 3.

  3. У панелі інструментів виберіть + 4.

    Screenshot
  4. Заповніть поля, використовуючи підказки в таблиці нижче.

    Screenshot
    ПолеОпис
    Код*
    • Код повинен бути унікальним.
    • Код повинен бути коротким (зазвичай до 10 символів).
    • Використовуйте тільки латинські букви та цифри.
    Назва*Введіть коротку та зрозумілу назву оцінювання.
    ОписЗа потреби введіть короткий опис призначення оцінювання.
    Кількість повторень*Вкажіть кількість повторень оцінювання для кожного запису набору даних.
    Примітка:

    Поля, позначені символом "*", є обов'язковими до заповнення.

  5. Перейдіть у вкладку Схема набору даних 1. У цій вкладці ви маєте додати ті ж змінні, що й у сценарії, який ви бажаєте оцінити.

  6. Заповніть секцію Схема вхідних даних, додавши вхідні змінні, тобто ті, що передають інформацію з системи у сценарій. Наприклад, для системного сценарію sys_doc_recognize це може бути змінна documentTypes, яка передає контекст типів документів системи до сценарію. Щоб додати вхідні дані:

    1. Виберіть Додати поле 2.

      Screenshot
    2. В полі Назва 1 введіть таку ж назву, як у змінної сценарію, який бажаєте оцінити.

    3. В полі Тип даних 2 виберіть такий самий тип даних як у змінної сценарію, який бажаєте оцінити.

    4. В полі Опис 3 введіть короткий опис вмісту змінної. Наприклад, "дані про всі типи документів".

    5. Установіть прапорець Є глобальним 4 якщо бажаєте передавати дані цієї змінної для всіх записів набору даних (які додаватимемо у наступній вкладці).

    6. Виберіть Зберегти 5.

      Screenshot
  7. Заповніть секцію Схема вихідних даних, додавши вихідні змінні, тобто ті, що передають інформацію зі сценарію у систему. Наприклад, для системного сценарію sys_doc_recognize це може бути змінна result, яка передає результат розпізнавання. Щоб додати вихідні дані:

    1. Виберіть Додати поле.

      Screenshot
    2. В полі Назва 1 введіть таку ж назву, як у змінної сценарію, який бажаєте оцінити.

    3. В полі Тип даних 2 виберіть такий самий тип даних як у змінної сценарію, який бажаєте оцінити.

    4. В полі Опис 3 введіть короткий опис вмісту змінної. Наприклад, "результат розпізнавання".

    5. Виберіть Зберегти 4.

      Screenshot
  8. Перейдіть у вкладку Набір даних 1, щоб додати до кожної змінної ваш очікуваний результат.

  9. Виберіть + 2.

    Screenshot
  10. В полі Опис 1 введіть назву для набору даних.

  11. Біля кожної змінної виберіть піктограму 2 та завантажте значення, які ви очікуєте від моделі ШІ.

    Screenshot
Порада:

Ви можете використати результати вже виконаних сценаріїв ШІ як еталон для оцінювання. Якщо певне виконання дає коректний і бажаний результат, його значення можна скопіювати безпосередньо до набору даних оцінювання.

Для цього виконайте наступні кроки: Робочий стіл Студія 1 > група ярликів Центр ШІ 2 > ярлик Виконання ШІ 3 > виберіть виконання > в правому верхньому куті виберіть 4 > Копіювати до набору даних оцінювання ШІ 5.

Screenshot

В полі Оцінювання ШІ 1 виберіть оцінювання, в яке бажаєте скопіювати результати у вигляді набору даних, а потім виберіть Копіювати 2.

Screenshot
Примітка:

Ви можете додати декілька таких наборів. Під час запуску оцінювання ви зможете обрати, який саме набір використовувати для оцінювання.

  1. Перейдіть у вкладку Критерії оцінювання 1, щоб налаштувати, як саме система порівнюватиме результат виконання сценарію з вашим очікуваним результатом.

  2. Виберіть Додати 2.

    Screenshot
  3. Додайте критерій оцінювання 1, використовуючи підказки в таблиці нижче, а потім виберіть Зберегти 2.

    Screenshot
ПолеОпис
Назва*Введіть коротку та зрозумілу назву критерію оцінювання.
Правило*Виберіть зі списку, яким саме способом ви бажаєте порівнювати фактичний та очікуваний результати:
  • Користувацький скрипт — порівняння результатів виконується за заданим вами скриптом, який дозволяє реалізувати власні правила та логіку оцінювання.
  • Строга рівність — фактичний і очікуваний результати порівнюються на повну відповідність значень. Будь-яка відмінність вважається помилкою.
  • LLM як суддя — для порівняння використовуватиметься сценарій ШІ типу Оцінювання ШІ.
Поріг*
поле доступно лише для правил Користувацький скрипт та LLM як суддя
Виберіть значення від 0 до 1. Поріг — це мінімальний рівень відповідності результату очікуванню. Наприклад, значення 0.7 означає, що результат має відповідати очікуваному щонайменше на 70%, щоб бути зарахованим як успішний.
Скрипт*
поле доступно лише для правила Користувацький скрипт
Вставте скрипт, який порівнюватиме фактичний та очікуваний результати. У цьому полі за замовчуванням відображатиметься приклад такого скрипта. Ви можете відредагувати його під власні потреби.
Сценарій ШІ*
поле доступно лише для правила LLM як суддя
Виберіть зі списку сценарій ШІ, за допомогою якого відбуватиметься порівняння результатів. Ви можете обрати один із системних сценаріїв оцінювання:
  • sys_doc_recognize_judge — оцінювання сценарію розпізнавання документа.
  • sys_doc_splitter_judge — оцінювання сценарію розрізання документа.
  • sys_doc_summarize_in_doc_lang_judge — оцінювання сценарію підсумовування документа.
ШляхЗаповнюйте це поле лише у випадку, якщо потрібно звернутися до конкретного елемента або вкладеного значення в елементі набору даних. Введіть шлях до значення в елементі набору даних, яке використовується для оцінювання. Наприклад: result.answer або items[0].value. Залиште порожнім, щоб використовувати весь елемент.
Примітка:

Поля, позначені символом "*", є обов'язковими до заповнення.

  1. У панелі інструментів виберіть піктограму Зберегти A або Зберегти та закрити B.

    Screenshot

2.14.4.2. Запустити Оцінювання ШІ

Спосіб 1: з форми Оцінювання ШІ
  1. Відкрийте Оцінювання ШІ, яке бажаєте запустити:

    1. У панелі навігації виберіть робочий стіл Студія 1.

    2. Виберіть ярлик Центр ШІ 2, а потім виберіть ярлик Оцінювання ШІ 3.

    3. Відкрийте потрібне оцінювання 4.

      Screenshot
  2. У панелі інструментів виберіть Оцінити.

    Screenshot
  3. В полі Сценарій ШІ 1 виберіть сценарій, який бажаєте оцінити.

    Примітка:

    Переконайтесь, що змінні обраного сценарію збігаються зі схемою набору даних, яку ви налаштували під час створення Оцінювання ШІ.

  4. У секції Записи набору даних оцінювання 2 установіть прапорці біля тих записів, які бажаєте застосувати в поточному оцінюванні.

  5. Виберіть Створити 3.

    Screenshot

Після цього, відкриється список із записами наборів A та їхні статуси виконання B.

Screenshot

Ви можете переглянути Виконання ШІ для кожного з записів, перейшовши за посиланням в рядку Виконання ШІ (запуск) A. Після того, як виконання ШІ буде завершено, буде запущено оцінювання, деталі якого ви можете переглянути, перейшовши за посиланням в рядку Виконання ШІ (оцінювання) B.

Screenshot
Спосіб 2: з форми Сценарію ШІ
  1. Відкрийте Сценарій ШІ, який бажаєте оцінити:

    1. У панелі навігації виберіть робочий стіл Студія 1.

    2. Виберіть ярлик Центр ШІ 2, а потім виберіть ярлик Сценарій ШІ 3.

    3. Відкрийте потрібний сценарій 4.

      Screenshot
  2. У панелі інструментів виберіть Оцінити.

    Screenshot
  3. В полі Оцінювання ШІ 1 виберіть зі списку оцінювання ШІ, за допомогою якого бажаєте оцінити сценарій.

    Примітка:

    Переконайтесь, що змінні обраного сценарію збігаються зі схемою набору даних яку ви налаштували під час створення Оцінювання ШІ.

  4. У секції Записи набору даних оцінювання установіть прапорці біля тих записів, які бажаєте застосувати в поточному оцінюванні 2.

  5. Виберіть Створити 3.

    Screenshot

Після цього відкриється список із записами наборів A та їхні статуси виконання B.

Screenshot

Ви можете переглянути Виконання ШІ для кожного з записів, перейшовши за посиланням в рядку Виконання ШІ (запуск) A. Після того, як виконання ШІ буде завершено, буде запущено оцінювання, деталі якого ви можете переглянути, перейшовши за посиланням в рядку Виконання ШІ (оцінювання) B.

Screenshot

2.14.4.3. Переглянути журнал запусків оцінювання

Спосіб 1: з форми Сценарії ШІ

  1. Відкрийте сценарій, оцінювання якого бажаєте переглянути:

    1. У панелі навігації виберіть робочий стіл Студія 1.

    2. Виберіть ярлик Центр ШІ 2, а потім виберіть ярлик Сценарії ШІ 3.

    3. Відкрийте потрібний сценарій 4.

      Screenshot
  2. Перейдіть у вкладку Журнал оцінювання ШІ.

    Screenshot
    Примітка:

    Якщо у вибраному сценарії немає записів на вкладці Журнал оцінювання ШІ, це означає, що цей сценарій ще жодного разу не оцінювався.

  3. Виберіть сесію оцінювання, деталі якої бажаєте переглянути.

    Screenshot

Спосіб 2: у ярлику Журнал Оцінювання

  1. У панелі навігації виберіть робочий стіл Студія 1.

  2. Виберіть ярлик Центр ШІ 2, а потім виберіть ярлик Журнал оцінювання ШІ 3.

  3. Виберіть сесію оцінювання, деталі якої бажаєте переглянути 4.

    Screenshot