2.14.4. Оцінювання ШІ
Оцінювання ШІ — це інструмент для перевірки якості та стабільності роботи сценаріїв штучного інтелекту. Він дозволяє порівнювати фактичний результат виконання сценарію з очікуваним результатом на основі заздалегідь визначених наборів даних і критеріїв.
Оцінювання ШІ корисне для:
- перевірки змін у сценаріях після доопрацювань або оновлень,
- порівняння якості відповідей різних моделей або налаштувань,
- автоматизованого контролю якості результатів ШІ перед використанням у бізнес-процесах.
2.14.4.1. Створити Оцінювання ШІ
-
У панелі навігації виберіть робочий стіл Студія 1.
-
Виберіть ярлик Центр ШІ 2, а потім виберіть ярлик Оцінювання ШІ 3.
-
У панелі інструментів виберіть + 4.
-
Заповніть поля, використовуючи підказки в таблиці нижче.
Поле Опис Код* - Код повинен бути унікальним.
- Код повинен бути коротким (зазвичай до 10 символів).
- Використовуйте тільки латинські букви та цифри.
Назва* Введіть коротку та зрозумілу назву оцінювання. Опис За потреби введіть короткий опис призначення оцінювання. Кількість повторень* Вкажіть кількість повторень оцінювання для кожного запису набору даних. Примітка:Поля, позначені символом "*", є обов'язковими до заповнення.
-
Перейдіть у вкладку Схема набору даних 1. У цій вкладці ви маєте додати ті ж змінні, що й у сценарії, який ви бажаєте оцінити.
-
Заповніть секцію Схема вхідних даних, додавши вхідні змінні, тобто ті, що передають інформацію з системи у сценарій. Наприклад, для системного сценарію
sys_doc_recognizeце може бути зміннаdocumentTypes, яка передає контекст типів документів системи до сценарію. Щоб додати вхідні дані:-
Виберіть Додати поле 2.
-
В полі Назва 1 введіть таку ж назву, як у змінної сценарію, який бажаєте оцінити.
-
В полі Тип даних 2 виберіть такий самий тип даних як у змінної сценарію, який бажаєте оцінити.
-
В полі Опис 3 введіть короткий опис вмісту змінної. Наприклад, "дані про всі типи документів".
-
Установіть прапорець Є глобальним 4 якщо бажаєте передавати дані цієї змінної для всіх записів набору даних (які додаватимемо у наступній вкладці).
-
Виберіть Зберегти 5.
-
-
Заповніть секцію Схема вихідних даних, додавши вихідні змінні, тобто ті, що передають інформацію зі сценарію у систему. Наприклад, для системного сценарію
sys_doc_recognizeце може бути зміннаresult, яка передає результат розпізнавання. Щоб додати вихідні дані:-
Виберіть Додати поле.
-
В полі Назва 1 введіть таку ж назву, як у змінної сценарію, який бажаєте оцінити.
-
В полі Тип даних 2 виберіть такий самий тип даних як у змінної сценарію, який бажаєте оцінити.
-
В полі Опис 3 введіть короткий опис вмісту змінної. Наприклад, "результат розпізнавання".
-
Виберіть Зберегти 4.
-
-
Перейдіть у вкладку Набір даних 1, щоб додати до кожної змінної ваш очікуваний результат.
-
Виберіть + 2.
-
В полі Опис 1 введіть назву для набору даних.
-
Біля кожної змінної виберіть піктограму 2 та завантажте значення, які ви очікуєте від моделі ШІ.
Ви можете використати результати вже виконаних сценаріїв ШІ як еталон для оцінювання. Якщо певне виконання дає коректний і бажаний результат, його значення можна скопіювати безпосередньо до набору даних оцінювання.
Для цього виконайте наступні кроки: Робочий стіл Студія 1 > група ярликів Центр ШІ 2 > ярлик Виконання ШІ 3 > виберіть виконання > в правому верхньому куті виберіть 4 > Копіювати до набору даних оцінювання ШІ 5.

В полі Оцінювання ШІ 1 виберіть оцінювання, в яке бажаєте скопіювати результати у вигляді набору даних, а потім виберіть Копіювати 2.

Ви можете додати декілька таких наборів. Під час запуску оцінювання ви зможете обрати, який саме набір використовувати для оцінювання.
-
Перейдіть у вкладку Критерії оцінювання 1, щоб налаштувати, як саме система порівнюватиме результат виконання сценарію з вашим очікуваним результатом.
-
Виберіть Додати 2.
-
Додайте критерій оцінювання 1, використовуючи підказки в таблиці нижче, а потім виберіть Зберегти 2.
| Поле | Опис |
|---|---|
| Назва* | Введіть коротку та зрозумілу назву критерію оцінювання. |
| Правило* | Виберіть зі списку, яким саме способом ви бажаєте порівнювати фактичний та очікуваний результати:
|
| Поріг* поле доступно лише для правил Користувацький скрипт та LLM як суддя | Виберіть значення від 0 до 1. Поріг — це мінімальний рівень відповідності результату очікуванню. Наприклад, значення 0.7 означає, що результат має відповідати очікуваному щонайменше на 70%, щоб бути зарахованим як успішний. |
| Скрипт* поле доступно лише для правила Користувацький скрипт | Вставте скрипт, який порівнюватиме фактичний та очікуваний результати. У цьому полі за замовчуванням відображатиметься приклад такого скрипта. Ви можете відредагувати його під власні потреби. |
| Сценарій ШІ* поле доступно лише для правила LLM як суддя | Виберіть зі списку сценарій ШІ, за допомогою якого відбуватиметься порівняння результатів. Ви можете обрати один із системних сценаріїв оцінювання:
|
| Шлях | Заповнюйте це поле лише у випадку, якщо потрібно звернутися до конкретного елемента або вкладеного значення в елементі набору даних. Введіть шлях до значення в елементі набору даних, яке використовується для оцінювання. Наприклад: result.answer або items[0].value. Залиште порожнім, щоб використовувати весь елемент. |
Поля, позначені символом "*", є обов'язковими до заповнення.
-
У панелі інструментів виберіть піктограму Зберегти A або Зберегти та закрити B.
2.14.4.2. Запустити Оцінювання ШІ
Спосіб 1: з форми Оцінювання ШІ
-
Відкрийте Оцінювання ШІ, яке бажаєте запустити:
-
У панелі навігації виберіть робочий стіл Студія 1.
-
Виберіть ярлик Центр ШІ 2, а потім виберіть ярлик Оцінювання ШІ 3.
-
Відкрийте потрібне оцінювання 4.
-
-
У панелі інструментів виберіть Оцінити.
-
В полі Сценарій ШІ 1 виберіть сценарій, який бажаєте оцінити.
Примітка:Переконайтесь, що змінні обраного сценарію збігаються зі схемою набору даних, яку ви налаштували під час створення Оцінювання ШІ.
-
У секції Записи набору даних оцінювання 2 установіть прапорці біля тих записів, які бажаєте застосувати в поточному оцінюванні.
-
Виберіть Створити 3.
Після цього, відкриється список із записами наборів A та їхні статуси виконання B.

Ви можете переглянути Виконання ШІ для кожного з записів, перейшовши за посиланням в рядку Виконання ШІ (запуск) A. Після того, як виконання ШІ буде завершено, буде запущено оцінювання, деталі якого ви можете переглянути, перейшовши за посиланням в рядку Виконання ШІ (оцінювання) B.

Спосіб 2: з форми Сценарію ШІ
-
Відкрийте Сценарій ШІ, який бажаєте оцінити:
-
У панелі навігації виберіть робочий стіл Студія 1.
-
Виберіть ярлик Центр ШІ 2, а потім виберіть ярлик Сценарій ШІ 3.
-
Відкрийте потрібний сценарій 4.
-
-
У панелі інструментів виберіть Оцінити.
-
В полі Оцінювання ШІ 1 виберіть зі списку оцінювання ШІ, за допомогою якого бажаєте оцінити сценарій.
Примітка:Переконайтесь, що змінні обраного сценарію збігаються зі схемою набору даних яку ви налаштували під час створення Оцінювання ШІ.
-
У секції Записи набору даних оцінювання установіть прапорці біля тих записів, які бажаєте застосувати в поточному оцінюванні 2.
-
Виберіть Створити 3.
Після цього відкриється список із записами наборів A та їхні статуси виконання B.

Ви можете переглянути Виконання ШІ для кожного з записів, перейшовши за посиланням в рядку Виконання ШІ (запуск) A. Після того, як виконання ШІ буде завершено, буде запущено оцінювання, деталі якого ви можете переглянути, перейшовши за посиланням в рядку Виконання ШІ (оцінювання) B.

2.14.4.3. Переглянути журнал запусків оцінювання
Спосіб 1: з форми Сценарії ШІ
-
Відкрийте сценарій, оцінювання якого бажаєте переглянути:
-
У панелі навігації виберіть робочий стіл Студія 1.
-
Виберіть ярлик Центр ШІ 2, а потім виберіть ярлик Сценарії ШІ 3.
-
Відкрийте потрібний сценарій 4.
-
-
Перейдіть у вкладку Журнал оцінювання ШІ.
Примітка:Якщо у вибраному сценарії немає записів на вкладці Журнал оцінювання ШІ, це означає, що цей сценарій ще жодного разу не оцінювався.
-
Виберіть сесію оцінювання, деталі якої бажаєте переглянути.
Спосіб 2: у ярлику Журнал Оцінювання
-
У панелі навігації виберіть робочий стіл Студія 1.
-
Виберіть ярлик Центр ШІ 2, а потім виберіть ярлик Журнал оцінювання ШІ 3.
-
Виберіть сесію оцінювання, деталі якої бажаєте переглянути 4.