2.14.2. Розпізнавання IDP
Функціонал Шаблони штампа доступний лише при встановленні додаткового пакета dfx-idp.
Розпізнавання документів за допомогою технології IDP це вже відомий функціонал платформи Scriptum. Функціонал працює без змін, проте ярлики, в яких відбувалось налаштування idp-розпізнавання, змінили свою назву та розташування.
2.14.2.1. Налаштувати IDP розпізнавання
Налаштування IDP розпізнавання складається з трьох етапів:
-
Оберіть провайдера Azure чи Google та створіть обліковий запис, щоб отримати ключ:
-
Створіть сутність IDP — визначте, які саме дані потрібно розпізнавати в документах і як їх слід структурувати. Або ви можете використовувати стандартні сутності, які вже створені в системі, а саме:
a. Prebuilt-invoice (для провайдера Azure)
b. Prebuilt-receipt (для провайдера Azure)
c. INVOICE_PROCESSOR (для провайдера Google)
-
Додайте модель — підключіть створений профіль Azure або Google до платформи Scriptum за допомогою ключа.
-
Створіть шаблон розпізнавання — на цьому етапі налаштуйте, як саме будуть розпізнаватися документи та куди зберігатимуться розпізнані дані.
2.14.2.1.1. Створити обліковий запис провайдера
Azure
Інструкція по створенню підписки Azure для використання функціоналу IDP в системі Scriptum з використанням провайдеру Розпізнавання форм Azure
-
Створюємо новий акаунт Azure або входимо в систему при наявності існуючого.
-
Переходимо на домашню сторінку Azure Portal.
-
Натискаємо Create a resource
-
Вибираємо тип ресурсу Document Intelligence (form recognizer), натискаєм Create
-
У новому вікні натискаєм Start.
-
У новому вікні натискаєм Try Azure for free.
-
У новому вікні погоджуємось з клієнтською угодою та натискаєм Next.
-
Необхідно вести дані карти.
-
У наступному вікні підтвердити захист кнопкою Next.
-
У новому вікні треба зайти до свого акаунту за допомогою кнопки Sign In.
-
У наступному вікні натиснути Create a resource.
-
Знайти Document Intelligence (form recognizer), натискаєм Create
-
Заповнюємо необхідні поля, вибираємо Price Tier = Free F0 для безкоштовного пробного використання. Натискаємо Next.
Приклад заповнення:
-
При необхідності налаштовуємо параметри мереж з яких буде дозволено доступ до ресурсу. Натискаємо Next
-
Натискаємо Next
-
При необхідності налаштвовуємо теги ресурсу, натискаємо Next
-
Натискаємо Create
-
Очікуємо розгортання ресурсу. Після завершення натискаємо Go to resource
-
В розділі Keys and Endpoint копіюємо значення KEY1 та Endpoint
-
В системі створюємо профіль IDP провайдера AZURE з використанням KEY1 та Endpoint. Також додаємо сутності IDP які поставляються в системі за замовчуванням. Invoice - розпізнавання рахунків, Receipt - розпізнавання чеків. Для створення профіля заходимо в систему з правами Developer та переходимо в Адміністрування - Налаштування - Профілі IDP провайдерів.
Google Cloud
Інструкція по створенню підписки Google Cloud для використання функціоналу IDP в системі Scriptum з використанням провайдеру Розпізнавання форм Google
Заходимо в Google Cloud під існуючим обліковим записом Google (або створюємо новий в разі відсутності).
-
Натискаємо Create Project
-
Вводимо назву проекта (або залишаємо назву яка сформована автоматично) та натискаємо Create.
-
Далі необхідно активувати білінг - створити trial підписку або обрати платну підписку. Для цього відкриваємо меню та обираємо Billing
-
Натискаємо MANAGE BILLING ACCOUNT, далі ADD BILLING ACCOUNT
-
Вводимо інформацію про компанію, та дані банківської картки. Розпочинаємо безкоштовний trial.
-
Далі необхідно активувати доступ до Document AI API. Натискаємо Next, далі Enable.
-
Далі необхідно створити сервісний акаунт та отримати ключі для доступу до API. Переходимо до створення Service Account в Google Cloud Console. Вводимо інформацію про акаунт, натискаємо CREATE AND COMPLETE Натискаємо CONTINUE, далі DONE
-
Тепер необхідно створити ключі, для цього відкриваємо меню Actions, далі натискаємо Manage keys
Натискаємо ADD KEY, далі Create new key
Вибираємо Key type = JSON та натискаємо CREATE. Далі зберігаємо ключ на своєму ПК.
-
Тепер необхідно створити процесор. В меню Google Cloud шукаємо Document AI та натискаємо на нього.
Далі натискаємо EXPLORE PROCESSORS
Обираємо Invoice Parser та натискаємо CREATE PROCESSOR
Задаємо назву процесора INVOICE_PROCESSOR та натискаємо CREATE
В результаті ми отримуємо інформацію про процесор, яку далі необхідно буде використати при створені профілю IDP в системі.
-
Заходимо в систему під обліковим записом з правами Developer, переходимо в Адміністрування - Налаштування - Профілі IDP провайдерів. Натискаємо Додати профіль
Вибираємо Провайдер = Розпізнавання форм Google, вводимо назву, вставляємо облікові дані в форматі JSON (ключі що були збережені на ПК). Натискаємо + Додати для додавання моделі.
Вибираємо доступну в системі сутність IDP = INVOICE_PROCESSOR Invoice, вводимо ідентифікатор моделі, що відповідає назві процесору в Google Cloud, та URL адресу, її необхідно скопіювати з Prediction endpoint в Google Cloud але не повністю, а так як показано на скріншоті. Натискаємо Додати
Ще раз натискаємо Додати для створення профілю провайдера IDP Google.
2.14.2.1.2. Створити сутність IDP
Функціонал Сутності IDP доступний лише при встановленні додаткового пакета dfx-idp. Цей функціонал використовується для розумного сканування паперових документів та подальшого перетворення на електронний формат.
Сутність IDP — це набір атрибутів для розпізнавання документів, які надаються провайдером розпізнавання (Azure або Google). Далі атрибути сутності використовуються для створення шаблонів розпізнавання форми. За допомогою цих шаблонів, система зіставляє (зв'язує) розпізнані дані з відповідними атрибутами типу документа.
-
У панелі навігації, виберіть робочий стіл Студія 1.
-
Виберіть групу ярликів Центр ШІ 2, а потім виберіть групу ярликів Розпізнавання документів 3.
-
Виберіть ярлик Сутності IDP 4.
-
У панелі інструментів, виберіть + 5.
-
Заповніть поля, використовуючи підказки в таблиці нижче.
| Назва поля | Опис |
|---|---|
| Код* | Унікальний ідентифікатор сутності.
|
| Найменування* | Введіть бажану назву сутності IDP Приклад: Розпізнавання паспортних даних ℹ️ Примітка: Ви можете встановити назву сутності для різних мов. Для цього у полі Найменування, виберіть піктограму та заповніть поля для інших мов. А потім виберіть кнопку Застосувати. |
| Опис | Короткий опис призначення сутності. Приклад: Сутність для розпізнавання паспортних даних |
| Провайдер* | Виберіть один з наступних провайдерів розпізнавання форм:
|
Поля позначені символом "*" є обов'язковими до заповнення.
-
У верхньому меню виберіть піктограму Зберегти.
-
В таблиці Атрибути сутності IDP виберіть піктограму +.
-
Заповніть поля, використовуючи підказки в таблиці нижче.
| Назва поля | Опис |
|---|---|
| Код* | Унікальний ідентифікатор атрибута сутності IDP – має відповідати коду який надає провайдер |
| Найменування* | Введіть бажану назву атрибута сутності IDP ℹ️ Примітка: Ви можете встановити назву сутності для різних мов. Для цього у полі Найменування, виберіть піктограму та заповніть поля для інших мов. А потім виберіть кнопку Застосувати. |
| Опис | Опис атрибута сутності IDP |
| Тип даних* | Виберіть тип даних для атрибута:
Для цього, виберіть піктограму Зберегти 1, а потім, в полі Атрибути елемента масиву, виберіть піктограму + 2. ![]() |
Поля позначені символом "*" є обов'язковими до заповнення.
- У панелі інструментів виберіть піктограму Зберегти або Зберегти та закрити.
2.14.2.1.3. Додайте модель
-
У панелі навігації, виберіть робочий стіл Студія 1.
-
Виберіть групу ярликів ШІ Центр 2, а потім виберіть ярлик Моделі ШІ 3.
-
У панелі інструментів, виберіть Додати модель 1.
-
У розкривному списку виберіть IDP розпізнавання 2.
-
Заповніть поля, використовуючи підказки в таблиці нижче.
| Поле | Опис |
|---|---|
| Провайдер* | Виберіть один з доступних варіантів:
|
| Назва* | Введіть коротку та зрозумілу назву. |
| Опис | Внесіть додаткову інформацію про конфігурацію. |
Для Azure
| Поле | Опис |
|---|---|
| Ключ* | Введіть ваш API-ключ, отриманий від Azure при реєстрації облікового запису провайдера. Щоб знайти ваш ключ виконайте наступні кроки:
|
| URL адреса* | Вкажіть endpoint URL для доступу до сервісу розпізнавання, отриманий від Azure при реєстрації облікового запису провайдера. Щоб знайти ваш URL, виконайте наступні кроки:
|
| Моделі* | Ви можете використовувати вже додані prebuilt моделі або додати власні. Щоб додати власні, виберіть кнопку Додати.
|
Для Google
| Поле | Опис |
|---|---|
| Облікові дані* | Завантажте JSON файл з обліковими даними сервісного акаунта Google, який ви завантажили під час створення облікового запису Google Cloud. |
| Моделі* |
|
Поля позначені символом "*" є обов'язковими до заповнення.
- Після заповнення всіх полів, виберіть кнопку Додати.
2.14.2.1.4. Створити шаблон розпізнавання
-
У панелі навігації, виберіть робочий стіл Студія 1.
-
Виберіть групу ярликів Центр 2, а потім виберіть групу ярликів Розпізнавання документів 3.
-
Виберіть ярлик Шаблони розпізнавання 4.
-
У панелі інструментів, виберіть + 5.
-
Заповніть поля 1, використовуючи підказки в таблиці нижче, а потім у панелі інструментів виберіть піктограму Зберегти або Зберегти та закрити 2.
| Назва поля | Опис |
|---|---|
| Код* |
|
| Найменування* | Вкажіть зрозумілу назву шаблону, яка буде відображатися в інтерфейсі системи. Наприклад: "Розпізнавання рахунків" або "Шаблон для паспортів". ℹ️ Примітка: Ви можете встановити назву шаблону для різних мов. Для цього у полі Найменування, виберіть піктограму та заповніть поля для інших мов. А потім виберіть кнопку Застосувати. |
| Опис | Додайте короткий опис призначення шаблону та особливостей його використання. |
| Провайдер* | Виберіть один з доступних провайдерів розпізнавання:
|
Налаштування для провайдера "Tesseract"
Шаблон — Введіть налаштування шаблону у форматі JSON масиву, де кожен об'єкт містить наступні параметри:
[
{
"attribute": "", // Пов'язаний атрибут
"areaPage": null, // Сторінка файлу/скану на який розміщено
"top": null, // Координата Х верхнього лівого кута області розпізнавання
"left": null, // Координата Y верхнього лівого кута області розпізнавання
"width": null, // Ширина області розпізнавання
"height": null, // Висота області розпізнавання
"dateConvertationTemplate": "", // Шаблон перетворення дати
"byDefault": "" // Значення, якими атрибут заповнюється за замовчуванням
}
]
Наприклад, для розпізнавання дати документа з першої сторінки, області розміром 200x40 пікселів, що розташована на відстані 100 пікселів зверху та 50 пікселів зліва:
[
{
"attribute": "documentDate",
"areaPage": 1,
"top": 100,
"left": 50,
"width": 200,
"height": 40,
"dateConvertationTemplate": "DD.MM.YYYY",
"byDefault": "01.01.2024"
}
]
Налаштування для провайдерів "Google" та "Azure"
| Назва поля | Опис |
|---|---|
| Сутність* | Виберіть зі списку потрібну IDP сутність. |
| Тип документа* | Виберіть тип документа, для якого створюється шаблон розпізнавання. Це визначає, які атрибути будуть доступні для мапінгу. |
| Кнопка "Додати мапінг" | Виберіть кнопку Додати мапінг щоб створити зв'язок між даними, які потрібно розпізнати в документі, та місцем, куди ці дані будуть збережені в системі. В межах шаблону ви можете зробити декілька таких зв'язків. |
| Шар результату розпізнавання | Виберіть один з наступних варіантів:
|
Налаштування для шару результату типу "Сутність"
| Назва поля | Опис |
|---|---|
| Поле результату розпізнавання* | Виберіть зі списку потрібне поле моделі, яке містить розпізнаний текст. Наприклад: "Due Date" для дати платежу. Під полем ви побачите підказку англійською мовою, яка пояснює призначення цього поля. |
| Підполе результату розпізнавання | Це поле з'являється коли поле, обране вище, є складним і містить підполя. Наприклад: адреси, які складаються з вулиці, міста, регіону. Виберіть зі списку потрібне підполе. |
| Тип атрибута документа* | Виберіть один з наступних типів атрибута, до якого бажаєте налаштувати мапінг:
|
| Атрибут документа* | Виберіть зі списку конкретний атрибут, куди буде збережено розпізнане значення. |
Налаштування для шару результату типу "Пари ключ-значення"
| Назва поля | Опис |
|---|---|
| Ключ токена* | Введіть ключове слово, за яким буде знайдено потрібний текст |
| Регулярний вираз токена* | Введіть регулярний вираз — це шаблон, який використовується для визначення структури тексту, який треба розпізнати Приклади:
Див. Синтаксис регулярних виразів. |
| Тип атрибуту документа* | Виберіть один з наступних типів атрибута, до якого бажаєте налаштувати мапінг:
|
| Атрибут документа* | Виберіть зі списку конкретний атрибут, куди буде збережено розпізнане значення |
-
Поля позначені символом "*" є обов'язковими до заповнення.
-
Для розпізнавання таблиць підтримується функціонал мапінг масиву. Для цього, необхідно скористатись попередньо навченою моделлю (pre-built model).
2.14.2.2. Застосувати шаблон розпізнавання Tesseract
Так як шаблон розпізнавання форм Tesseract створюється як універсальний шаблон, без прив'язки до конкретного типу документа, то ви можете застосовувати його до будь-яких типів документів. Для цього, виконайте наступні кроки:
-
У панелі навігації, виберіть робочий стіл Студія 1.
-
Виберіть ярлик Типи документів 2.
-
Відкрийте тип документа, до якого бажаєте застосувати шаблон 3.
-
Перейдіть у вкладку Конструктор 1.
-
На формі, виберіть бажаний файловий атрибут 2.
-
В меню Налаштування атрибута, знайдіть поле Шаблон розпізнавання 1 та виберіть зі списку потрібний шаблон.
-
У панелі інструментів виберіть піктограму Зберегти або Зберегти та закрити 2.
2.14.2.3. Застосувати шаблон розпізнавання Azure або Google
Існує два способи застосування шаблону розпізнавання провайдера Azure або Google:
- Спосіб 1: за допомогою ярлика "Журнал розпізнавання". У цьому способі, розпізнавання зможе виконувати лише адміністратор платформи.
- Спосіб 2: за допомогою спеціально створеного ярлика. У цьому способі, розпізнавання зможуть виконувати будь-які користувачі платформи, яким адміністратор надасть доступ до ярлика.
Перед застосуванням шаблона, запевніться що налаштували IDP розпізнавання.
2.14.2.3.1. Спосіб 1
У цьому сценарії, розпізнавання зможе виконувати лише адміністратор платформи.
-
У панелі навігації, виберіть робочий стіл Адміністрування 1.
-
Виберіть групу ярликів Інструменти обслуговування 2, а потім виберіть ярлик Журнал завдань розпізнавання форм 3.
-
У панелі інструментів, виберіть "+" 4.
-
В полі Шаблон розпізнавання 1, виберіть потрібний шаблон.
-
В полі Файл, виберіть піктограму "+" 2, щоб завантажити зісканований документ який бажаєте розпізнати.
Примітка:документ має відповідати типу документа, для якого ви створили шаблон розпізнавання. Приклад: якщо ви створили шаблон розпізнавання для типу документа "Заява на відпустку", то в поле файл вам найімовірніше, потрібно буде завантажити заяву конкретного працівника: "Заява на відпустку Федора Гончара".
-
Увімкніть перемикач З попереднім переглядом 1, якщо бажаєте переглянути розпізнані значення та відредагувати їх перед збереженням документа.
-
Виберіть кнопку Розпізнати 2.
Коли платформа завершить процес розпізнавання, ви отримаєте повідомлення у платформі. Щоб переглянути повідомлення, виберіть піктограму .
2.14.2.3.2. Спосіб 2
У цьому сценарії, розпізнавання зможуть виконувати будь-які користувачі платформи, яким адміністратор надасть доступ до ярлика.
-
Створіть ярлик типу Документи.
-
При створенні ярлика, перейдіть у вкладку Типізовані 1.
-
У полі Типи документа 2, виберіть зі списку тип документа, для якого ви створили шаблон розпізнавання провайдера Google чи Azure.
-
Виберіть кнопку Налаштування дій.
-
У вікні "Налаштування дій", увімкніть перемикач Створити документ за допомогою шаблону розпізнавання документа (IDP) 1, а потім виберіть кнопку Зберегти 2.
-
У панелі інструментів виберіть піктограму Зберегти, щоб зберегти ярлик.
-
Перейдіть у збережений ярлик, а тоді у панелі інструментів виберіть піктограму
.
-
У вікні "Створення документа" в полі Шаблон розпізнавання 1, виберіть потрібний шаблон.
Примітка:якщо для даного типу документа налаштовано лише один шаблон розпізнавання, він буде вибраний в полі автоматично.
-
В полі Файл, виберіть піктограму "+" 2, щоб завантажити зісканований документ який бажаєте розпізнати.
Примітка:документ має відповідати типу документа, для якого ви створили шаблон розпізнавання. Приклад: якщо ви створили шаблон розпізнавання для типу документа "Заява на відпустку", то в поле файл вам найімовірніше, потрібно буде завантажити заяву конкретного працівника: "Заява на відпустку Федора Гончара".
-
Увімкніть перемикач З попереднім переглядом 1, якщо бажаєте переглянути розпізнані значення та відредагувати їх перед збереженням документа.
-
Виберіть кнопку Розпізнати 2.
Коли платформа завершить процес розпізнавання, ви отримаєте повідомлення у платформі. Щоб переглянути повідомлення, виберіть піктограму .
Після того, як ви здійсните розпізнавання документа, за допомогою IDP функціоналу, ви можете підсвічувати потрібний вам контент у відсканованому документі, щоб швидко знайти потрібну інформацію. Для цього виберіть атрибут, контент якого хочете побачити у документі, а тоді потрібний вам фрагмент документа, підсвітиться зеленим кольором.

