2.14.2. Розпізнавання IDP
Функціонал Розпізнавання IDP доступний лише при встановленні додаткового пакета dfx-idp.
Розпізнавання документів за допомогою технології IDP це вже відомий функціонал платформи Scriptum. Функціонал працює без змін, проте ярлики, в яких відбувалось налаштування idp-розпізнавання, змінили свою назву та розташування.
2.14.2.1. Налаштувати IDP розпізнавання
Налаштування IDP розпізнавання складається з трьох етапів:
-
Оберіть провайдера Azure чи Google та створіть обліковий запис, щоб отримати ключ:
-
Створіть сутність IDP — визначте, які саме дані потрібно розпізнавати в документах і як їх слід структурувати. Або ви можете використовувати стандартні сутності, які вже створені в системі, а саме:
a. Prebuilt-invoice (для провайдера Azure)
b. Prebuilt-receipt (для провайдера Azure)
c. INVOICE_PROCESSOR (для провайдера Google)
-
Додайте модель — підключіть створений профіль Azure або Google до платформи Scriptum за допомогою ключа.
-
Створіть шаблон розпізнавання — на цьому етапі налаштуйте, як саме будуть розпізнаватися документи та куди зберігатимуться розпізнані дані.
2.14.2.1.1. Створити обліковий запис провайдера
Azure
Інструкція по створенню підписки Azure для використання функціоналу IDP в системі Scriptum з використанням провайдеру Розпізнавання форм Azure
-
Створюємо новий акаунт Azure або входимо в систему при наявності існуючого.
-
Переходимо на домашню сторінку Azure Portal.
-
Натискаємо Create a resource
-
Вибираємо тип ресурсу Document Intelligence (form recognizer), натискаєм Create
-
У новому вікні натискаєм Start.
-
У новому вікні натискаєм Try Azure for free.
-
У новому вікні погоджуємось з клієнтською угодою та натискаєм Next.
-
Необхідно вести дані карти.
-
У наступному вікні підтвердити захист кнопкою Next.
-
У новому вікні треба зайти до свого акаунту за допомогою кнопки Sign In.
-
У наступному вікні натиснути Create a resource.
-
Знайти Document Intelligence (form recognizer), натискаєм Create
-
Заповнюємо необхідні поля, вибираємо Price Tier = Free F0 для безкоштовного пробного використання. Натискаємо Next.
Приклад заповнення:
-
При необхідності налаштовуємо параметри мереж з яких буде дозволено доступ до ресурсу. Натискаємо Next
-
Натискаємо Next
-
При необхідності налаштвовуємо теги ресурсу, натискаємо Next
-
Натискаємо Create
-
Очікуємо розгортання ресурсу. Після завершення натискаємо Go to resource
-
В розділі Keys and Endpoint копіюємо значення KEY1 та Endpoint
-
В системі створюємо профіль IDP провайдера AZURE з використанням KEY1 та Endpoint. Також додаємо сутності IDP які поставляються в системі за замовчуванням. Invoice - розпізнавання рахунків, Receipt - розпізнавання чеків. Для створення профіля заходимо в систему з правами Developer та переходимо в Адміністрування - Налаштування - Профілі IDP провайдерів.
Google Cloud
Інструкція по створенню підписки Google Cloud для використання функціоналу IDP в системі Scriptum з використанням провайдеру Розпізнавання форм Google
Заходимо в Google Cloud під існуючим обліковим записом Google (або створюємо новий в разі відсутності).
-
Натискаємо Create Project
-
Вводимо назву проекта (або залишаємо назву яка сформована автоматично) та натискаємо Create.
-
Далі необхідно активувати білінг - створити trial підписку або обрати платну підписку. Для цього відкриваємо меню та обираємо Billing
-
Натискаємо MANAGE BILLING ACCOUNT, далі ADD BILLING ACCOUNT
-
Вводимо інформацію про компанію, та дані банківської картки. Розпочинаємо безкоштовний trial.
-
Далі необхідно активувати доступ до Document AI API. Натискаємо Next, далі Enable.
-
Далі необхідно створити сервісний акаунт та отримати ключі для доступу до API. Переходимо до створення Service Account в Google Cloud Console. Вводимо інформацію про акаунт, натискаємо CREATE AND COMPLETE Натискаємо CONTINUE, далі DONE
-
Тепер необхідно створити ключі, для цього відкриваємо меню Actions, далі натискаємо Manage keys
Натискаємо ADD KEY, далі Create new key
Вибираємо Key type = JSON та натискаємо CREATE. Далі зберігаємо ключ на своєму ПК.
-
Тепер необхідно створити процесор. В меню Google Cloud шукаємо Document AI та натискаємо на нього.
Далі натискаємо EXPLORE PROCESSORS
Обираємо Invoice Parser та натискаємо CREATE PROCESSOR
Задаємо назву процесора INVOICE_PROCESSOR та натискаємо CREATE
В результаті ми отримуємо інформацію про процесор, яку далі необхідно буде використати при створені профілю IDP в системі.
-
Заходимо в систему під обліковим записом з правами Developer, переходимо в Адміністрування - Налаштування - Профілі IDP провайдерів. Натискаємо Додати профіль
Вибираємо Провайдер = Розпізнавання форм Google, вводимо назву, вставляємо облікові дані в форматі JSON (ключі що були збережені на ПК). Натискаємо + Додати для додавання моделі.
Вибираємо доступну в системі сутність IDP = INVOICE_PROCESSOR Invoice, вводимо ідентифікатор моделі, що відповідає назві процесору в Google Cloud, та URL адресу, її необхідно скопіювати з Prediction endpoint в Google Cloud але не повністю, а так як показано на скріншоті. Натискаємо Додати
Ще раз натискаємо Додати для створення профілю провайдера IDP Google.
2.14.2.1.2. Створити сутність IDP
Функціонал Сутності IDP доступний лише при встановленні додаткового пакета dfx-idp. Цей функціонал використовується для розумного сканування паперових документів та подальшого перетворення на електронний формат.
Сутність IDP — це набір атрибутів для розпізнавання документів, які надаються провайдером розпізнавання (Azure або Google). Далі атрибути сутності використовуються для створення шаблонів розпізнавання форми. За допомогою цих шаблонів, система зіставляє (зв'язує) розпізнані дані з відповідними атрибутами типу документа.
-
У панелі навігації, виберіть робочий стіл Студія 1.
-
Виберіть групу ярликів Центр ШІ 2, а потім виберіть групу ярликів Розпізнавання документів 3.
-
Виберіть ярлик Сутності IDP 4.
-
У панелі інструментів, виберіть + 5.
-
Заповніть поля, використовуючи підказки в таблиці нижче.
| Назва поля | Опис |
|---|---|
| Код* | Унікальний ідентифікатор сутності. Код має відповідати коду моделі розгорнутої у провайдера Azure чи Google.
|
| Найменування* | Введіть бажану назву сутності IDP Приклад: Розпізнавання паспортних даних ℹ️ Примітка: Ви можете встановити назву сутності для різних мов. Для цього у полі Найменування, виберіть піктограму та заповніть поля для інших мов. А потім виберіть кнопку Застосувати. |
| Опис | Короткий опис призначення сутності. Приклад: Сутність для розпізнавання паспортних даних |
| Провайдер* | Виберіть один з наступних провайдерів розпізнавання форм:
|
Поля позначені символом "*" є обов'язковими до заповнення.
-
У верхньому меню виберіть піктограму Зберегти 1.
-
В таблиці Атрибути сутності IDP виберіть піктограму + 2.
-
Заповніть поля, використовуючи підказки в таблиці нижче.
| Назва поля | Опис |
|---|---|
| Код* | Унікальний ідентифікатор атрибута сутності IDP – має відповідати коду який надає провайдер |
| Найменування* | Введіть бажану назву атрибута сутності IDP ℹ️ Примітка: Ви можете встановити назву сутності для різних мов. Для цього у полі Найменування, виберіть піктограму та заповніть поля для інших мов. А потім виберіть кнопку Застосувати. |
| Опис | Опис атрибута сутності IDP |
| Тип даних* | Виберіть тип даних для атрибута:
Для цього, виберіть піктограму Зберегти 1, а потім, в полі Атрибути елемента масиву, виберіть піктограму + 2. ![]() |
Поля позначені символом "*" є обов'язковими до заповнення.
- У панелі інструментів виберіть піктограму Зберегти або Зберегти та закрити.
2.14.2.1.3. Додайте модель
-
У панелі навігації, виберіть робочий стіл Студія 1.
-
Виберіть групу ярликів ШІ Центр 2, а потім виберіть ярлик Моделі ШІ 3.
-
У панелі інструментів, виберіть Додати модель 1.
-
У розкривному списку виберіть IDP розпізнавання 2.
-
Заповніть поля, використовуючи підказки в таблиці нижче.
| Поле | Опис |
|---|---|
| Провайдер* | Виберіть один з доступних варіантів:
|
| Назва* | Введіть коротку та зрозумілу назву. |
| Опис | Внесіть додаткову інформацію про конфігурацію. |
Для Azure
| Поле | Опис |
|---|---|
| Ключ* | Введіть ваш API-ключ, отриманий від Azure при реєстрації облікового запису провайдера. Щоб знайти ваш ключ виконайте наступні кроки:
|
| URL адреса* | Вкажіть endpoint URL для доступу до сервісу розпізнавання, отриманий від Azure при реєстрації облікового запису провайдера. Щоб знайти ваш URL, виконайте наступні кроки:
|
| Моделі* | Ви можете використовувати вже додані prebuilt моделі або додати власні. Щоб додати власні, виберіть кнопку Додати.
|
Для Google
| Поле | Опис |
|---|---|
| Облікові дані* | Завантажте JSON файл з обліковими даними сервісного акаунта Google, який ви завантажили під час створення облікового запису Google Cloud. |
| Моделі* |
|
Поля позначені символом "*" є обов'язковими до заповнення.
- Після заповнення всіх полів, виберіть кнопку Додати.
2.14.2.1.4. Створити шаблон розпізнавання
-
У панелі навігації, виберіть робочий стіл Студія 1.
-
Виберіть групу ярликів Центр 2, а потім виберіть групу ярликів Розпізнавання документів 3.
-
Виберіть ярлик Шаблони розпізнавання 4.
-
У панелі інструментів, виберіть + 5.
-
Заповніть поля 1, використовуючи підказки в таблиці нижче, а потім у панелі інструментів виберіть піктограму Зберегти або Зберегти та закрити 2.
| Назва поля | Опис |
|---|---|
| Код* | Унікальний ідентифікатор шаблону.
|
| Найменування* | Вкажіть зрозумілу назву шаблону, яка буде відображатися в інтерфейсі системи. Наприклад: "Розпізнавання рахунків" або "Шаблон для паспортів". ℹ️ Примітка: Ви можете встановити назву шаблону для різних мов. Для цього у полі Найменування, виберіть піктограму та заповніть поля для інших мов. А потім виберіть кнопку Застосувати. |
| Опис | Додайте короткий опис призначення шаблону та особливостей його використання. |
| Метод розпізнавання* | Виберіть варіант Провайдер розпізнавання форм. |
| Провайдер* | Виберіть один з доступних провайдерів розпізнавання:
|
Налаштування для провайдера "Tesseract"
Шаблон — Введіть налаштування шаблону у форматі JSON масиву, де кожен об'єкт містить наступні параметри:
[
{
"attribute": "", // Код атрибута, в який бажаєте записати витягнуті результати
"top": null, // Координата Х верхнього лівого кута області розпізнавання
"left": null, // Координата Y верхнього лівого кута області розпізнавання
"width": null, // Ширина області розпізнавання
"height": null, // Висота області розпізнавання
}
]
Якщо у полі Шаблон вказати порожній JSON-масив [], система виконає лише розпізнавання тексту у відсканованому файлі та додасть до нього текстовий шар. У цьому випадку витягнуті текстові значення не будуть записані в жоден атрибут документа.
Наприклад, для розпізнавання дати документа з першої сторінки, області розміром 200x40 пікселів, що розташована на відстані 100 пікселів зверху та 50 пікселів зліва:
[
{
"attribute": "documentDate",
"top": 100,
"left": 50,
"width": 200,
"height": 40,
}
]
Налаштування для провайдерів "Google" та "Azure"
| Назва поля | Опис |
|---|---|
| Сутність* | Виберіть зі списку потрібну IDP сутність. |
| Тип документа* | Виберіть тип документа, для якого створюється шаблон розпізнавання. Це визначає, які атрибути будуть доступні для мапінгу. |
| Кнопка "Додати мапінг" | Виберіть кнопку Додати мапінг щоб створити зв'язок між даними, які потрібно розпізнати в документі, та місцем, куди ці дані будуть збережені в системі. В межах шаблону ви можете зробити декілька таких зв'язків. |
| Шар результату розпізнавання | Виберіть один з наступних варіантів:
|
Налаштування для шару результату типу "Сутність"
| Назва поля | Опис |
|---|---|
| Поле результату розпізнавання* | Виберіть зі списку потрібне поле моделі, яке містить розпізнаний текст. Наприклад: "Due Date" для дати платежу. Під полем ви побачите підказку англійською мовою, яка пояснює призначення цього поля. |
| Підполе результату розпізнавання | Це поле з'являється коли поле, обране вище, є складним і містить підполя. Наприклад: адреси, які складаються з вулиці, міста, регіону. Виберіть зі списку потрібне підполе. |
| Тип атрибута документа* | Виберіть один з наступних типів атрибута, до якого бажаєте налаштувати мапінг:
|
| Атрибут документа* | Виберіть зі списку конкретний атрибут, куди буде збережено розпізнане значення. |
Налаштування для шару результату типу "Пари ключ-значення"
| Назва поля | Опис |
|---|---|
| Ключ токена* | Введіть ключове слово, за яким буде знайдено потрібний текст |
| Регулярний вираз токена* | Введіть регулярний вираз — це шаблон, який використовується для визначення структури тексту, який треба розпізнати Приклади:
Див. Синтаксис регулярних виразів. |
| Тип атрибуту документа* | Виберіть один з наступних типів атрибута, до якого бажаєте налаштувати мапінг:
|
| Атрибут документа* | Виберіть зі списку конкретний атрибут, куди буде збережено розпізнане значення |
-
Поля позначені символом "*" є обов'язковими до заповнення.
-
Для розпізнавання таблиць підтримується функціонал мапінг масиву. Для цього, необхідно скористатись попередньо навченою моделлю (pre-built model).
2.14.2.2. Застосувати шаблон розпізнавання Tesseract
Оскільки шаблон розпізнавання форм Tesseract створюється як універсальний шаблон і не має прив’язки до конкретного типу документа, ви можете застосовувати його до будь-яких типів документів. Для цього виконайте наступні кроки:
-
У панелі навігації виберіть робочий стіл Студія 1.
-
Виберіть ярлик Типи документів 2.
-
Відкрийте тип документа, до якого бажаєте застосувати шаблон 3.
-
Перейдіть на вкладку Конструктор.
-
Додайте на форму атрибут типу Образ документа або Файл 1, у який буде завантажено відсканований та розпізнаний файл.
-
Додайте на форму атрибути типу Текст 2, у які, згідно з налаштуваннями шаблону розпізнавання, будуть записані текстові фрагменти, визначені координатами.
-
Наведіть курсор на файловий атрибут, а потім виберіть піктограму , щоб налаштувати дії.
-
Установіть прапорці біля наступних дій 1:
- Сканувати + розпізнати
- Сканувати
- Параметри сканування
-
Виберіть Зберегти 2.
-
Виберіть файловий атрибут 1, а потім у меню Налаштування атрибута знайдіть поле Шаблон розпізнавання 2 та виберіть зі списку потрібний шаблон.
-
У панелі інструментів виберіть піктограму Зберегти A або Зберегти та закрити B.
-
Створіть документ цього типу.
-
У панелі навігації виберіть робочий стіл Документи 1.
-
Виберіть ярлик Документи 2, а потім у панелі інструментів виберіть + 3.
-
У полі Тип документа 1 виберіть потрібний тип, а потім виберіть Створити 2.
-
-
Після того як ви створите документ, відкриється його форма. У файловому атрибуті (який ви налаштовували в попередніх кроках) виберіть піктограму
, щоб налаштувати сканер.
-
У секції Сканер 1 виберіть зі списку підключений сканер. Якщо ви ще не підключали сканер, див. Налаштування сканера.
-
У секції Формат файлу 2 виберіть JPEG або TIFF. Інші формати не підтримуються для розпізнавання за допомогою Tesseract.
-
Виберіть Змінити 3, щоб зберегти зміни.
-
У файловому атрибуті виберіть піктограму
, щоб відсканувати документ і розпізнати його.
-
Після завершення сканування у файловому атрибуті 1 буде розміщено файл із текстовим шаром (за потреби ви зможете виділяти текст у файлі та використовувати його в будь-якому місці). Також необхідні фрагменти тексту будуть записані в значення атрибутів 2 відповідно до налаштувань шаблону розпізнавання.
2.14.2.3. Застосувати шаблон розпізнавання Azure або Google
Перед застосуванням шаблону, переконайтеся, що налаштували IDP розпізнавання.
Існує два способи застосування шаблону розпізнавання провайдера Azure або Google:
-
Спосіб 1: через системний ярлик.
У цьому способі розпізнавання зможе виконувати лише адміністратор платформи. Інструкція з розпізнавання ідентична інструкції з розпізнавання за допомогою ШІ — Спосіб 1: через системний ярлик. -
Спосіб 2: через користувацький ярлик.
У цьому способі розпізнавання зможуть виконувати будь-які користувачі платформи, яким адміністратор надасть доступ до ярлика. Інструкція з розпізнавання ідентична інструкції з розпізнавання за допомогою ШІ — Спосіб 2: через користувацький ярлик.
На відміну від розпізнавання за допомогою ШІ, IDP-розпізнавання підтримує обробку лише одного документа за один раз.
Після того, як ви здійсните розпізнавання документа за допомогою IDP, ви можете підсвічувати потрібний вам контент у відсканованому документі, щоб швидко знайти потрібну інформацію. Для цього виберіть атрибут, контент якого хочете побачити в документі 1, а тоді потрібний вам фрагмент документа підсвітиться зеленим кольором 2.

