2.7.7. Шаблони розпізнавання форм
Функціонал Шаблони розпізнавання форм доступний лише при встановленні додаткового пакета dfx-idp. Цей функціонал використовується для розумного сканування паперових документів та подальшого перетворення на електронний формат.
Шаблони розпізнавання форм — це набори правил та інструкцій для автоматичного розпізнавання даних з документів під час їх сканування, з подальшим автоматичним заповненням відповідних атрибутів документа в системі.
2.7.7.1. Створити шаблон розпізнавання форм
-
У панелі навігації, виберіть робочий стіл Студія 1.
-
Виберіть групу ярликів Форми та шаблони 2, а потім виберіть ярлик Шаблони розпізнавання форм 3.
-
У панелі інструментів, виберіть "+" 4.
-
Заповніть поля 1, використовуючи підказки в таблиці нижче, а потім у панелі інструментів виберіть піктограму Зберегти або Зберегти та закрити 2.
| Назва поля | Опис |
|---|---|
| Код* | Унікальний ідентифікатор шаблону
|
| Найменування* | Вкажіть зрозумілу назву шаблону, яка буде відображатися в інтерфейсі системи. Наприклад: "Розпізнавання рахунків" або "Шаблон для паспортів". ℹ️ Примітка: Ви можете встановити назву шаблону для різних мов. Для цього у полі "Найменування", виберіть піктограму та заповніть поля для інших мов. А потім виберіть кнопку "Застосувати". |
| Опис | Додайте короткий опис призначення шаблону та особливостей його використання. |
| Провайдер* | Виберіть один з доступних провайдерів розпізнавання:
|
Налаштування для провайдера "Tesseract"
В полі Шаблон введіть налаштування шаблону у форматі JSON масиву, де кожен об'єкт містить наступні параметри (див. приклад нижче).
Приклад структури JSON:
[
{
"attribute": "", // Пов'язаний атрибут
"areaPage": null, // Сторінка файлу/скану на який розміщено
"top": null, // Координата Х верхнього лівого кута області розпізнавання
"left": null, // Координата Y верхнього лівого кута області розпізнавання
"width": null, // Ширина області розпізнавання
"height": null, // Висота області розпізнавання
"dateConvertationTemplate": "", // Шаблон перетворення дати
"byDefault": "" // Значення, якими атрибут заповнюється за замовчуванням
}
]
Наприклад, для розпізнавання дати документа з першої сторінки, області розміром 200x40 пікселів, що розташована на відстані 100 пікселів зверху та 50 пікселів зліва:
[
{
"attribute": "documentDate",
"areaPage": 1,
"top": 100,
"left": 50,
"width": 200,
"height": 40,
"dateConvertationTemplate": "DD.MM.YYYY",
"byDefault": "01.01.2024"
}
]
Налаштування для провайдерів "Google" та "Azure"
| Назва поля | Опис |
|---|---|
| Сутність* | Виберіть зі списку потрібну IDP сутність. |
| Тип документа* | Виберіть тип документа, для якого створюється шаблон розпізнавання. Це визначає, які атрибути будуть доступні для мапінгу. |
| Кнопка "Додати мапінг" | Виберіть кнопку Додати мапінг щоб створити зв'язок між даними, які потрібно розпізнати в документі, та місцем, куди ці дані будуть збережені в системі. В межах шаблону ви можете зробити декілька таких зв'язків. |
| Шар результату розпізнавання | Виберіть один з наступних варіантів:
|
Налаштування для шару результату типу "Сутність"
| Назва поля | Опис |
|---|---|
| Поле результату розпізнавання* | Виберіть зі списку потрібне поле моделі, яке містить розпізнаний текст. Наприклад: "Due Date" для дати платежу. Під полем ви побачите підказку англійською мовою, яка пояснює призначення цього поля. |
| Підполе результату розпізнавання | Це поле з'являється коли поле, обране вище, є складним і містить підполя. Наприклад: адреси, які складаються з вулиці, міста, регіону. Виберіть зі списку потрібне підполе. |
| Тип атрибута документа* | Виберіть один з наступних типів атрибута, до якого бажаєте налаштувати мапінг:
|
| Атрибут документа* | Виберіть зі списку конкретний атрибут, куди буде збережено розпізнане значення |
Налаштування для шару результату типу "Пари ключ-значення"
| Назва поля | Опис |
|---|---|
| Ключ токена* | Введіть ключове слово, за яким буде знайдено потрібний текст |
| Регулярний вираз токена* | Введіть регулярний вираз — це шаблон, який використовується для визначення структури тексту, який треба розпізнати Приклади:
Див. Синтаксис регулярних виразів. |
| Тип атрибуту документа* | Виберіть один з наступних типів атрибута, до якого бажаєте налаштувати мапінг:
|
| Атрибут документа* | Виберіть зі списку конкретний атрибут, куди буде збережено розпізнане значення |
Поля позначені символом "*" є обов'язковими до заповнення.
Для розпізнавання таблиць підтримується функціонал мапінг масиву. Для цього, необхідно скористатись попередньо навченою моделлю (pre-built model).
2.7.7.2. Застосувати шаблон розпізнавання Tesseract
Так як шаблон розпізнавання форм Tesseract створюється як універсальний шаблон, без прив'язки до конкретного типу документа, то ви можете застосовувати його до будь-яких типів документів. Для цього, виконайте наступні кроки:
-
У панелі навігації, виберіть робочий стіл Студія 1.
-
Виберіть ярлик Типи документів 2.
-
Відкрийте тип документа, до якого бажаєте застосувати шаблон 3.
-
Перейдіть у вкладку Конструктор 1.
-
На формі, виберіть бажаний файловий атрибут 2.
-
В меню Налаштування атрибута, знайдіть поле Шаблон розпізнавання 1 та виберіть зі списку потрібний шаблон.
-
У панелі інструментів виберіть піктограму Зберегти або Зберегти та закрити 2.
2.7.7.3. Застосувати шаблон розпізнавання Azure або Google
Існує два способи застосування шаблону розпізнавання провайдера Azure або Google:
- Спосіб 1: за допомогою ярлика "Журнал розпізнавання". У цьому способі, розпізнавання зможе виконувати лише адміністратор платформи.
- Спосіб 2: за допомогою спеціально створеного ярлика. У цьому способі, розпізнавання зможуть виконувати будь-які користувачі платформи, яким адміністратор надасть доступ до ярлика.
2.7.7.3.1. Передумови для застосування
Щоб застосувати шаблон розпізнавання провайдера Azure або Google, переконайтесь, що виконали наступні умови:
- Додайте профіль IDP провайдера — На цьому етапі ми підключаємо нашу систему до зовнішньої "розумної" служби розпізнавання документів (Google або Azure), щоб використовувати їх AI-можливості.
- Створіть сутність IDP — На цьому етапі ми визначаємо, які саме дані нам потрібно розпізнавати в документах і як їх слід структурувати.
- Створіть шаблон розпізнавання форм — На цьому етапі ми налаштовуємо, як саме будуть розпізнаватися документи та куди зберігатимуться розпізнані дані.
2.7.7.3.2. Спосіб 1
У цьому сценарії, розпізнавання зможе виконувати лише адміністратор платформи.
-
У панелі навігації, виберіть робочий стіл Адміністрування 1.
-
Виберіть групу ярликів Інструменти обслуговування 2, а потім виберіть ярлик Журнал завдань розпізнавання форм 3.
-
У панелі інструментів, виберіть "+" 4.
-
В полі Шаблон розпізнавання 1, виберіть потрібний шаблон.
-
В полі Файл, виберіть піктограму "+" 2, щоб завантажити зісканований документ який бажаєте розпізнати.
Примітка:документ має відповідати типу документа, для якого ви створили шаблон розпізнавання. Приклад: якщо ви створили шаблон розпізнавання для типу документа "Заява на відпустку", то в поле файл вам найімовірніше, потрібно буде завантажити заяву конкретного працівника: "Заява на відпустку Федора Гончара".
-
Увімкніть перемикач З попереднім переглядом 1, якщо бажаєте переглянути розпізнані значення та відредагувати їх перед збереженням документа.
-
Виберіть кнопку Розпізнати 2.
Коли платформа завершить процес розпізнавання, ви отримаєте повідомлення у платформі. Щоб переглянути повідомлення, виберіть піктограму .
2.7.7.3.3. Спосіб 2
У цьому сценарії, розпізнавання зможуть виконувати будь-які користувачі платформи, яким адміністратор надасть доступ до ярлика.
-
Створіть ярлик типу Документи.
-
При створенні ярлика, перейдіть у вкладку Типізовані 1.
-
У полі Типи документа 2, виберіть зі списку тип документа, для якого ви створили шаблон розпізнавання провайдера Google чи Azure.
-
Виберіть кнопку Налаштування дій.
-
У вікні "Налаштування дій", увімкніть перемикач Створити документ за допомогою шаблону розпізнавання документа (IDP) 1, а потім виберіть кнопку Зберегти 2.
-
У панелі інструментів виберіть піктограму Зберегти, щоб зберегти ярлик.
-
Перейдіть у збережений ярлик, а тоді у панелі інструментів виберіть піктограму
.
-
У вікні "Створення документа" в полі Шаблон розпізнавання 1, виберіть потрібний шаблон.
Примітка:якщо для даного типу документа налаштовано лише один шаблон розпізнавання, він буде вибраний в полі автоматично.
-
В полі Файл, виберіть піктограму "+" 2, щоб завантажити зісканований документ який бажаєте розпізнати.
Примітка:документ має відповідати типу документа, для якого ви створили шаблон розпізнавання. Приклад: якщо ви створили шаблон розпізнавання для типу документа "Заява на відпустку", то в поле файл вам найімовірніше, потрібно буде завантажити заяву конкретного працівника: "Заява на відпустку Федора Гончара".
-
Увімкніть перемикач З попереднім переглядом 1, якщо бажаєте переглянути розпізнані значення та відредагувати їх перед збереженням документа.
-
Виберіть кнопку Розпізнати 2.
Коли платформа завершить процес розпізнавання, ви отримаєте повідомлення у платформі. Щоб переглянути повідомлення, виберіть піктограму .
Після того, як ви здійсните розпізнавання документа, за допомогою IDP функціоналу, ви можете підсвічувати потрібний вам контент у відсканованому документі, щоб швидко знайти потрібну інформацію. Для цього виберіть атрибут, контент якого хочете побачити у документі, а тоді потрібний вам фрагмент документа, підсвітиться зеленим кольором.
