Skip to main content
Version: 51.0.0

2.7.7. Шаблони розпізнавання форм

Примітка:

Функціонал Шаблони розпізнавання форм доступний лише при встановленні додаткового пакета dfx-idp. Цей функціонал використовується для розумного сканування паперових документів та подальшого перетворення на електронний формат.

Шаблони розпізнавання форм — це набори правил та інструкцій для автоматичного розпізнавання даних з документів під час їх сканування, з подальшим автоматичним заповненням відповідних атрибутів документа в системі.

2.7.7.1. Створити шаблон розпізнавання форм

  1. У панелі навігації, виберіть робочий стіл Студія 1.

  2. Виберіть групу ярликів Форми та шаблони 2, а потім виберіть ярлик Шаблони розпізнавання форм 3.

  3. У панелі інструментів, виберіть "+" 4.

    Screenshot
  4. Заповніть поля 1, використовуючи підказки в таблиці нижче, а потім у панелі інструментів виберіть піктограму Зберегти або Зберегти та закрити 2.

    Screenshot
Назва поляОпис
Код*Унікальний ідентифікатор шаблону
  • Код повинен бути унікальним.
  • Код повинен бути коротким (зазвичай до 10 символів).
  • Використовуйте тільки латинські букви та цифри.
Найменування*Вкажіть зрозумілу назву шаблону, яка буде відображатися в інтерфейсі системи. Наприклад: "Розпізнавання рахунків" або "Шаблон для паспортів".

ℹ️ Примітка: Ви можете встановити назву шаблону для різних мов. Для цього у полі "Найменування", виберіть піктограму та заповніть поля для інших мов. А потім виберіть кнопку "Застосувати".
ОписДодайте короткий опис призначення шаблону та особливостей його використання.
Провайдер*Виберіть один з доступних провайдерів розпізнавання:
  • Розпізнавання Tesseract — створюється як універсальний шаблон, без прив'язки до конкретного типу документа. У шаблоні налаштовується відповідність між областю на документі, з якої буде зчитуватися текст та атрибутом документа, куди цей текст буде записано. Шаблон можна використовувати для атрибутів наступних типів:
  • Розпізнавання форм Azure — для розширеного розпізнавання з використанням Azure AI Document Intelligence. Шаблон створюється з прив'язкою до конкретного типу документа.
  • Розпізнавання форм Google — для розширеного розпізнавання з використанням Google Cloud Vision API. Шаблон створюється з прив'язкою до конкретного типу документа.

Налаштування для провайдера "Tesseract"

В полі Шаблон введіть налаштування шаблону у форматі JSON масиву, де кожен об'єкт містить наступні параметри (див. приклад нижче).


Приклад структури JSON:

[
{
"attribute": "", // Пов'язаний атрибут
"areaPage": null, // Сторінка файлу/скану на який розміщено
"top": null, // Координата Х верхнього лівого кута області розпізнавання
"left": null, // Координата Y верхнього лівого кута області розпізнавання
"width": null, // Ширина області розпізнавання
"height": null, // Висота області розпізнавання
"dateConvertationTemplate": "", // Шаблон перетворення дати
"byDefault": "" // Значення, якими атрибут заповнюється за замовчуванням
}
]

Наприклад, для розпізнавання дати документа з першої сторінки, області розміром 200x40 пікселів, що розташована на відстані 100 пікселів зверху та 50 пікселів зліва:

[
{
"attribute": "documentDate",
"areaPage": 1,
"top": 100,
"left": 50,
"width": 200,
"height": 40,
"dateConvertationTemplate": "DD.MM.YYYY",
"byDefault": "01.01.2024"
}
]

Налаштування для провайдерів "Google" та "Azure"

Назва поляОпис
Сутність*Виберіть зі списку потрібну IDP сутність.
Тип документа*Виберіть тип документа, для якого створюється шаблон розпізнавання. Це визначає, які атрибути будуть доступні для мапінгу.
Кнопка "Додати мапінг"Виберіть кнопку Додати мапінг щоб створити зв'язок між даними, які потрібно розпізнати в документі, та місцем, куди ці дані будуть збережені в системі. В межах шаблону ви можете зробити декілька таких зв'язків.
Шар результату розпізнаванняВиберіть один з наступних варіантів:
  • "Сутність" — використовується для роботи з попередньо навченою моделлю розпізнавання (Azure, Google). Система вже "знає" де шукати конкретні дані на документі певного типу. Не потребує вказання ключових слів чи шаблонів — модель сама визначає потрібні поля. Поля для розпізнавання обираються зі стандартного переліку моделі (наприклад, "Due Date", "Remittance Address")
  • "Пари ключ-значення" — використовується для пошуку даних за конкретними маркерами в документі. Вимагає більше ручного налаштування, але дає більше контролю над процесом розпізнавання.

Налаштування для шару результату типу "Сутність"

Назва поляОпис
Поле результату розпізнавання*Виберіть зі списку потрібне поле моделі, яке містить розпізнаний текст.
Наприклад: "Due Date" для дати платежу. Під полем ви побачите підказку англійською мовою, яка пояснює призначення цього поля.
Підполе результату розпізнаванняЦе поле з'являється коли поле, обране вище, є складним і містить підполя.
Наприклад: адреси, які складаються з вулиці, міста, регіону.
Виберіть зі списку потрібне підполе.
Тип атрибута документа*Виберіть один з наступних типів атрибута, до якого бажаєте налаштувати мапінг:
Атрибут документа*Виберіть зі списку конкретний атрибут, куди буде збережено розпізнане значення

Налаштування для шару результату типу "Пари ключ-значення"

Назва поляОпис
Ключ токена*Введіть ключове слово, за яким буде знайдено потрібний текст
Регулярний вираз токена*Введіть регулярний вираз — це шаблон, який використовується для визначення структури тексту, який треба розпізнати
Приклади:
  • \d+ — для пошуку будь-якої послідовності цифр (наприклад, номера)
  • \d{2}\.\d{2}\.\d{4} — для пошуку дати у форматі ДД.ММ.РРРР
  • [A-Z]{2}\d{6} — для пошуку коду, що складається з 2 літер та 6 цифр

Див. Синтаксис регулярних виразів.
Тип атрибуту документа*Виберіть один з наступних типів атрибута, до якого бажаєте налаштувати мапінг:
Атрибут документа*Виберіть зі списку конкретний атрибут, куди буде збережено розпізнане значення
Примітка:

Поля позначені символом "*" є обов'язковими до заповнення.

Примітка:

Для розпізнавання таблиць підтримується функціонал мапінг масиву. Для цього, необхідно скористатись попередньо навченою моделлю (pre-built model).

2.7.7.2. Застосувати шаблон розпізнавання Tesseract

Так як шаблон розпізнавання форм Tesseract створюється як універсальний шаблон, без прив'язки до конкретного типу документа, то ви можете застосовувати його до будь-яких типів документів. Для цього, виконайте наступні кроки:

  1. У панелі навігації, виберіть робочий стіл Студія 1.

  2. Виберіть ярлик Типи документів 2.

  3. Відкрийте тип документа, до якого бажаєте застосувати шаблон 3.

    Screenshot
  4. Перейдіть у вкладку Конструктор 1.

  5. На формі, виберіть бажаний файловий атрибут 2.

    Screenshot
  6. В меню Налаштування атрибута, знайдіть поле Шаблон розпізнавання 1 та виберіть зі списку потрібний шаблон.

  7. У панелі інструментів виберіть піктограму Зберегти або Зберегти та закрити 2.

    Screenshot

2.7.7.3. Застосувати шаблон розпізнавання Azure або Google

Існує два способи застосування шаблону розпізнавання провайдера Azure або Google:

2.7.7.3.1. Передумови для застосування

Щоб застосувати шаблон розпізнавання провайдера Azure або Google, переконайтесь, що виконали наступні умови:

  1. Додайте профіль IDP провайдера — На цьому етапі ми підключаємо нашу систему до зовнішньої "розумної" служби розпізнавання документів (Google або Azure), щоб використовувати їх AI-можливості.
  2. Створіть сутність IDP — На цьому етапі ми визначаємо, які саме дані нам потрібно розпізнавати в документах і як їх слід структурувати.
  3. Створіть шаблон розпізнавання форм — На цьому етапі ми налаштовуємо, як саме будуть розпізнаватися документи та куди зберігатимуться розпізнані дані.

2.7.7.3.2. Спосіб 1

У цьому сценарії, розпізнавання зможе виконувати лише адміністратор платформи.

  1. У панелі навігації, виберіть робочий стіл Адміністрування 1.

  2. Виберіть групу ярликів Інструменти обслуговування 2, а потім виберіть ярлик Журнал завдань розпізнавання форм 3.

  3. У панелі інструментів, виберіть "+" 4.

    Screenshot
  4. В полі Шаблон розпізнавання 1, виберіть потрібний шаблон.

  5. В полі Файл, виберіть піктограму "+" 2, щоб завантажити зісканований документ який бажаєте розпізнати.

    Screenshot
    Примітка:

    документ має відповідати типу документа, для якого ви створили шаблон розпізнавання. Приклад: якщо ви створили шаблон розпізнавання для типу документа "Заява на відпустку", то в поле файл вам найімовірніше, потрібно буде завантажити заяву конкретного працівника: "Заява на відпустку Федора Гончара".

  6. Увімкніть перемикач З попереднім переглядом 1, якщо бажаєте переглянути розпізнані значення та відредагувати їх перед збереженням документа.

  7. Виберіть кнопку Розпізнати 2.

    Screenshot

Коли платформа завершить процес розпізнавання, ви отримаєте повідомлення у платформі. Щоб переглянути повідомлення, виберіть піктограму .

Screenshot

2.7.7.3.3. Спосіб 2

У цьому сценарії, розпізнавання зможуть виконувати будь-які користувачі платформи, яким адміністратор надасть доступ до ярлика.

  1. Створіть ярлик типу Документи.

    Screenshot
  2. При створенні ярлика, перейдіть у вкладку Типізовані 1.

  3. У полі Типи документа 2, виберіть зі списку тип документа, для якого ви створили шаблон розпізнавання провайдера Google чи Azure.

    Screenshot
  4. Виберіть кнопку Налаштування дій.

    Screenshot
  5. У вікні "Налаштування дій", увімкніть перемикач Створити документ за допомогою шаблону розпізнавання документа (IDP) 1, а потім виберіть кнопку Зберегти 2.

    Screenshot
  6. У панелі інструментів виберіть піктограму Зберегти, щоб зберегти ярлик.

    Screenshot
  7. Перейдіть у збережений ярлик, а тоді у панелі інструментів виберіть піктограму Screenshot.

  1. У вікні "Створення документа" в полі Шаблон розпізнавання 1, виберіть потрібний шаблон.

    Примітка:

    якщо для даного типу документа налаштовано лише один шаблон розпізнавання, він буде вибраний в полі автоматично.

  2. В полі Файл, виберіть піктограму "+" 2, щоб завантажити зісканований документ який бажаєте розпізнати.

    Screenshot
    Примітка:

    документ має відповідати типу документа, для якого ви створили шаблон розпізнавання. Приклад: якщо ви створили шаблон розпізнавання для типу документа "Заява на відпустку", то в поле файл вам найімовірніше, потрібно буде завантажити заяву конкретного працівника: "Заява на відпустку Федора Гончара".

  3. Увімкніть перемикач З попереднім переглядом 1, якщо бажаєте переглянути розпізнані значення та відредагувати їх перед збереженням документа.

  4. Виберіть кнопку Розпізнати 2.

    Screenshot

Коли платформа завершить процес розпізнавання, ви отримаєте повідомлення у платформі. Щоб переглянути повідомлення, виберіть піктограму .

Screenshot

Після того, як ви здійсните розпізнавання документа, за допомогою IDP функціоналу, ви можете підсвічувати потрібний вам контент у відсканованому документі, щоб швидко знайти потрібну інформацію. Для цього виберіть атрибут, контент якого хочете побачити у документі, а тоді потрібний вам фрагмент документа, підсвітиться зеленим кольором.

Screenshot