Skip to main content
Version: 52.0.0

2.14.2. Розпізнавання IDP

Примітка:

Функціонал Шаблони штампа доступний лише при встановленні додаткового пакета dfx-idp.

Розпізнавання документів за допомогою технології IDP це вже відомий функціонал платформи Scriptum. Функціонал працює без змін, проте ярлики, в яких відбувалось налаштування idp-розпізнавання, змінили свою назву та розташування.

2.14.2.1. Налаштувати IDP розпізнавання

Налаштування IDP розпізнавання складається з трьох етапів:

  1. Оберіть провайдера Azure чи Google та створіть обліковий запис, щоб отримати ключ:

  2. Створіть сутність IDP — визначте, які саме дані потрібно розпізнавати в документах і як їх слід структурувати. Або ви можете використовувати стандартні сутності, які вже створені в системі, а саме:

    a. Prebuilt-invoice (для провайдера Azure)

    b. Prebuilt-receipt (для провайдера Azure)

    c. INVOICE_PROCESSOR (для провайдера Google)

  3. Додайте модель — підключіть створений профіль Azure або Google до платформи Scriptum за допомогою ключа.

  4. Створіть шаблон розпізнавання — на цьому етапі налаштуйте, як саме будуть розпізнаватися документи та куди зберігатимуться розпізнані дані.

2.14.2.1.1. Створити обліковий запис провайдера

Azure

Інструкція по створенню підписки Azure для використання функціоналу IDP в системі Scriptum з використанням провайдеру Розпізнавання форм Azure

  1. Створюємо новий акаунт Azure або входимо в систему при наявності існуючого.

  2. Переходимо на домашню сторінку Azure Portal.

  3. Натискаємо Create a resource

    Screenshot
  4. Вибираємо тип ресурсу Document Intelligence (form recognizer), натискаєм Create

    Screenshot
  5. У новому вікні натискаєм Start.

    Screenshot
  6. У новому вікні натискаєм Try Azure for free.

    Screenshot
  7. У новому вікні погоджуємось з клієнтською угодою та натискаєм Next.

    Screenshot
  8. Необхідно вести дані карти.

    Screenshot
  9. У наступному вікні підтвердити захист кнопкою Next.

    Screenshot
  10. У новому вікні треба зайти до свого акаунту за допомогою кнопки Sign In.

    Screenshot
  11. У наступному вікні натиснути Create a resource.

    Screenshot
  12. Знайти Document Intelligence (form recognizer), натискаєм Create

    Screenshot
  13. Заповнюємо необхідні поля, вибираємо Price Tier = Free F0 для безкоштовного пробного використання. Натискаємо Next.

    Screenshot

    Приклад заповнення:

    Screenshot
  14. При необхідності налаштовуємо параметри мереж з яких буде дозволено доступ до ресурсу. Натискаємо Next

    Screenshot
  15. Натискаємо Next

    Screenshot
  16. При необхідності налаштвовуємо теги ресурсу, натискаємо Next

    Screenshot
  17. Натискаємо Create

    Screenshot
  18. Очікуємо розгортання ресурсу. Після завершення натискаємо Go to resource

    Screenshot
  19. В розділі Keys and Endpoint копіюємо значення KEY1 та Endpoint

    Screenshot
  20. В системі створюємо профіль IDP провайдера AZURE з використанням KEY1 та Endpoint. Також додаємо сутності IDP які поставляються в системі за замовчуванням. Invoice - розпізнавання рахунків, Receipt - розпізнавання чеків. Для створення профіля заходимо в систему з правами Developer та переходимо в Адміністрування - Налаштування - Профілі IDP провайдерів.

    Screenshot

Google Cloud

Інструкція по створенню підписки Google Cloud для використання функціоналу IDP в системі Scriptum з використанням провайдеру Розпізнавання форм Google

Заходимо в Google Cloud під існуючим обліковим записом Google (або створюємо новий в разі відсутності).

  1. Натискаємо Create Project

    Screenshot
  2. Вводимо назву проекта (або залишаємо назву яка сформована автоматично) та натискаємо Create.

    Screenshot
  3. Далі необхідно активувати білінг - створити trial підписку або обрати платну підписку. Для цього відкриваємо меню та обираємо Billing

    Screenshot
  4. Натискаємо MANAGE BILLING ACCOUNT, далі ADD BILLING ACCOUNT

    Screenshot Screenshot
  5. Вводимо інформацію про компанію, та дані банківської картки. Розпочинаємо безкоштовний trial.

    Screenshot Screenshot
  6. Далі необхідно активувати доступ до Document AI API. Натискаємо Next, далі Enable.

    Screenshot Screenshot
  7. Далі необхідно створити сервісний акаунт та отримати ключі для доступу до API. Переходимо до створення Service Account в Google Cloud Console. Вводимо інформацію про акаунт, натискаємо CREATE AND COMPLETE Натискаємо CONTINUE, далі DONE

    Screenshot Screenshot Screenshot
  8. Тепер необхідно створити ключі, для цього відкриваємо меню Actions, далі натискаємо Manage keys

    Screenshot

    Натискаємо ADD KEY, далі Create new key

    Screenshot

    Вибираємо Key type = JSON та натискаємо CREATE. Далі зберігаємо ключ на своєму ПК.

    Screenshot Screenshot
  9. Тепер необхідно створити процесор. В меню Google Cloud шукаємо Document AI та натискаємо на нього.

    Screenshot

    Далі натискаємо EXPLORE PROCESSORS

    Screenshot

    Обираємо Invoice Parser та натискаємо CREATE PROCESSOR

    Screenshot

    Задаємо назву процесора INVOICE_PROCESSOR та натискаємо CREATE

    Screenshot

    В результаті ми отримуємо інформацію про процесор, яку далі необхідно буде використати при створені профілю IDP в системі.

    Screenshot
  10. Заходимо в систему під обліковим записом з правами Developer, переходимо в Адміністрування - Налаштування - Профілі IDP провайдерів. Натискаємо Додати профіль

    Screenshot

    Вибираємо Провайдер = Розпізнавання форм Google, вводимо назву, вставляємо облікові дані в форматі JSON (ключі що були збережені на ПК). Натискаємо + Додати для додавання моделі.

    Screenshot

    Вибираємо доступну в системі сутність IDP = INVOICE_PROCESSOR Invoice, вводимо ідентифікатор моделі, що відповідає назві процесору в Google Cloud, та URL адресу, її необхідно скопіювати з Prediction endpoint в Google Cloud але не повністю, а так як показано на скріншоті. Натискаємо Додати

    Screenshot

Ще раз натискаємо Додати для створення профілю провайдера IDP Google.

2.14.2.1.2. Створити сутність IDP

Примітка:

Функціонал Сутності IDP доступний лише при встановленні додаткового пакета dfx-idp. Цей функціонал використовується для розумного сканування паперових документів та подальшого перетворення на електронний формат.

Сутність IDP — це набір атрибутів для розпізнавання документів, які надаються провайдером розпізнавання (Azure або Google). Далі атрибути сутності використовуються для створення шаблонів розпізнавання форми. За допомогою цих шаблонів, система зіставляє (зв'язує) розпізнані дані з відповідними атрибутами типу документа.

  1. У панелі навігації, виберіть робочий стіл Студія 1.

  2. Виберіть групу ярликів Центр ШІ 2, а потім виберіть групу ярликів Розпізнавання документів 3.

  3. Виберіть ярлик Сутності IDP 4.

  4. У панелі інструментів, виберіть + 5.

    Screenshot
  5. Заповніть поля, використовуючи підказки в таблиці нижче.

    Screenshot
Назва поляОпис
Код*Унікальний ідентифікатор сутності.
  • Код повинен бути унікальним.
  • Код повинен бути коротким (зазвичай до 10 символів).
  • Використовуйте тільки латинські букви та цифри.
Приклад: passport_recognition
Найменування*Введіть бажану назву сутності IDP
Приклад: Розпізнавання паспортних даних
ℹ️ Примітка: Ви можете встановити назву сутності для різних мов. Для цього у полі Найменування, виберіть піктограму та заповніть поля для інших мов. А потім виберіть кнопку Застосувати.
ОписКороткий опис призначення сутності.
Приклад: Сутність для розпізнавання паспортних даних
Провайдер*Виберіть один з наступних провайдерів розпізнавання форм:
  • Розпізнавання форм Azure — для розширеного розпізнавання з використанням Azure AI Document Intelligence.
  • Розпізнавання форм Google — для розширеного розпізнавання з використанням Google Cloud Vision API.
Примітка:

Поля позначені символом "*" є обов'язковими до заповнення.

  1. У верхньому меню виберіть піктограму Зберегти.

  2. В таблиці Атрибути сутності IDP виберіть піктограму +.

    Screenshot
  3. Заповніть поля, використовуючи підказки в таблиці нижче.

    Screenshot
Назва поляОпис
Код*Унікальний ідентифікатор атрибута сутності IDP – має відповідати коду який надає провайдер
Найменування*Введіть бажану назву атрибута сутності IDP
ℹ️ Примітка: Ви можете встановити назву сутності для різних мов. Для цього у полі Найменування, виберіть піктограму та заповніть поля для інших мов. А потім виберіть кнопку Застосувати.
ОписОпис атрибута сутності IDP
Тип даних*Виберіть тип даних для атрибута:
  • Рядок
  • Дата
  • Число
  • Адреса
  • Валюта
  • Масив
ℹ️ Примітка: якщо ви обрали тип даних Масив, то необхідно буде створити додаткові атрибути масиву.
Для цього, виберіть піктограму Зберегти 1, а потім, в полі Атрибути елемента масиву, виберіть піктограму + 2.
Screenshot
Примітка:

Поля позначені символом "*" є обов'язковими до заповнення.

  1. У панелі інструментів виберіть піктограму Зберегти або Зберегти та закрити.

2.14.2.1.3. Додайте модель

  1. У панелі навігації, виберіть робочий стіл Студія 1.

  2. Виберіть групу ярликів ШІ Центр 2, а потім виберіть ярлик Моделі ШІ 3.

    Screenshot
  3. У панелі інструментів, виберіть Додати модель 1.

  4. У розкривному списку виберіть IDP розпізнавання 2.

    Screenshot
  5. Заповніть поля, використовуючи підказки в таблиці нижче.

    Screenshot
ПолеОпис
Провайдер*Виберіть один з доступних варіантів:
  • Розпізнавання форм Azure
  • Розпізнавання документів Google
Назва*Введіть коротку та зрозумілу назву.
Опис Внесіть додаткову інформацію про конфігурацію.

Для Azure

ПолеОпис
Ключ*Введіть ваш API-ключ, отриманий від Azure при реєстрації облікового запису провайдера. Щоб знайти ваш ключ виконайте наступні кроки:
  1. Увійдіть у ваш створений обліковий запис Azure.
  2. В налаштуваннях перейдіть в секцію Keys and Enpoint.
  3. Знайдіть поле KEY 1 та скопіюйте його значення.
URL адреса*Вкажіть endpoint URL для доступу до сервісу розпізнавання, отриманий від Azure при реєстрації облікового запису провайдера. Щоб знайти ваш URL, виконайте наступні кроки:
  1. Увійдіть у ваш створений обліковий запис Azure.
  2. В налаштуваннях перейдіть в секцію Keys and Enpoint.
  3. Знайдіть поле Endpoint та скопіюйте його значення.
Моделі*Ви можете використовувати вже додані prebuilt моделі або додати власні.
Щоб додати власні, виберіть кнопку Додати.
  1. В полі Сутність IDP виберіть зі списку сутність IDP, яку ви створили у попередньому етапі або виберіть одну зі стандартних:
    • Prebuilt-invoice
    • Prebuilt-receipt
  2. В полі Ідентифікатор моделі введіть відповідний ідентифікатор.
  3. Виберіть кнопку Додати.

Для Google

ПолеОпис
Облікові дані*Завантажте JSON файл з обліковими даними сервісного акаунта Google, який ви завантажили під час створення облікового запису Google Cloud.
Моделі*
  1. В полі Сутність IDP виберіть зі списку сутність IDP, яку ви створили у попередньому етапі або оберіть стандартну сутність INVOICE_PROCESSOR.
  2. В полі Ідентифікатор моделі введіть введіть таку саму назву, як в полі Name вашого процесора в Google Cloud.
  3. В полі URL адреса введіть URL адресу, її необхідно скопіювати з поля Prediction endpoint в Google Cloud але не повністю, а лише починаючи зі слова projects.
  4. Виберіть кнопку Додати.
Примітка:

Поля позначені символом "*" є обов'язковими до заповнення.

  1. Після заповнення всіх полів, виберіть кнопку Додати.

2.14.2.1.4. Створити шаблон розпізнавання

  1. У панелі навігації, виберіть робочий стіл Студія 1.

  2. Виберіть групу ярликів Центр 2, а потім виберіть групу ярликів Розпізнавання документів 3.

  3. Виберіть ярлик Шаблони розпізнавання 4.

  4. У панелі інструментів, виберіть + 5.

    Screenshot
  5. Заповніть поля 1, використовуючи підказки в таблиці нижче, а потім у панелі інструментів виберіть піктограму Зберегти або Зберегти та закрити 2.

    Screenshot
Назва поляОпис
Код*
  • Унікальний ідентифікатор шаблону
  • Код повинен бути унікальним.
  • Код повинен бути коротким (зазвичай до 10 символів).
  • Використовуйте тільки латинські букви та цифри.
Найменування*Вкажіть зрозумілу назву шаблону, яка буде відображатися в інтерфейсі системи. Наприклад: "Розпізнавання рахунків" або "Шаблон для паспортів".
ℹ️ Примітка: Ви можете встановити назву шаблону для різних мов. Для цього у полі Найменування, виберіть піктограму та заповніть поля для інших мов. А потім виберіть кнопку Застосувати.
ОписДодайте короткий опис призначення шаблону та особливостей його використання.
Провайдер*Виберіть один з доступних провайдерів розпізнавання:
  • Розпізнавання Tesseract — створюється як універсальний шаблон, без прив'язки до конкретного типу документа. У шаблоні налаштовується відповідність між областю на документі, з якої буде зчитуватися текст та атрибутом документа, куди цей текст буде записано. Шаблон можна використовувати для атрибутів наступних типів:
  • Розпізнавання форм Azure — для розширеного розпізнавання з використанням Azure AI Document Intelligence. Шаблон створюється з прив'язкою до конкретного типу документа.
  • Розпізнавання форм Google — для розширеного розпізнавання з використанням Google Cloud Vision API. Шаблон створюється з прив'язкою до конкретного типу документа.

Налаштування для провайдера "Tesseract"

Шаблон — Введіть налаштування шаблону у форматі JSON масиву, де кожен об'єкт містить наступні параметри:

[
{
"attribute": "", // Пов'язаний атрибут
"areaPage": null, // Сторінка файлу/скану на який розміщено
"top": null, // Координата Х верхнього лівого кута області розпізнавання
"left": null, // Координата Y верхнього лівого кута області розпізнавання
"width": null, // Ширина області розпізнавання
"height": null, // Висота області розпізнавання
"dateConvertationTemplate": "", // Шаблон перетворення дати
"byDefault": "" // Значення, якими атрибут заповнюється за замовчуванням
}
]

Наприклад, для розпізнавання дати документа з першої сторінки, області розміром 200x40 пікселів, що розташована на відстані 100 пікселів зверху та 50 пікселів зліва:

[
{
"attribute": "documentDate",
"areaPage": 1,
"top": 100,
"left": 50,
"width": 200,
"height": 40,
"dateConvertationTemplate": "DD.MM.YYYY",
"byDefault": "01.01.2024"
}
]

Налаштування для провайдерів "Google" та "Azure"
Назва поляОпис
Сутність*Виберіть зі списку потрібну IDP сутність.
Тип документа*Виберіть тип документа, для якого створюється шаблон розпізнавання. Це визначає, які атрибути будуть доступні для мапінгу.
Кнопка "Додати мапінг"Виберіть кнопку Додати мапінг щоб створити зв'язок між даними, які потрібно розпізнати в документі, та місцем, куди ці дані будуть збережені в системі. В межах шаблону ви можете зробити декілька таких зв'язків.
Шар результату розпізнаванняВиберіть один з наступних варіантів:
  • Сутність — використовується для роботи з попередньо навченою моделлю розпізнавання (Azure, Google). Система вже "знає" де шукати конкретні дані на документі певного типу. Не потребує вказання ключових слів чи шаблонів — модель сама визначає потрібні поля. Поля для розпізнавання обираються зі стандартного переліку моделі (наприклад, "Due Date", "Remittance Address")
  • Пари ключ-значення — використовується для пошуку даних за конкретними маркерами в документі. Вимагає більше ручного налаштування, але дає більше контролю над процесом розпізнавання.

Налаштування для шару результату типу "Сутність"
Назва поляОпис
Поле результату розпізнавання*Виберіть зі списку потрібне поле моделі, яке містить розпізнаний текст.
Наприклад: "Due Date" для дати платежу. Під полем ви побачите підказку англійською мовою, яка пояснює призначення цього поля.
Підполе результату розпізнаванняЦе поле з'являється коли поле, обране вище, є складним і містить підполя.
Наприклад: адреси, які складаються з вулиці, міста, регіону.
Виберіть зі списку потрібне підполе.
Тип атрибута документа*Виберіть один з наступних типів атрибута, до якого бажаєте налаштувати мапінг:
Атрибут документа*Виберіть зі списку конкретний атрибут, куди буде збережено розпізнане значення.

Налаштування для шару результату типу "Пари ключ-значення"

Назва поляОпис
Ключ токена*Введіть ключове слово, за яким буде знайдено потрібний текст
Регулярний вираз токена*Введіть регулярний вираз — це шаблон, який використовується для визначення структури тексту, який треба розпізнати
Приклади:
  • \d+ — для пошуку будь-якої послідовності цифр (наприклад, номера)
  • \d{2}\.\d{2}\.\d{4} — для пошуку дати у форматі ДД.ММ.РРРР
  • [A-Z]{2}\d{6} — для пошуку коду, що складається з 2 літер та 6 цифр

Див. Синтаксис регулярних виразів.
Тип атрибуту документа*Виберіть один з наступних типів атрибута, до якого бажаєте налаштувати мапінг:
Атрибут документа*Виберіть зі списку конкретний атрибут, куди буде збережено розпізнане значення
Примітки:
  • Поля позначені символом "*" є обов'язковими до заповнення.

  • Для розпізнавання таблиць підтримується функціонал мапінг масиву. Для цього, необхідно скористатись попередньо навченою моделлю (pre-built model).

2.14.2.2. Застосувати шаблон розпізнавання Tesseract

Так як шаблон розпізнавання форм Tesseract створюється як універсальний шаблон, без прив'язки до конкретного типу документа, то ви можете застосовувати його до будь-яких типів документів. Для цього, виконайте наступні кроки:

  1. У панелі навігації, виберіть робочий стіл Студія 1.

  2. Виберіть ярлик Типи документів 2.

  3. Відкрийте тип документа, до якого бажаєте застосувати шаблон 3.

    Screenshot
  4. Перейдіть у вкладку Конструктор 1.

  5. На формі, виберіть бажаний файловий атрибут 2.

    Screenshot
  6. В меню Налаштування атрибута, знайдіть поле Шаблон розпізнавання 1 та виберіть зі списку потрібний шаблон.

  7. У панелі інструментів виберіть піктограму Зберегти або Зберегти та закрити 2.

    Screenshot

2.14.2.3. Застосувати шаблон розпізнавання Azure або Google

Існує два способи застосування шаблону розпізнавання провайдера Azure або Google:

Примітка:

Перед застосуванням шаблона, запевніться що налаштували IDP розпізнавання.

2.14.2.3.1. Спосіб 1

У цьому сценарії, розпізнавання зможе виконувати лише адміністратор платформи.

  1. У панелі навігації, виберіть робочий стіл Адміністрування 1.

  2. Виберіть групу ярликів Інструменти обслуговування 2, а потім виберіть ярлик Журнал завдань розпізнавання форм 3.

  3. У панелі інструментів, виберіть "+" 4.

    Screenshot
  4. В полі Шаблон розпізнавання 1, виберіть потрібний шаблон.

  5. В полі Файл, виберіть піктограму "+" 2, щоб завантажити зісканований документ який бажаєте розпізнати.

    Screenshot
    Примітка:

    документ має відповідати типу документа, для якого ви створили шаблон розпізнавання. Приклад: якщо ви створили шаблон розпізнавання для типу документа "Заява на відпустку", то в поле файл вам найімовірніше, потрібно буде завантажити заяву конкретного працівника: "Заява на відпустку Федора Гончара".

  6. Увімкніть перемикач З попереднім переглядом 1, якщо бажаєте переглянути розпізнані значення та відредагувати їх перед збереженням документа.

  7. Виберіть кнопку Розпізнати 2.

    Screenshot

Коли платформа завершить процес розпізнавання, ви отримаєте повідомлення у платформі. Щоб переглянути повідомлення, виберіть піктограму .

Screenshot

2.14.2.3.2. Спосіб 2

У цьому сценарії, розпізнавання зможуть виконувати будь-які користувачі платформи, яким адміністратор надасть доступ до ярлика.

  1. Створіть ярлик типу Документи.

    Screenshot
  2. При створенні ярлика, перейдіть у вкладку Типізовані 1.

  3. У полі Типи документа 2, виберіть зі списку тип документа, для якого ви створили шаблон розпізнавання провайдера Google чи Azure.

    Screenshot
  4. Виберіть кнопку Налаштування дій.

    Screenshot
  5. У вікні "Налаштування дій", увімкніть перемикач Створити документ за допомогою шаблону розпізнавання документа (IDP) 1, а потім виберіть кнопку Зберегти 2.

    Screenshot
  6. У панелі інструментів виберіть піктограму Зберегти, щоб зберегти ярлик.

    Screenshot
  7. Перейдіть у збережений ярлик, а тоді у панелі інструментів виберіть піктограму Screenshot.

    Screenshot
  8. У вікні "Створення документа" в полі Шаблон розпізнавання 1, виберіть потрібний шаблон.

    Примітка:

    якщо для даного типу документа налаштовано лише один шаблон розпізнавання, він буде вибраний в полі автоматично.

  9. В полі Файл, виберіть піктограму "+" 2, щоб завантажити зісканований документ який бажаєте розпізнати.

    Screenshot
    Примітка:

    документ має відповідати типу документа, для якого ви створили шаблон розпізнавання. Приклад: якщо ви створили шаблон розпізнавання для типу документа "Заява на відпустку", то в поле файл вам найімовірніше, потрібно буде завантажити заяву конкретного працівника: "Заява на відпустку Федора Гончара".

  10. Увімкніть перемикач З попереднім переглядом 1, якщо бажаєте переглянути розпізнані значення та відредагувати їх перед збереженням документа.

  11. Виберіть кнопку Розпізнати 2.

    Screenshot

Коли платформа завершить процес розпізнавання, ви отримаєте повідомлення у платформі. Щоб переглянути повідомлення, виберіть піктограму .

Screenshot

Після того, як ви здійсните розпізнавання документа, за допомогою IDP функціоналу, ви можете підсвічувати потрібний вам контент у відсканованому документі, щоб швидко знайти потрібну інформацію. Для цього виберіть атрибут, контент якого хочете побачити у документі, а тоді потрібний вам фрагмент документа, підсвітиться зеленим кольором.

Screenshot