Парсинг тендерной документации и распознавание сканов

Система превращает «файлы как blob» в машинно-обрабатываемый текст. Структура извлекается из PDF, DOCX, таблиц XLSX, а для сканов включается OCR.

Запросить demo

Обработка без лимитов

Наш слой Document Extract скачивает файлы тендера и извлекает: полный текст без ограничений по размеру.

Анализатор не просто читает сырой текст, он разбивает его на `document_chunks` и извлекает `tender_item_facts` (факты о товарах) напрямую из:

  • Таблиц DOCX / XLSX
  • Строчных паттернов в PDF
  • Многострочных текстовых блоков
Извлечение товаров
Строка 14 "Сервер хранения данных 4U"
Кол-во 4 шт
Требования x86-64, RAM 256GB

Никаких "слепых" зон

Часто нужные спецификации, условия поставки или требования к товарам спрятаны в скан-копиях плохого качества. Без OCR (оптического распознавания символов) часть тендеров остается непрозрачной.

Если анализатор обнаруживает файлы с меткой scanned/no-text, он автоматически передаёт их в очередь OCR-обработки. Текст распознается постранично, создаются OCR-чанки, и система пытается извлечь товарные позиции из распознанного текста.

OCR-скан спецификации
[Извлечено]: Коммутатор L3 - 100 шт