Парсинг тендерной документации и распознавание сканов
Система превращает «файлы как blob» в машинно-обрабатываемый текст. Структура извлекается из PDF, DOCX, таблиц XLSX, а для сканов включается OCR.
Запросить demoОбработка без лимитов
Наш слой Document Extract скачивает файлы тендера и извлекает: полный текст без ограничений по размеру.
Анализатор не просто читает сырой текст, он разбивает его на `document_chunks` и извлекает `tender_item_facts` (факты о товарах) напрямую из:
- ✓ Таблиц DOCX / XLSX
- ✓ Строчных паттернов в PDF
- ✓ Многострочных текстовых блоков
Никаких "слепых" зон
Часто нужные спецификации, условия поставки или требования к товарам спрятаны в скан-копиях плохого качества. Без OCR (оптического распознавания символов) часть тендеров остается непрозрачной.
Если анализатор обнаруживает файлы с меткой scanned/no-text, он автоматически
передаёт их в очередь OCR-обработки. Текст распознается постранично, создаются OCR-чанки, и
система пытается извлечь товарные позиции из распознанного текста.