rapture
09.09.2012 05:21 ubuntu
хитрый план по потоковому сканированию (или как сэкономить пару миллионов рублей):
1. чем-то потоково сканируем (вероятно, придется написать питоноприблуду для sane)
2. складываем изображения во временную папку
3. натравливаем tesseract
4. получаем текстовые файлы, на которые натравливаем питоноскрипт для парсинга и вытаскивания нужных слов (пока непонятно, как)
5. переименовываем первоначальный файл и отправляем его на сервер на хранение
6. из питона формируем cvd файл со списком отсканированного, который открываем excel'ем и как-то экспортируем в основную базу (либо экспортируем в sql
7. PROFIT!!!111
2-3-4) Если формат документа фиксированный, лучше сначала вынуть нужные кусочки из предполагаемых мест, а уже потом уже пытаться распознавать. В любом случае между 2 и 3 надо будет делать обработку изображения: почистить там, повернуть на нужный угол.
6) тут, видимо, должно было быть написано csv
2-3-4) нет, но мы попытаемся работать над фиксированным форматом. Хотя это надо судей заставить сделать...
Чистить будем пытаться scantailor'ом
б) ага