Как да разпознаете текста в DjVu (djv) файл, softmixer

Как да разпознаете текста в DjVu (djv) файл, softmixer

За да направите това, първо трябва да се преобразува във формат, който се разбира, за разпознаване на текст, например, да се TIFF изображения. Необходимо условие за правилното признаване трябва да бъде с добро качество на оригиналния файл.


Ние се процедира, както следва: отворете оригиналния файл в програмата, работа с djv файлове. Използвах да се направи това Редактор DjV. За текстов файл, не забравяйте да включите в черно-бял режим (цифрата не е включена). Какво се случи, можете да видите по-долу.

Отваряне на менюто "Печат" и изберете виртуален принтер от MS Office. Обикновено той се инсталира по подразбиране.

В "Печат" (горната част на фигурата) и изберете броя на страниците, необходими, за да конвертирате и натиснете "Properties" бутона.

От раздела "Разширени" (долния прозорец) настроен TIFF формат с резолюция 300 DPI. Натиснете OK и отново ОК.

Виртуален принтер спасява избраните страници в един доста компактен много страници TIFF - файл (една страница отнема 35 КВ), които сега разбират, необходима програма.

Тъй превръщане завърши. Сега можете да отворите файла за признаване, а след това да го запазите като текст. Тази програма би могла да бъде вграден в MS Ofice "Document Imaging" или "ABBYY Fine Reader". Как да направите това може да се види от фигурата.

Кликнете върху получения от нашия десния бутон на мишката и от контекстното меню файл, изберете "отворен с". MS Ofice Document Imaging и ABBYY Fine Reader, в зависимост от целите, които сме си поставили. Отворих документа в MS Office. Получавам следната картина:

Предимството на тази програма е, че можете да изберете желания текст фрагмент
и щракнете с десния бутон, за да изберете "Copy като текст".

Програмата разпознава подбора и
копирате в клипборда. Като признание за текста, който изглежда така:

Качеството на разпознаване е приемлив, въпреки че много грешки. Със снимки, може да бъде проблем. Ето защо, по-добро използване на сложни страници Fine Reader.