Бизнес за сканиране и дигитализиране на книги бизнес идея
Печалбата относно цифровизацията на книгите
Определяне на цифровизацията, само с хартиени книги, това не е точно определение. Процесът включва превозвача като източник, и то не винаги е само хартията. В днешния свят има няколко вида носители за съхранение - хартиени книги, екрана на компютъра, графични файлове, уеб сайтове, мултимедийни издания, и така нататък.
А по-точно определение на "дигитализират книги" на процеса - е създаването или използването на готовия графичен копие на страницата в един от най-подходящите формати (например, TIFF, JPG, PDF, DJVU, PNG), последвано от (не винаги е необходимо) разпознаване на текст и резултат цифровизацията за по-нататъшно копиране, възпроизвеждане, съхранение и включително първичното копие на превода на други цифрови формати, необходими за съответния вид използване.
Най-популярният начин на записа - превод на растерното изображение в цифров формат книги. Сред формати могат да бъдат графично - PDF, DJVU, формати за комикси - CBZ, CBR, текст - TXT, FB2, EPUB, PDF, HTML, DOC, и така нататък. Обикновено, графични формати не са мащабируеми. Те запазват пропорциите и размерите на оригиналната страница със съдържанието. Те доста често, за да се намали компактността на празните страници на полето, за да текстово поле, тъй като образът на книгата, по-добре е да се поберат на екраните на мобилни устройства.
Цифровизацията на книги - е друг възможен източник на електронно съдържание за четене.
На историческата сцена дигитализацията на книги се използва за различни цели. От лична употреба за професионална употреба. Като хоби и форма на доход. За да се запълни съдържанието на библиотеки и магазини. Съвсем обикновен правило - колкото повече съдържание се продава или разпространява безплатно, толкова по-малко се използва за създаване на цифров вид електронно съдържание. Тази дейност се превръща високо специализиран канал за ентусиасти и професионалисти. В същото време, библиотеки съдържание, пътува от споделяне, а не създаването на нови дигитални копия.
Магазини и музейни архиви активно дигитализират книги по няколко причини, основната от които е липсата на достъп до цифрово копие от собственика на авторските права, или ограничен брой стари книги, изходния материал не е създадена цифрова клавиатура.
Собствениците на копия на високо специализирана литература не са склонни да създавате съдържание за масовия потребител, източник на които са редки книги. В този случай, цифрово копие е създадено за изучаване на книги, без да се засяга основен носител, а не само от страна на читателя, но и да се елиминира влиянието на въздух, светлина и различни газове, паразити и така нататък. Редки цифрови копия на книги и ръкописи са най-често се срещат в рамките на историческите архиви и библиотеки.
Е-книги, като файлове се създават по няколко начина: директно цифрово копие от обучен професионалист или оформление, както и цифровизацията на хартиени книги или други източници в електронна форма. Остаряла форма на цифровизацията може да се разглежда като ръчно вписване и диктовка.
Това не винаги и навсякъде дигитална книга е трябва и може да съдържа текст, който след това може да се мащабира и дори редактиране, включително конверсия да се използва и в други текстови формати на електронни книги. На цифровизирани книги могат да бъдат факсимиле, че е графично точно да отразява страниците на копие на хартиен носител.
Текстови книги са получени чрез OCR. Методът на OCR (оптично разпознаване на символи Анг.) - оптическо разпознаване на символи. страници от книга преди сканирани формат на изображението, а след това текстът се признават от специален софтуер. Точността на разпознаване зависи от качеството на шрифта, контраста на текста, наличието на дефекти и графични илюстрации. Крайният качеството, в повечето случаи, се контролира от коректори, които събират текста между основен източник и цифрово копие.
(Доста различия между експерти OCR призовава за възможността да се запишете или печатни грешки в цифрови копия, която се проведе в хартиена книга).
Изготвен от цифровия книгата се превръща в един от текстовите формати. След това можете да конвертирате завърши книгата в други популярни формати, с възможност за загуба на оформлението, тъй като не всички от тях подкрепят стройна система от оформление на текст и илюстрации. Основният формат е избран в зависимост от дигитайзер на предпочитания и използването верига метод за последваща трансформация. Повечето съвременни формати избрани структура на маркиране.
Графични книги, създадени чрез прецизно страница изображение или факс с помощта на оптичен инструмент, често с помощта на скенер, най-малко с камерата. Избраният чрез определяне на степента на превръщане, и възможно вредите, които могат да бъдат причинени от първичен източник външно осветление, отопление или физически прегъвания оригиналния метод.
Всяка страница на сканирания материал - JPEG файл с изображение, TIFF, или всеки друг, включително контейнери, които могат да бъдат PDF или DJVU. Изборът на формат зависи от по-нататъшно преобразуване на множество файлове в един документ, или обратното, когато един файл е създаден от множество междинни файлове за координиране на професионална обработка.
Скенери, има няколко вида - различна скорост, вградени средства за разпознаване, дизайн и разбира се на размера. Важна разлика е в цената на разтвора по време на експлоатация на определен тип сложност скенер и управление на процеса.
По-рядко срещани тип - е компактна ръчни скенери, които не са точни, имат ниска скорост, по време, обхваща малка част от изображението и не разполагат с вградени механизми за автоматизация на процесите. Но поради ниската цена, ниско тегло и компактност - използван досега. Удобен за отделните ръкописи и страниците.
Други видове скенери са стационарни устройства. Те са разделени на стандартни, специализирана и професионална.
Типични скенери, те също са масов продукт, който съществува в продажбата, имат компактна форма, прекарват операция на една страница на няколко секунди или минути. Точността и качеството на цифрови копия зависи до голяма степен от качеството на пристъп на оригиналната страница, върху повърхността на скенера. За отделни листа, има автоматична тава за подаване на хартия, което увеличава скоростта на скенера, както всъщност отнема време да се замени чаршафите на оригиналния източник, или е изключително малка.
"Специализирани" скенери са различни от "типичен" възможността за създаване на сянка без копия на оригинала, и те не винаги са скенерите в традиционния смисъл на думата. Нека "лист сканиране район" дори и за книгите на гръбначния стълб. Понякога те имат вграден софтуер за събиране на отделните копия в един документ, въпреки че производителите често прилаганите с софтуера на скенера за PC и Mac. Тази работа е по-видно място се появява на голям компютърен екран.
Най-често специализирани скенери наречени "книга". Те принадлежат към вида Tablet. Най-достъпни и популярни сред потребителите могат да разпознават продуктите на компанията Plustek. OpticBook A300 модел позволява да сканирате не само в региона, но също така и до оригиналния размер на листа А3.
Професионални скенери имат голям размер, скорост и различен метод на сканиране.
"Планетарни скенери" - това е по-скоро оптичен копие с помощта на една или повече камери. Нарича се така, в зависимост от местоположението на камерата като спътника над планетата, който е сканиран оригинал. Някои скенери могат да използват две камери едновременно, за да направите копие на страници обръщат.
Фирмата произвежда популярната поредица Atız BookDrive скенери. което е по-скоро като една малка фото студио. Различни размери на основния сайт, на който се поставя на оригинала. Възможно е да се дигитализират хартия или книга, които са разположени на базата на ъгъл от 90 ° между листовете и камерите са перпендикулярни на страната на всеки лист разкрита спести геометрията на страница без изкривяване.
серия от планетарна скенери Microbox book2net от Xerox има един сайт, където публикуване на един лист се намира в основата и оптичен снимка инструмент само една страница или разпространение, въпреки факта, че той трябва да бъде плосък, за да се избегне сенки върху гръбначния стълб.
Роботизирани скенери имат голям размер, то обикновено е готов набор в килера, който има всичко необходимо, за да сканира автоматично целия издание - светлината, система за оптична скенер за обръщане на страниците, компютърно управление, високо специализирани обслужващи функции. Edition се сканира при по-малък ъгъл. За да се подобри ефективността, можете да правите снимки на две обърнати страници.
Treventus компания в продължение на няколко години произвежда роботизирани скенери ScanRobot. който за кратко време може да се цифровизират цели библиотеки с минимална човешка намеса. Предната част на скенера може да бъде затворен по време на операцията за предотвратяване на разсеяна светлина от външни източници на светлина.
И планетарни роботизирани скенери работят с капацитет от 500 страници на час, а най-добрият модел може да сканира със скорост до 3000 страници на час.
След сканиране на изображението с оригиналната страница, трябва да разпознаете текста и илюстрациите. За тази цел, ще трябва специален софтуер, който може да разпознава обекти в изображение оптично и логично. Трудността се състои в разпознаване на формата на оригиналните герои, контраста на картината, цвят наличието на субстрати, сложни графики или оформление структури. В момента на признаване дойде на общи проблеми и грешки за специфичен хардуер и софтуер, които са OCR специалист ще се опита да компенсира с помощта на скриптове и проверка на правописа.
Скриптове, това обикновено е самостоятелно направени добавка за коригиране на грешки. Тя е тази нагласа разграничава различните специалисти по отношение на качеството на OCR. OCR скрипт създава специалисти за лична употреба, и те са от значение само за лична метод за OCR и използваното устройство. Заличаване на текста е необходимо не само да се коригират евентуални граматически грешки, но също така да се създаде база текст типография на.
За автоматизиране на предварителната обработка на текста, можем да препоръчаме на програма за OCR Pad Валерия Voytsehovskogo.
Компютърна технология не се ограничава до точността на разпознаването. Много важни са редактори, които да прочетат текста и да го сравнят с оригинала. Това е много важно, особено за техническа литература.
За да се ускори процеса на редактиране на текст използва "метод за разпределение" - документът се разпредели между група от редактори. Този метод позволява да се приспадне книгата напълно за няколко минути, но не и цялата сила на процеса на организация. Той обикновено се използва уеб интерфейс, без да е необходимо да инсталирате допълнителен софтуер на няколко компютъра.
За коригираща текстът не е задължителен за професионални лингвисти. Обикновено тези хора правят, овластен наблюдение и внимание. Грамотност е важно не толкова като възможността за сравняване на печатни и електронни текста. Обърнете внимание на разликата в техническите правописните, разликата между букви и цифри.
Фантастика може да се чете само да се намери правописни грешки.
В "магазини на OCR" малък "работа" по двойки. Обикновено от специалист OCR е организатор на процеса и си сътрудничи с един или група от редактори. Група съществува на определена комбинация от символи и функции. При преминаване на друг тип разпространяват готови електронни книги, "Работилница" може да се разпадне, част от групата се придържа към идеологически възгледи за тяхната дейност.
В момента на раждането на електронни книги, OCR-schiki първи утъпкания път за читателите на безплатни библиотеки и ги събра съдържание. Ако библиотеки са известни на обикновения читател, той е изпълнен с тези библиотеки не е магазин копия на книги, както и частни колекции OCR.
Времето минава. Променящите се приоритети, интереси и източници на записа книги. Интересът към книгата-признаването е станал по-малък и се премества в професионалния канал. Делът на собственото цифровизацията на безплатни библиотеки е много по-ниска от тази на обикновен копие на готовия материал. Ето защо, ако някой се интересува от собствената си цифровизацията, то обикновено е рядко, и книги за деца.
Напоследък често в цифров вид на екрана на компютъра, без да използвате скенер за хартиени книги. Там не е много фенове и толкова дълго, колкото той работи като "спортен интерес" за разбиване на сигурни цифрови медии.
Сканиране 118 точки / см (300 DPI) е в норма за преобразуване в цифров вид на текста, обаче, изисква използването на по-висока резолюция за редки и трудни книги. Високотехнологичните скенери са способни на сканиране около хиляда страници на час, тези устройства може да струва хиляди долари. Но може да се скенера и себе си, например, ръчни скенери за книги, които могат да дигитализират 1200 страници на час, докато разходите за строителство - около $ 300.