Един пример за прилагането на изображения директория SPSTL
Създаване на графични директории в SPSTL България IRBIS означава
Изображение директории са един от най-ефективните средства за ретроспективен конвертиране на каталози с карти за библиотеки с голям retrofondom (т.е. на фонда, което не е отразено в пълен електронен каталог) и е електронен модел на традиционните "хартия" директории, които се основават на дигитализирани (сканирани ) индексни картички изображения.
В SPSTL България да създаде образа на директории, използвани от решението поиска IRBIS Library System Automation (развитие ELNIT Association), а именно - IRBIS Изображение каталог (която е специализирана версия на IRBIS64 пълен текст база данни - [2]). Това решение се основава предимно въз основа на автоматична ( "в движение") индексни картички OCR. Тъй като софтуерът ( "двигател") за технология за разпознаване на текст използва OCR ABBYY компания -technology. Благодарение на това:
На първо място, осъзнах, търсене на пълен текст (с класирането на резултатите, като се има предвид близостта на думи, морфологията и т.н.), които, включително възможността за библиографско търсене за професионалисти, предлага на крайния потребител с богата тематична изследвания;
На второ място, не строги изисквания към процедурата на сканиране и публикуване на снимки на картите. В случай на спазването на тази цел е напълно реализиран модел "на хартия" Търсене на разделители карти.
Но основната характеристика на IRBIS Изображение Catalog е, че изображението-каталог база данни не функционира отделно, а не като самостоятелна система и интегрирани в автоматизираната пълен електронен каталог технология, а именно - технологични работни станции каталогизатор и системата за рециркулация на библиотека автоматизация IRBIS64 [3 ], която позволява въвеждане на структурирани данни (например, боядисани retrofonda произвеждат копия), признатите данни за корекция, изтриване на записи, дебитна и фонд от картон настроен, безвъзмездна помощ, за удължаване на възстановяване и така нататък.
IRBIS Изображение каталог включва три модула:
- Администратор - да създаде своя база данни на изображението на стоките въз основа на сканираните изображения на индексни картички (партида операция), тя е вградена в "двигател" на ABBYY;
- оригиналния клиента за директорията на краен потребител на изображението;
- Уеб-портал за достъп до изображения каталога чрез Internet / Intranet.
В допълнение, за да се поддържа имиджа на директорията на базата данни може да се използва Armagh каталогизатор, придобивания и циркулация IRBIS64.
Всъщност процеса на създаване на директория изображение се състои от два етапа (които могат да се извършват последователно или паралелно с известен лаг във времето):
- сканиране на картотеката;
- създаване на база данни на изображението на стоките въз основа на сканираните изображения на индексни картички, включително автоматично разпознаване на процеса на своите текстове.
стъпка на сканиране е особено производство задача и включва използването на специално оборудване, което позволява сканиране на индексни картички с висока скорост.
В SPSTL използва за тази цел високоскоростни скенери "Elar skamaks 2600м" и "Кодак аз 1440" с капацитет до 30 карти в минута.
Първоначалният образ при създаване на директории, използвани официален азбучен каталог. карти Индекс сканирани от двете страни с 200 DPI резолюция в сивата скала палитра (8 Bit нива на сивото). Форматът JPEG се използва като графичен формат. Образът на карта оформено като два файла със сродни имена: Qnnnn. JPG - предна страна, Wnnnn. JPG - задната страна (където NNNN - сериен номер на картата в каталога прозорец). Средният размер на предната част на файла карта - 20-30 KB, архивирате - 10-20 KB. Снимки (файлове) карти от една от стоките кутия се поставя в една и съща директория (превозвач двигател) със същото име като разделител прозорец азбучен (разделители вътре в кутията не се използва). Например:
Трябва да се отбележи, че в името на директорията (и следователно в имената на сепараторите) Не може да се използват символи като ":" "?", "\", "/", "*", Кавичките. Можете също така не може да се използва "Point" и "пространство" в края на името.
Именно тази система на именуване на директории ви позволява да организирате търсене в каталога на изображението за сепаратори (която ви позволява да създадете буквално модел на традиционната каталога). Необходимостта да се търси разделители (т.е., необходимостта от такъв модел) е продиктувано от следните съображения:
- процес за разпознаване на текст карта не дава абсолютни резултати, поради лошото си състояние, или лошо качество на печат не се признава от целия текст или част от текста се признава неправилно, може да има случаи, когато картата не се разпознава от текст изобщо; (Трябва да се подчертае, че саморъчен карта или на ръка етикети върху картите, строго погледнато, не са признати). Това води до факта, че, ако търсите текст (т.е., по думите на разпознатия текст), някои карти ще бъдат. Ако не се получи (като резерва) сепаратори за търсене, лошите открити картотеките никога няма да бъдат намерени в каталога на изображението. С други думи - от търсенето на разделител в каталога на изображението може да бъде отнет само в случай на абсолютна качеството на разпознаване (което е почти недостижим);
- Има ситуации - предимно свързани с библиографска търсене - при търсенето на сепаратора може да бъде по-ефективен от търсенето думите на текста. Например, търсене за карти на периодичен (списание), наречена "Живот": търсене на дума като "живот" в каталога на изображението за достатъчно голям обем ще доведе до много голям проблем, който ще бъде трудно да се намери правилната карта; много по-бързо, че ще бъде намерен в азбучен ред разделител;
- Със сигурност има потребители - между които може да има читатели и библиотекари - които по различни причини предпочитат да действат "в старата", т.е. търсене по текст те избират да търсят разделители карти. Няма причина да ги лиши от тази възможност.
При сканиране на каталози на карти, неизбежно възниква въпросът: дали да се изключат от индекса на сканиране карти, съответстващи на "новите" издания, т.е. тези издания, които вече са отразени в пълен електронен каталог. Придържайки се към строга логика, то трябва да се направи, за да се избегне дублирането на данни в каталога на изображението и електронния каталог; от друга страна - на процеса на подбор на индексни карти (отстраняване на "новите" карти от кутиите преди сканиране и ги поставяте отново след сканирането) е изключително трудоемко. В SPSTL за всички директории (с изключение на директория "Домашен книга") решава да се предотврати дублиране, а не увеличаване на сложността и оттам - за изпълнението на всички процеса на сканиране, т.е. "Нова" индексни карти не са изключени от сканирането.
В съответствие със структурата на услугата директория независимо сканирани следните директории (и по този начин - да се създадат отделни изображения на масиви от индексни карти):
Вторият етап от работата - процесът на формиране на директорията на базата данни с изображения - представлява напълно партида (един) на компютъра, т.е. То не е свързано с всички ръчни операции. За изпълнението на тази работа е администратор работна станция от базата данни на IRBIS64 в пълен текст с функция за разпознаване. на работно време се определя от обема на първоначалните индекси масив картите и скоростта признаване аудио карти. Признаване време аудио карта на компютъра, средните (2GB RAM, 2.4 GHz) е около 1,5-2 сек. (Т.е. да се открие 10000 карти се нуждае от около 6 часа). В SPSTL индексни недостатък карти не подлежат на признаване (като основно се състои от ръкописни данни характер на услугата).
По този начин, с пет изображение директория (вж. Таблицата по-горе) са създадени в SPSTL България.
За да работите с изображения директория от крайния потребител (четец) се предлага две възможности:
- първоначалното заявление клиент въз основа на IRBIS Navigator;
- Уеб -locks за достъп до каталога на изображението база данни чрез Интернет / интранет (т.е., с помощта на уеб-браузър).
Потребителският интерфейс на първоначалната заявка на клиента въз основа на IRBIS Navigator (общ преглед) е показана на фиг. 1.
Основният елемент е прозорец интерфейс ( "Аз търсят"), където потребителят въведе заявка за търсене на естествен език. Резултат от търсенето се появява в низходящ ред на значимост на намерените документи (т.е. първия появява карти, които са най-подходящи за искането). Всеки документ е представен като образ на картотека на, където червеният подчертан текст дума, съответстваща на първоначалното искане (фиг. 2).
Главницата е възможността за търсене на подобни документи. търсене по подобие се извършва на базата на оригинален алгоритъм, който се състои от следните логически стъпки (маратонки, разбира се, автоматично):
- избрани всички думи от текста на оригиналния документ (карта);
- изключени незначителни (uninformative) думи в съответствие с фиксирана списък на гише думи;
- думите са подредени по възходящ ред на тяхната честота на поява в общата база данни на речника думи на изображението директория;
- като най-информативен взети първите десет думите на един подреден списък и на тяхна основа се формира от заявка за търсене или подобни документи.
Фигура 1 - Общ изглед на приложението на клиента въз основа на IRBIS Navigator в образа на стоките търсенето.
Когато достатъчно голям потребителски проблем се предлага възможност да прецизирате търсенето им, т.е. провежда се посочва търсене сред документите, намерени в последния искането.
По желание на крайния потребител, могат да бъдат предлагани на тематична навигатор търсене. По темата навигаторът разбира вербална класификационна система е йерархична вид и потребителски интерфейс, построена въз основа на нея (навигатор). Използването на търсенето тематичен навигатор позволява, от една страна, да се опрости търсенето в случай на общи тематични въпроси, и от друга страна - да се компенсира известни недостатъци търсят с помощта на свободната (без нормиран) лексика ( "шум" и неточни). -виж. Фиг. 3.
Фигура 2 - Резултати от търсенето за изображение директория.
За създаване на система за класификация, предложен специален структурен модел. Алгоритъмът за търсене на тематична навигатор е, че текстът на заявката се формира не само въз основа на избрания от потребителя колони от класификатора, но и с всички подчинени позиции и свързаните с ключови думи (които са "невидими" за потребителя присъстват в структурата на класификатор).
Тази функция IRBIS Изображение каталог (Тема навигатор) SPSTL в България все още не е в употреба.
Интерфейс за изображения директория (чрез уеб -locks) на България SPSTL сайт е показано на фиг. 4. Уеб -locks позволява да реализира същата функция като на оригиналния клиента въз основа на IRBIS Navigator.
Както беше отбелязано по-горе, отличителната черта на IRBIS Изображение Catalog е, че позволява на интегрираното управление на технологията за управление на изображенията-директория в автоматизацията изцяло електронен каталог, като по този начин предоставя възможност за извършване на каталога на изображението на такива произведения като отписването и преместването литература , Circulation и сътр. Фигура 5 показва интерфейс AWP каталогизатора (IRBIS64 на състав), с която може да извършва поддръжка на каталогът на база данни на изображението в пълен автоматично atizirovannyh електронен каталог технологии, по-специално - да води описанието структуриране на публикации в изображението въз основа на каталог карта (ако е необходимо) или да извършват корекции на разпознатия текст.
Фиг. 3 - Тема Navigator
ARM Circulation (фиг. 6) ви позволява да работите с електронни поръчки, които се формират от директорията на краен потребител на изображението. читатели Поръчките подадени под формата на изображения на каталожните картички съответните публикации. Специален режим се предлага, което позволява да се опише изведени издателство например в момента на издаване ( "в движение"). Въз основа на това, че е възможно да се извърши боядисване копия от каталога на изображението в обращение (вместо да го направят по-рано в пълен каталогизатор ГРП).
В заключение следва да се отбележи, че създаването на директории с изображения на практика е единственият начин да се ретроспекция преобразуване на картови каталози на големи обеми (стотици хиляди на карти). "Manual" Retroconversion с клавиатура за въвеждане - дори и със заемането на технологии - е неприемливо както за сложност, както и от гледна точка на производителността. само "опрощаване" имиджа каталози са значителни финансови разходи, свързани с тяхното създаване (въпреки че може да се предположи, че цената на "ръчно" вход, тъй като неговата изключителна интензивност на труда, резултатът ще бъде сравнима с цената на каталога на изображението). Трябва да се разбере, че повечето от разходите при създаване на каталог на изображението (около 90%) се срещат в разтвора само производството проблем - същинското сканиране на индексни картички. В тази връзка, трябва да се каже, че SPSTL България, със съответните му производствени мощности - високоскоростни скенери и квалифициран персонал - изготвени на базата на договор за извършване на работа по сканирана карта katalogoa за други библиотеки и сътрудничество с ELNIT асоциация - за извършване на работа по създаването на графични каталози " до ключ ".
Фиг. 4 - Достъп до изображението каталог Онлайн SPSTL България
Фиг. 5 - Достъп до изображения каталога чрез AWS каталогизатор
Фиг. № 6 - Работи с изображение Каталог чрез RM обращение.