Дигитална библиотека SPSTL България
ИНФОРМАЦИОННИ ТЕХНОЛОГИИ в библиотеките
Броди AI Създаване на графични директории в SPSTL България IRBIS средства
Левченко OV Извършване на тематични писмени справки в научна библиотека на Москва Engineering Institute Физика
Свободният достъп и отворени архиви ИНФОРМАЦИЯ
Hagerlid Ян. В програмата на «OpenAccess.se» - шведския опит в координирането на програми за подкрепа на Open Access
Цифрови библиотеки. електронни ресурси
Trachuk LF Швецова-Vodka GN Класификация електронната библиографска продукция
Lavrik О. L. Kaljuzhnaja ТА цифрова библиотека SPSTL в научната комуникационна система
Ние Sukiasyan ER - библиотекари! Размисли за професията, както и специалитети, роли и функции
Grankina II Подгответе програми за библиотека модел за обучение на персонала като перспективна област в дейността на библиотеката в тийнейджърския
Шапошников AE Теоретичен аспект на библиотечно-информационен работа
Stolyarov Yu. Н. основен принос към идеята за еволюцията на документа
Pleshkevich ИА "Документация за управление" - нов учебник за гимназия
ИНФОРМАЦИОННИ ТЕХНОЛОГИИ в библиотеките
Създаване на графични директории SPSTL в България
IRBIS средства
Изображение Каталог - един от най-ефективните средства за ретроспективен конвертиране на каталози с карти за библиотеки с голям retrofondom (т.е. на фонда, което не е отразено в пълен електронен каталог) и е електронен модел на традиционните "хартия" директории, които се основават на дигитализирани (сканирани ) индексни картички изображения.
В SPSTL България да създаде образа на директории, използвани от решението, предложено от IRBIS Automation System Library (развитие ELNIT Association), а именно - IRBIS Изображение каталог (която е специализирана версия на IRBIS64 пълен текст база данни - [1, 2]). Това решение се основава преди всичко на базата на автоматични ( "в движение") индексни картички OCR. Тъй като софтуерът ( "двигател") за технология за разпознаване на текст използва ABBYY OCR-технологични фирми. Благодарение на това:
- На първо място, осъзнах, търсене на пълен текст (с класирането на резултатите, в зависимост от близостта на думи, морфология и т.н.), които, включително възможността за библиографско търсене за професионалисти, предлага на крайния потребител с богата тематична изследвания;
- На второ място, не строги изисквания към процедурата на сканиране и публикуване на снимки на картите, а когато тя е обект на едно напълно реализирано модел "на хартия" Търсене на разделители карти.
Но основната характеристика на IRBIS Изображение каталог е, че нейната база данни не функционира отделно, а не като самостоятелна система и интегрирана в автоматизирана технология за пълен ЕК, а именно - технологични работни станции "каталогизатор" и "Разпространение" IRBIS64 [3], че дава възможност за въвеждане на структурирани данни (например, боядисани retrofonda произвеждат копия), признатите данни за корекция, изтриване на записи, дебитна и проверете фонд резервация, издаване, връщане, документи и т.н. разширение.
IRBIS Изображение каталог включва три модула:
Администратор - да създават свои собствени директория с данни за изображенията на базата на сканираните изображения на индексни картички (партида операция), тя е вградена в "двигател" на ABBYY;
оригиналния клиента за директорията на краен потребител на изображението;
Уеб-портал за достъп до изображения каталога чрез Internet / Intranet.
В допълнение, за да се поддържа имиджа на директорията на базата данни може да се използва Арма "каталогизатор", "Придобивания" и "Разпространение" IRBIS64.
Процесът на създаване на директория изображение се състои от два етапа (които могат да се извършват последователно или паралелно с известен лаг във времето):
- сканиране на картотеката;
- образуването на директорията на базата данни с изображения на базата на сканираните изображения на индексни картички, включително автоматично разпознаване на процеса на своите текстове.
стъпка на сканиране е особено производство задача и изисква специално оборудване, което позволява да сканирате индексни картички с висока скорост.
В България SPSTL използва за тази цел високоскоростни скенери "Elar skamaks 2600 метра» и «Kodaki 1440" с капацитет до 30 карти в минута. Източник масив за създаване на директории с изображения официален азбучен каталог е била избрана.
карти Индекс сканирани от двете страни с разделителна способност от 200dpi в палитрата на сивото (8-BitGrayScale). Форматът JPEG се използва като графичен формат. Образът на карта оформено като два файла със сродни имена: Qnnnn.JPG - предна страна, Wnnnn.JPG - задната страна (където NNNN - сериен номер на картата в каталога прозорец). Средният размер на предната част на файла карта - 20-30 KB, архивирате - 10-20 KB.
Снимки (файлове) карти от една от стоките кутия се поставя в една и съща директория (превозвач двигател) със същото име като разделител прозорец азбучен (разделители вътре в кутията не се използва). Например: Авербук - Aveshnikova; Aviaizmereniya - Авраам.
Трябва да се отбележи, че в името на директорията (и следователно, в имената на сепараторите) Можете да не се използват символи като ":" "?", "\", "/", "*", Кавички двойни. Можете също така не може да използва знака "точка" и "празнина" в края на името.
Именно тази система на именуване на директории ви позволява да организирате търсене в каталога на изображението за сепаратори (т.е., да създадете буквално модел на традиционната каталога). Необходимостта да се търси разделители (т.е., необходимостта от такъв модел) е продиктувано от следните съображения:
1. карта OCR процес не дава абсолютни резултати - поради лошото си състояние, или лошо качество на печат не се признава от целия текст или част от текста се признава неправилно, може да има случаи, когато картата не се разпознава от текст изобщо; (Трябва да се подчертае, че саморъчен карта или на ръка етикети върху картите, строго погледнато, не са признати). Това води до факта, че, ако търсите текст (т.е., по думите на разпознатия текст), някои карти ще бъдат. Ако не се осигури разделители за търсене (като резерва), най-лошо признати картотеките никога няма да бъдат намерени в каталога на изображението. С други думи - от търсенето на разделител в каталога на изображението може да бъде отнет само в случай на абсолютна качеството на разпознаване (което е почти недостижим).
2. Има ситуации, най-вече свързани с библиографска търсене, когато търсенето на сепаратора може да бъде по-ефективен от търсенето думите на текста. Така например, необходимостта да се намери карта на периодична (списание), наречена "Живот": търсене на думата "живот" в каталога на изображението за достатъчно голям обем ще доведе до много голям проблем, който ще бъде трудно да се намери правилната карта; много по-бързо, че ще бъде намерен в азбучен ред разделител.
3. Уверете се, че има потребители (сред тях може да има читатели и библиотекари), които по различни причини искат да действат "в старата", т.е. Търсене по дума текст ще предпочете да търси разделители карти. Няма причина да ги лиши от тази възможност.
При сканиране на каталози на карти, неизбежно възниква въпросът: дали да се изключат от индекса на сканиране карти, съответстващи на "новите" издания, т.е. тези, които вече са включени в пълен електронен каталог. Според строга логика трябва да се направи, за да се избегне дублирането на данни в каталога на изображението и електронния каталог; От друга страна, процесът на подбор на индексни карти (абстиненция "новите" карти от кутии, преди да ги сканира и да се върнете в изходно положение след завършване на процеса) е изключително много време. В SPSTL България за всички директории (с изключение на директория "Национална Book") решава да се предотврати дублирането, да не се увеличава сложността и по този начин изпълнението на всички процеса на сканиране, т.е. "Нова" индексни карти не са изключени от сканирането.
В съответствие със структурата на услугата директория независимо сканирани следните директории (и по този начин - да се създадат отделни изображения на масиви от индексни карти):
Процесът на формиране на директорията на базата данни с изображения - на втория етап на операцията - е напълно партида (един) на компютъра, т.е. То не е свързано с всички ръчни операции. За изпълнението на тази работа е ARM "администратор" от базата данни на IRBIS64 в пълен текст с функция за разпознаване. на работно време се определя от обема на първоначалните индекси масив картите и скоростта признаване аудио карти. Признаване време аудио карта на средните стойности на компютърни (2 GB RAM, 2.4 GHz) - около 1,5-2 секунди (т.е. 10 хиляди, за да признае карти изисква приблизително 6 часа.). В SPSTL България индексни недостатък карти не са подложени на признание (както е в общи линии се състои от ръкописни данни характер на услугата).
По този начин образа на пет директории, създадени в SPSTL България (вж. Таблицата).
Крайният потребител (читателя), за да работи с изображения каталог предлага две възможности:
- първоначалното заявление клиент въз основа на IRBIS Navigator;
- Уеб-портал за достъп до каталога на изображението на базата данни чрез Интернет / Intra-не (т.е. използването на уеб-браузъра).
Потребителският интерфейс на първоначалната заявка на клиента въз основа на IRBIS Navigator (общ преглед) е показана на фиг. 1.
Фиг. 1. Общ вид на приложението на клиента въз основа на IRBIS Navigator
да търсите каталога на изображението
Основният елемент е прозорец интерфейс ( "Аз търсят"), където потребителят въведе заявка за търсене на естествен език. Резултат от търсенето се появява в низходящ ред на значимост на намерените документи (т.е. първия появява карти, които са най-подходящи за искането). Всеки документ се представя под формата на изображения на каталожните картички, където червеният подчертани думи от текста, съответстващ на първоначалното искане (фиг. 2).
Фиг. 2. Резултат от търсене на изображения каталога
Основната вариант е да търсят подобни документи, изпълними, разбира се, автоматично въз основа на оригиналния алгоритъм, който се състои от следните логически операции или стъпки:
- избрани всички думи от текста на оригиналния документ (карта);
- изключени незначителни (uninformative) думи в съответствие с фиксирана списък на гише думи;
- думите са подредени във възходящ честотата на появата им в общия речника на база данни думи на изображението директория;
- като най-информативен взети първите десет думите на един подреден списък, както и въз основа на тях се формира от заявка за търсене или подобни документи.
По желание на крайния потребител може да бъде предложена за търсене по тема Navigator, което се разбира като вербална класификационна система е йерархична тип и изграден на базата на своя потребителски интерфейс (навигатор). (. Фигура 3) Използване на браузъра, за да търсите тема позволява, от една страна, да се опрости търсенето в случай на общи тематични въпроси, а от друга - да компенсира недостатъците на известно търсене, използвайки безплатния (без нормиран) лексика ( "шум" и неточни).
Фиг. 3. Тема навигатор
За създаване на система за класификация, предложен специален структурен модел. Алгоритъмът за търсене на тематична навигатор е, че текстът на заявката се формира не само въз основа на избрания от потребителя колони от класификатора, но и с всички подчинени заглавия и ключови думи, свързани с тях ( "невидим" за потребителя, те се намират в структурата на класификатор). Тази възможност IRBIS Изображение каталог (Тема навигатор) SPSTL в България все още не е в употреба.
Интерфейс за изображения директория (чрез уеб-портал) в България SPSTL сайт е показано на фиг. 4. Web-портал позволява да реализира същата функция като на оригиналния клиента въз основа на IRBIS Navigator.
Фиг. 4. Достъп до образ-директория на сайта SPSTL България
Както беше отбелязано по-горе, отличителна черта на IRBIS Изображение Catalog е, че позволява на интегрираното управление на технологията за управление на изображенията-директория в автоматизацията изцяло електронен каталог, като по този начин предоставя възможност за извършване на каталога на изображението на произведения като отписванията и преместване литература , Circulation и др. Фиг. 5 показва "каталогизатор" интерфейс AWP (от IRBIS64 състав), с които можете да поддържа база данни с изображение на стоките напълно автоматизирана технология ЕО, по-специално структуриран описание на публикации в изображението въз основа на каталог карта (ако е необходимо) или да извършвате корекции разпознат текст.
Фиг. 5. Достъп до изображения каталога чрез ARM "каталогизатор"
APM "Circulation" (фиг. 6) ви позволява да работите с електронни поръчки, които се формират от директорията на краен потребител на изображението. читатели Поръчките подадени под формата на изображения на каталожните картички съответните публикации. Специален режим се предлага, което позволява да се опише изведени издателство например в момента на издаване ( "в движение"). Въз основа на това, че е възможно да се извърши боядисване копия от каталога на изображението в обращение (вместо да го направят по-рано в пълен размер в Арма "каталогизатор").
Може да се обобщи, че създаването на директории с изображения на практика е единственият начин да се ретроспекция преобразуване на картови каталози на големи обеми (стотици хиляди на карти). "Manual" Retroconversion с клавиатура за въвеждане - дори и със заемането на технологии - е неприемливо както за сложност, както и от гледна точка на производителността.
Единствените "негативни" с изображения каталози - значителни финансови разходи, свързани с тяхното създаване (въпреки че може да се предположи, че цената на "ръчно" вход, тъй като неговата изключителна интензивност на труда, резултатът ще бъде сравнима с цената на каталога на изображението). Трябва да се разбере, че повечето от разходите при създаване на каталог на изображението (приблизително 90%) в решението единствено производство проблем - същинското сканиране на индексни картички.
В тази връзка, трябва да се каже, че SPSTL България, със съответните му производствени мощности - високоскоростни скенери и квалифициран персонал, готови на договорна основа за извършване на работата на сканиране каталозите на карти на други библиотеки и сътрудничество с ELNIT асоциация - да се създаде образ-директория "до ключ" ,
Фиг. 6. Работа с изображение Каталог чрез "Circulation" AWS