извличане на информация

Информация търсене - процесът на идентификация и избор на дадени смислени и официални документи или данни от информационния поток, или масиви.

извличане на информация проблем е най-развита в теорията и практиката на компютърните науки.

В процеса на използване на информацията за различни задачи членове на обществото (.. художници, писатели, учени и т.н.), за извършване на търсене на информация - актове, методи и процедури за извършване на избора на определена информация от набора от данни, като по този начин задоволяване на техните потребности от информация.

Характеристики на предметната област, стойностите на които трябва да се настрои за задачата на практика, посочена нуждае от информацията.

Информация търсене се осигурява от система за възстановяване на информация (IRS) - набор от инструменти и методи, организиран във функционална система, която изпълнява съхранение и извличане на информация. За IRS важна информация искане от потребителите, - текстов израз на необходимостта от информация.

Същността на извличането на информация е да се извлече като комплект (информация масив) на подмножество на съответните документи или данни, които отговарят по искане на потребителя. Извличане на информация е в отговор на информация, потребителите трябва, изразено в молба за информация. Процесът на извличане на информация относно най-общото ниво описани по следния алгоритъм:

1. Текстът на молбата, разпределението на нейната структура основните търсенето критерии: ключови думи и понятия, предмети и аспекти на търсенето.

2. Идентификация на данни: сравняване на данните от търсенето с атрибути на информация (търсене) масив.

3. Избор: проверете разкриха subarray документи или данни, които да отговарят на определени критерии за търсене.

4. Структуриране (подреждане) на документи или данни, в съответствие с логиката на заявката.

Информация за извличане е сложен процес, който включва множество семантичните процедури за обработка на информация и заявки от които зависи неговата ефективност. Това се постига чрез формулирането на изисквания от търсенето, т.е.. Д. Текстът, включително изображението на заявка за търсене и инструкциите за логически операции да се извършват в процеса на извличане на информация.

Информация търсене е да се сравни имиджа на търсенето на документ с предписание за търсене. Когато те съвпадат достатъчно добър да го смята, че документът има проучвателния изображението отговаря на дадената заявка информация. За обективна оценка на съответното търсене търсене на изображения с помощта на специфични критерии за рецепта, наречена на критериите за издаване. Критерий издаване - набор от атрибути, което се определя от степента на търсене кореспонденция документ заявка изображение предписание и на решение за предоставяне или отказ на документа в отговор на искане за информация.

Информация за съответствие получи искане на информация, посочено от значение. В случаите, когато потребителят на информация не е ясно изразяват техните потребности от информация в искането за информация, съответната информация няма да бъде в пълно съответствие с нужда от информация. Тя се казва, че информацията не е собственост на приложимост. По този начин, информацията за кореспонденция, получена информационна нужди, наречени принадлежност.

Фиг. 19. Класификация IRL

изразяване на процеса семантично съдържание на основните информационни елементи (рисуване търсене на изображения) с помощта на извличане на информация език нарича индексиране.

В зависимост от IRL, различи видове индексиране.

Индексът на класификация (систематизиране) - прехвърляне на данни или документи от символи класификация в съответствие с правилата на всяка класификация, IRL.

Тема индексиране - индексиране на тема съдържание на документа.

Безплатна индексиране - технология за индексиране, което не предвижда замяната на ключовите думи на текста в съответствие с препоръките на специален речник.

Координира индексиране - индексиране, предоставяйки многостранен израз на основния семантичното съдържание на документа или семантичното съдържание на номера на искане на информация от ключови думи или описания.

Фактическа индексиране - индексиране, предоставяйки отражение на търсене документ изображение конкретна информация (факти).

Автоматизирано индексиране - индексиране, чиято технология е свързана с използването на формални процедури, извършвани с помощта на компютърните технологии и включва използването на интелигентни процедури за вземане на важни решения относно състава на търсенето на изображението.

Автоматично индексиране: индексиране, чиято технология е свързана с използването само на официалните процедури за обработка на текст, извършвани с помощта на компютърните технологии.

На практика най-често срещаните са три вида заявки за търсене.

Тематичната запитване - е приложение за избор на документи по даден въпрос.

Когато се изисква фактическо позоваване тип заявка консултира, например декодира символите, живота на човек, стойността на физико-химични константи и м. P.

Реал IPA обикновено се специализират в решаването на един (понякога и повече) видове искания различни видове извличане на информация, различни цели, средства и обектът на търсенето.

Документален търсене - информационно търсене, в която обектите на търсенето са документите. Документален търсене с помощта на автоматизирана компютърна нарича търсене документален филм.

Фактическа търсене - Това търсене на информация, имаща за цел да намерят истински описания, които имат отношение към искането. Фактическа търсене има някои разлики от търсенето на документален филм. Документален система произвежда редица документи, свързани с искането, като даде на потребителя възможност за избор на реални данни от тези документи. Фактически IPS освобождават потребителя от тази процедура, като го изпратите описание на интересния факт.

Извличане на информация от единна информационна поиска до информация, натрупани преди масив наречен ретроспективно търсене. Търсенето се извършва във всички елементи масив от информация по темата.

Извличане на информация, в който искането за информация се генерира посредством булеви оператори се нарича Булева търсене.

В сегашния търсене и възпроизвеждане на данни, обикновено се осъществява чрез използване на компютърна техника, такава информация се нарича търсене автоматизирано търсене на информация. Нека да се определят основните видове автоматизирано търсене на информация.

Като гледам в естествен език разбиране автоматизирано извличане на информация, предмет на искане за информация е формулирана на естествен език.

Автоматизирано търсене документален филм, който като търсене на изображения на документа се използва в пълния му текст или значителни части от текста, е търсене на пълен текст.

Ефективността на търсене на информация е по-зависима от искането за информация, която трябва да формулира максимално пълна и точна информация отразява нуждите на потребителя. За да направите това, използвайте интерактивния начин на извличане на информация. Автоматизирано извличане на информация, в която автоматизирана система, потребителят може да формулира искания за информация в диалоговия прозорец, за да ги адаптира към процеса на търсене и междинните резултати се нарича диалогов търсене.

Има и режим на търсене на партидата, който се осъществява с помощта на търсене на партиди, т.е. автоматизирано извличане на информация, в който исканията за информация се натрупват в специален спектър за по-нататъшно сътрудничество преработка.

Оценка на качеството на извличане на информация се основава на семантичните показатели, т.е.. Е. Неговата способност да намерите информационни елементи съответното искане на информация. Резултати от търсене на информация се оценяват според следните семантични критерии:

пълнота - отношението на броя на намерените съответните документи на общия брой на съответните документи на разположение в масива от данни.

точност - отношението на броя на установено отношение към общия брой на документи в проблем.

шум - съотношението на броя на неподходящи документи за издаване на общия брой на документи за издаване (обратна на коефициента на точност).

Издаване фалшива - отношението на броя на неподходящи документи за издаване на общия брой на неподходящи документи в базата данни.

съотношение мълчание - съотношението на безпрецедентни неподходящи документи на общия брой на съответните документи в базата данни.

Формулите за изчисляване на тези показатели са получени от масата, представляваща дял на файл с информация, въз основа на дадено значение за искането за информация.

Таблицата използва следните символи: А - набор от съответните документи и е издал; Най - много неуместен, но издава документи; C - много подходящи, но не издават документи; D - много неподходящи документи и невидим.