търсене на документ

търсене на документ

- Уикипедия, свободната енциклопедия
Извличане на информация (извличане инж информация.) - процеса на търсене неструктурирани документалната информация и науката за него.

търсене Информация като процес

Търсене на информация е процес на идентифициране на набор от документи (текстове) на всички онези, които са посветени на определената тема (предмет), отговарят на предварително зададено условие за търсене (заявка), или да съдържа необходимата (съответстващи на информационните нужди на) фактите. информационни данни.

Процесът на търсене включва поредица от операции, насочени към събиране, обработване и предоставяне на необходимата информация на заинтересованите страни.

Като цяло, търсенето на информация е разделен на четири етапа:

  • определение (спецификация) на информационните нужди и формулирането на искане за информация;
  • определение набор от възможни информационни масиви притежателите (източници);
  • извличане на информация от определени набори от данни;
  • запознаване с информацията и оценката на резултатите от търсенето.

Търсене на цял текст - търсене на цялото съдържание на документа. Пример пълнотекстово търсене - всяка интернет търсачка, като www.yandex.ru. www.google.com. Обикновено, пълен търсене на текст, за да се ускори търсенето с помощта на предварително създадени индекси. Най-разпространената технология за пълния текст индекси за търсене се обърнат индекси.

Документите за процеса търсене на чисто формални основания, посочени в искането.
За изпълнението на следните условия са необходими:

Документите за търсенето чрез тяхното съдържание.
Общи условия:

  • Превод на съдържанието на документи и заявки с по-естествен език за извличане на информация и изготвяне на заявка за търсене и изображения на документа.
  • Изготвяне описанието на търсене, който уточнява допълнително условие за търсене.

Процесът на търсене на извличане на информация система за съхранение на първични документи и вторични документи в базата данни на данни, съответстващи на заявка на потребителя.

Два вида документален търсене:

  1. Библиотека, насочени към намиране на първични документи.
  2. Библиографска насочени към намиране на информация за документите, представени под формата на библиографски записи.

Процесът на намиране на факти, съответстващи на искане за информация.
Чрез factographical данни включва информация, получена от документи, както първични и вторични, и получени директно от източника на техния произход.

Има два вида:

  1. Документален и фактически, е за търсене на документи на текстови фрагменти, които съдържат факти.
  2. Факт (описание на фактите), включващо създаването на нови фактически описания в процеса на търсене на логическа обработка на намерената фактическа информация.

Извличане на информация като наука

Информация търсене - процесът на идентифициране на набор от записи на информация, които отговарят предварително зададено условие за търсене или заявка.

Има известно объркване относно концепциите за извличане на данни, търсене на документи, извличане на информация и търсене на текст. Въпреки това, всяка от тези области има свои изследователски методи, практически опит и литература.

Искането и обекта поискване

Говорейки за IP системи използват заявката за условията и заявка обекта.

Запитване - е формализиран начин за изразяване на информационните нужди на потребителя на системата. За да изразят нуждите от информация на езика, използван от заявки за търсене. синтаксис варира от система на система. В допълнение специален език за заявки. модерни търсачки позволяват да въведете искане на естествен език.

Целта заявка - информационна единица, която се съхранява в автоматизираната система за търсене. Въпреки факта, че най-често срещаните искането на обекта е текстов документ. не съществуват фундаментални ограничения. По-конкретно, можете да търсите изображения, музика и друго мултимедийно информация. Процесът на въвеждане на обектите от търсенето в ЗНИ нарича индексиране. Не винаги данъчните служби държи точно копие на обекта, често вместо тя се съхранява заместител.

за извличане на информация задачи

Централна IP задача - да помогне на потребителя да отговори на техните информационни потребности. Е, как да се опише информационните нужди на потребителя е технически трудно, те са формулирани като определена заявка е набор от думи, описващи това, което потребителят търси.

Класическа IP задача, която започва да се развива тази област - търсене на документи, които отговарят на искането, в рамките на събирането на статичен документ. Но в списъка на IP задачи непрекъснато се разширява и вече включва:

Има много начини да се оцени колко добре установени от данъчните служби документи, ще бъдете подканени. За съжаление, понятието степен на съответствие с искането, или с други думи, от значение. Това е субективно понятие и степен на съответствие, зависи от индивида, оценка на резултатите от запитването.

Определя се като съотношението на броя на съответните документи, открити от IRS, общият брой на документи намерено:

,

където Drel - набор от съответни документи в базата данни, и Dretr - набор от документи, намерени от системата. Според резултатите от проучвания за оценка на значимостта на основните показатели за български и чужди търсачки.

Съотношението на броя на намерените съответните документи, общият брой на съответните документи в базата данни:

,

където Drel - набор от съответни документи в базата данни, и Dretr - набор от документи, намерени от системата.

Загуба характеризира вероятността за намиране на не-подходящи ресурси и се определя като съотношението на броя на документите, намерени без значение за общия брой на неподходящи документи в базата данни:

,

където Dnrel - този набор не е от съответните документи в базата данни, както и Dretr - набор от документи, открити от системата.

F-мярка (F-мярка, Ван Rizbergena мярка)

Понякога е полезно да се комбинира точността и пълнотата на една средна стойност. За тази цел, на средна аритметична стойност не е подходящ, както, например, замяна на търсачката е достатъчен като цяло на всички документи, за да се гарантира пълнотата, равна на една от близко до нула точно, а средната аритметична стойност на точността и пълнотата не е по-малко от 1/2. Средната стойност хармонична няма този недостатък, тъй като голямата разлика е средно стойности, близки до минимума от тях.

Ето защо, една добра мярка за съвместна оценка на точността и пълнотата е F-мярка. която се определя като претеглена хармонична средна точност и пълнота P R:

Обикновено F -measure написана като

Когато α = 1/2 или β = 1 F-мярка дава равно тегло на точността и пълнота нарича балансиран или F1 -measure (взето да се посочи стойността Р в индексът), експресията на това опростява

С помощта на балансиран F-мярка не е необходима: при 0 <β <1 предпочтение отдаётся точности, а при β> 1 голяма тежест придобива пълнота.