Видовете извличане на информация език

Видове и IRL

Как да настроите на лексикалните единици

Контролирани - езици, речника на която се определят и контролират с помощта на речници и таблици. Те включват различни класификационна система (UDC, BBK, Dewey класификация).

Езикови предметни рубрики. Въз основа на йерархическата класификация изгради систематични каталози. Въз основа на езика, предметни рубрики изгради обект каталози. По азбучен ред каталог - ръчно търсене.

Дескриптори на Ирландия, както и езикови ключови думи - Автоматично търсене.

Неконтролираното - лексика не се определя от речника, и се основава на избора на условията на естествен език. Такава IRL започва да се използва широко в последните години.

Заповедта на влизане на лексикалните единици [редактиране | редактиране уики текст]

Некоординираните езици - не е позволено да координират своите лексикални единици (няма връзка между тях), или в процес на индексиране, всеки процес за търсене. (Споразумение от системата на книги в библиотечния фонд, за инвентарни номера).

Координирано IRL - езици, на които лексикални единици свързани, координирани помежду си или са в процес на индексиране, или по време на употреба.

Predkoordiniruemye - връзката между лексикалните единици са определени преди търсенето.

Postkoordiniruemye - когато комуникацията между лексикалните единици са инсталирани само в търсенето.

43. Правна синонимен речник.

Правна синонимен речник - логично-семантично колекция от ключови думи и описания, използвани като езика и използването на AIPS правна информация.

Информация за извличане език. Правна синонимен речник.

Един от най-важните задачи на правни информатика е езикова процес на законотворчество подкрепа. Правото не съществува извън език.

Член 2 от Закона за информация се отнася до средствата за автоматизираните информационни системи, а също и езикови средства.

Системата на езикови средства за осигуряване излъчва е на първо място език извличане на информация (IRL).

Най-общо казано на езика - това е система за знак, използван за събиране, съхраняване, обработка и предаване на информация.

IRL - официално изкуствен език, предназначени да индексира документи, искания за информация и описанието на фактите, с оглед на тяхното последващо съхранение и извличане.

IRL съгласно законодателството трябва да осигури:

Ефективното формализирането на законовите правила и норми

Висока скорост на търсене на информация на вашия компютър

Оптимално превод на нормативния текст на правния език, с наличните компютри

Минимално "шум", т.е. свеждане до минимум на компютъра издава твърде много информация

Пълнота на извличане на информация, т.е. получаване на цялата необходима информация за решаване на конкретни проблеми на законотворчество

Всяка информация, която трябва да се преобразува, се адекватно кодирани, т.е. превежда на езика на специални знаци или сигнали.

Теория на извличане на информация се прави разграничение между следните видове извличане на информация езици:

Език тип обект - това азбучен ред индекс за колекционери и отделни разпоредби и широко разпространена По азбучен ред подлежи позиция.

При използване на този език основната тема на документа се изразява с един или повече видове думи - заглавия. Например, има подлежат-азбучен индекси на Конституцията, на Гражданския процесуален кодекс.

Език вид класификация - е квалификационен клонове на законодателството.

Език тип ЕВРОВОК - има голяма "семантична сила", т.е. в състояние да предадат изцяло по отношение на правилата изразяват комбинацията от описания (ключова дума - обединява група от ключови думи), който и да е понятие, с висока степен на отражение на значението на документите, наличието на ключови думи.

Descriptor IRL разделят на:

езици, които не се различават по логичен-семантичните отношения между понятията

езици, които съдържат в състава си логическите-семантичните отношения.

(Специално) правната синонимния речник - логично-семантично колекция от ключови думи и описания, използвани като езика и използването на AIPS правна информация.

Задачата - да организира и олово в лексикално е система, използвана в законодателния процес.

В компютърните науки речник изпълнява следните функции:

използвана за организиране на извличане на информация (извличане на информация синонимен речник)

Тя се използва като средство за измерване по смисъла на посланието на (потребителско синонимния речник - набор от информация, достъпна за потребителя)

Той действа като основно средство за извличане на информация латентна

Има различни видове речници:

на общото право (102,000 думи и фрази). Кой не се прилага.

Синонимен речник, специализирана в областта на правото. (Например, Eurovoc).

44. Индексирането и rubritcirovanie правна информация. 45. Metrization и кодиране.

Подготовка на правна информация за механична обработка:

metrization; кодиране; индексиране и rubritcirovanie.

В широк смисъл, metrization разбира описание на предварително определено множество числени характеристики. В зависимост от това, което се използва като характеристики metrization са два вида: а) броя; б) измерване.

При измерване и изчисляване, като средство за експресия с използване на естествени числа. мерната единица, използвана в измерването.

Измерване характеристика може да бъде предмети на материалния свят, като всеки от свойства, които могат да бъдат измерени или характеризират с количествени данни.

така му усъвършенстване да се разбира от metrization правна информация в резултат на което е предмет на правни действия за получаване на количествени характеристики на някои параметри на обекта на знанието.

Характеристики, получени от измерването могат да бъдат изразени както в абсолютни стойности и относително.

Кодиране на правна информация - това е такава операция, в която някои данни се заменят с съкратени символи (цифри, числа). обратната операция се нарича декодиране.

комбинация от символи, наречени код, както и броя на знаците, включени в кода на операция, наречена дължината на кода.

За да се кодира на правна информация се използва няколко метода: точка, Контур дот-зона.

Rubritcirovanie - процедура за разпределение на специфичните регулиране тема или да поиска от съответния индекс на заглавието, което е определен за всяка тема своя индекс.

45. Metrization и кодиране.

Metrization. Най-общо metrization обикновено се разбира от описание на обект от предварително определено множество от числени характеристики. Metrization директно обект, по-специално, измерването е винаги една или друга физическа величина, обикновено по-нататък параметър обект на знания. Ето защо данните, получени в резултат на тази процедура, с право наричат ​​параметрични или измерване на информация.

С оглед на това, под metrization правна информация трябва да се разбира така своята процедура за обработка, която се превърна в обект на съдебни действия за получаване на количествени характеристики на определени параметри на обекта на познание.

В зависимост от това какво е избрано като характеристика и че желае да изрази, има два вида metrization:

- Преброяване. Когато се брои като средство за изразяване на данните, които се интересуват от използване на естествени числа (например, да се посочи, че в тази област за този период са били идентифицирани 20 случая на нарушения на закона по граждански дела в съдилищата).

- Измерване. В измерванията като средство за изразяване на получените данни, заедно с естествено число взето да се използва този тип измерване, съответстващ на единица мярка.

Metrization провежда, използвайки апаратура [2].

- Кодиране на стоките. В най-широк смисъл, се разбират кодиране операция за замяна на всички данни (например, текст) съкратените символи, обикновено цифри или символи [9, стр. 251]. обратната операция се нарича декодиране. Обикновено, тези операции се използват като средство за предоставяне на информация, характеризираща индивидуалните характеристики на обекта на тест или случай, във форма на последователно разположени абстрактно азбуката символи. Комбинация от символи наречените код, а броят на конкретна кодова дума, - дължината му. Кодовите символи могат да имат различни форми. Най-често това е числа, букви от всякакъв азбука, както и различни видове символи и техните комбинации (точки и тирета, математически символи, и така нататък. Н.).