херпес зостер алгоритъм
херпес зостер алгоритъм (чакъл (херпес зостер е) с англичаните го cherepichka, скала) за размити дубликати за търсене на текст. Думата "размита" означава нещо, което удвоява влизане се търси не точно, но неясно. Например, че е възможно не само да дублира линии, но също така и отделни фрази. По принцип модификация херпес зостер алгоритъм, използван от търсачките за борба срещу спама за търсене. Това дава възможност да се изключат от текстове Змия подобни един на друг или напълно идентични. Остава обаче проблемът с източника, т.е. източник, когато тази информация дойде в първия. Въпреки че се смята, че търсачките ясно записват този факт, но в никакъв случай на системни сривове. Нека разгледаме по-подробно на въпроса по отношение на този метод, видим от какво се хранят, това чакъл!
Алгоритъм метод херпес зостер
За всяка част от текст (подниз) плаща определена сума на контрол, задача, която по някакъв начин се идентифицира този текст, това е чакъл. Тези символични части от текста трябва да отидат да се припокриват, един за друг, така че никой характер или дума се губи. На следващо място, целия набор от тези контролни суми се избират тези, които отговарят на нито един от критериите - дори, разделени в произволен брой и т.н. В резултат на това, пробата има единно законодателство на разпределение, не се фокусира върху всяка част от текста. В резултат на това, ако отговарят на два кодирани текстове проверка по сума, текстовият приликата е очевидна. Колкото повече мачове, толкова по-сходството на текстове.
Изберете единица за кодиране - поднизът може да бъде различен. Можете да използвате размера на стъпката на герой, или няколко знака, но можете да вземете една дума или няколко думи. След това трябва да се реши дали подниз "Гепи" (включва част от предишната) в кода си - това се отразява на точността на резултата. Определяне на размера на подниз в десет думи или десет знаци, като изборът зависи от изчислителна мощност, капацитетът на паметта и точността на резултатите. Чрез tomuzhe желателно изходния код чисти на повтарящи се интервали, пунктуация, и дори предлозите, защото те не носят специална информация натоварване.
Една контролна сума може да бъде прочетен с помощта на хеширане, използвайки, например, MD5 алгоритъм.
Пример на метода на алгоритъм херпес зостер
Помислете например за две леко променена откъс от поемата, AS Пушкин
"
Буря небе мъгла прикрива,
Вихрите въртящи се сняг,
Нещо като звяр го вой,
Това вик като дете
- Алгоритъм на херпес зостер в
"
Леко ретуширани текста:
"
Буря скрива бяло поле,
Вихрите въртящи се сняг,
Нещо като лъв го вой,
Това вик като дете
- херпес зостер, за да започнете метода на алгоритъм
"
Като изберете дума стъпка. Дължината на подниза вземе равен на 5 думи. Line ще бъде в ставата (един след друг). Тъй като текстът е малко, след това да изключите думи
В резултат на това, ние получаваме кодиран текст до 5 номера.
Фиг. Пример 1 Разпределение на текст от херпес зостер
Тук идва и думата определен за първия случай:
BuryamgloyunebokroetVihri | snezhnyekruzhaTokakzver | onazavoetTozaplachetkak | dityaAlgoritmmetodashinglovv | на
хеш:
a7bdbcb13968a694f626a5682b7f2dfd | 0e5aa06baba90d7c851f9a0450a60222 | c0c522529b0e810f73b210cc972e9966 | 95ed3beeb9bc9ff61affd4421a24c44f | 9c793e2986f7ee89f93953e3fbcab408
и второ:
BuryabelymzemlyukroetVihri | snezhnyekruzhaTokaklev | onazavoetTozaplachetkak | dityaAlgoritmmetodashinglovna | начало
хеш:
de5790caa3ee48c73f62e49000121c6f | 11da4405827ce2d70015f98a10563e1c | c0c522529b0e810f73b210cc972e9966 | 7172b4096aa49236a2f7edd298a47de2 | 690e13e46c9738d430d90570888d428f
В резултат на това ние имаме един мач - третото число (c0c522529b0e810f73b210cc972e9966). Този мач показва, че сходството между двата текста не е по-малко от 25%. Разбира се, за такъв малък текст, може да се намали на терена, но при такива изходни параметри е добър пример.
Supershingl
Ако за всяко текст дори се намалява с всеки набор от критерии, херпес зостер, че все още е в голямо количество изчислителна мощност на документите, които ще бъдат необходими, за да се използва все още остават огромни. Поради това, на практика, често на набор от херпес зостер документ се счита за друга контролна, така наречените "supershingl". Следователно съвпада след това да се счита за документи с напълно съвпадащи херпес зостер комплекти.
Бележки метод херпес зостер алгоритъм
Все пак трябва да се отбележи, че в момента се прилага усъвършенствани алгоритми дубликати. Например, алтернативен алгоритъм за определяне на размити дубликати, е създаден и въведен в Yandex. Променено алгоритъм на факта, че търсачката да индексира документ във формата на обърнат файл (или обърната индекс) и тази ситуация може да бъде полезно да се използва в процедурата за намиране на близо-дубликати.
Херпес зостер прост метод приближение в PHP
Представяме долу описание и изходния код за демонстрационни херпес зостер алгоритъм език PHP Най. Ние ще симулира търсачката
Първоначално, трябва да изтеглите файл по мрежата. Това може да стане с помощта на проста функция на PHP:
След това трябва да се почисти файла на излишни елементи. За простота, ние премахваме от текста на излишните HTML тагове. Премахване на други елементи от текста, оставя на читателя.
Определяне на необходимите променливи
Създаване на набор от думи. Като критерии за разделяне с помощта на пространството.
Ще се образува масив от поднизове. В тази функция, ние поставяне на дума от пет парчета заедно.
Ще образуват решетка на хеш стойности:
За сравнение, ние използваме проста функция за търсене в резултат от функцията се извежда процент мач.