сайт за управление на индексация чрез, за ​​популяризиране на сайт, на прост език

Вероятно повечето от вас, които четете статиите ми хора вече знаят за съществуването на тази, по принцип, непретенциозен файл. Фактът, че той е бил скромен и обикновен може съвсем правилно посочите търсещата машина, която са едни и същи за индексиране вашия сайт, и това, което трябва да се остави "в сянка".

Парадоксът на всички е, че това е някакъв прост синтаксиса на robots.txt файл крие голям проблем, ако не се укроти, т. Е. Не се научи правилно да се подготви. Защото всяка грешка може да ви коства много. В тази статия ще ви кажа как да се използва като файл с ума и се избегнат евентуални проблеми.

По-късно този стандарт започна по всеки възможен начин да се променят редица компании от търсенето, които въвеждат нова функционалност към вече установен стандарт.

Последно добавени възможността за използване на друго поле.

Какво е robots.txt?

Robots.txt - е специално проектиран текстов файл в основната директория на сайта, който съдържа директивата, следните елементи, които търсачката може да разбере стратегията на индексиране на информацията във Вашия сайт.

Структурата на robots.txt:

Файлът се състои от полета. Структурата на полетата е както следва: първо има информация за това кои търсачката трябва да следва инструкциите в директивата След това идва поле Disallow (низ съдържа User-Agent бот търсене или * представлява препоръка за всички търсачки.). който показва името на обекта, който искате да се скрие от индекса.

Най-добри практики между инструкциите за търсачката е призната от секцията на препоръки за друга търсачка по един празен ред, както и частта от своя страна формира поле User-Agent. В една секция може да бъде в няколко области, потребителски агент, като се започне с нов ред.

Файлът robots.txt линия са чувствителни случай (primer.html и Primer.html - различни файлове).

Трябва да се отбележи любопитния факт, че файла robots.txt е създаден и е създадена с основна цел - забрана за индексиране. следователно всички полета в него, предписани, ясно да посочи забраната за индексиране на сайта. Въпреки това, търсачките постепенно въведени в областта Позволете, което винаги трябва да се използва, за да забраните директива. но стига да не са признати официално, въпреки че тя се използва от някои търсачки (например "от Yandex", в Google и Бинг).

Някои търсачки използват собственически "информация" директива. В Bing живо и "Яндекс" през robots.txt реализира настроените стойности на скоростта на индексиране на документа. Ето как:

User-Agent: MSNbot
Crawl-забавяне: където п - в размер на забавяне в секунди преди индексиране на следващата страница.

User-Agent: Yandex
Crawl-забавяне: където п - в размер на забавяне в секунди преди индексиране на следващата страница.

Един пример за една от състои файла robots.txt:

User-Agent: *
Disallow: / User-Agent: Googlebot
Disallow: / текст /

Важно е да знаете:

1) файла robots.txt, трябва да бъде само в основната директория на даден сайт, само тогава тя ще бъде взето под внимание от търсачките.

2) Обадете се на файла, който искате да robots.txt. Robots.txt вече е грешка.

3) На всеки ред трябва да бъде поле Disallow. за забрана на индексацията на само един обект. Ако искате да предотвратите показването на няколко директории или файлове, а след това напишете поле забраняване на всеки нов ред. Записът трябва да бъде най-малко един и същи пол Disallow. Също така не забравяйте за полето User-Agent - тя не трябва да бъде оставено празно (или * или името на робота). Ако използвате директивата Позволете, а след това винаги трябва да се използва, за да Забрани.

4) Обърнете внимание на простата комбинация:

7) Ако са дадени инструкции за няколко търсачки, на полето User-Agent
Вие се прилага чрез трансфер на линия (Въведете ключ).

User-Agent: MSNbot
User-Agent: Slurp
Disallow: / администратор /

Грешки в файла robots.txt:

1) Грешен за области: