Роль файла robots.txt в оптимизации Blogspot

Здравствуйте , дорогие читатели . Всё чаще у меня спрашивают про инструменты для вебмастеров Google и Yandex ( Яндекс ) , а если быть точно , то про роль файла robots.txt , про запрещенные к индексации страницы или заблокированные страницы в файле robots.txt .
Роль файла robots.txt в оптимизации Blogger Blogspot


Странно получается , сначала мы ищем информацию о том , как оптимизировать блог , выполняем все рекомендации , а потом начинаем задавать вопросы , почему у меня заблокированы страницы и как их разблокировать .
Я начну по порядку , и что такое вообще файл robots.txt ?

Файл robots.txt - это по сути обычный текстовый файл , который находится в корневой папке сайтов или блогов .

http://site.ru/robots.txt

Файл по сути обычный , а вот содержание этого файла очень важное . Файл robots.txt был задуман для того , чтобы УПРАВЛЯТЬ индексацией сайта . Указывать поисковому роблту , что можно индексировать , а что нельзя .

Сам собой навязывается вопрос , а зачем , что то запрещать или разрешать , пусть робот индексирует все ?

Первая и самая очевидная ситуация . С развитием интернета все больше сайтов поддерживают регистрацию и личные кабинеты пользователей с такой информацией , с которой сами пользователи не хотят делиться .Так же , с этой ситуацией можно отнести и такие , когда на сайте есть разделы доступные для всех пользователей , и разделы , доступные только для зарегистрированных пользователей . Думаю , с этим понятно . И такое содержание специально запрещается к индексации .

Но есть и другие ситуации , которые мы рассмотрим более подробно .
Халява
Все современные сайты являются динамическими . Многие пользователи наивно полагают , что динамический сайт , это тот , на котором бегающие строчки , картинки сами сменяют друг друга и т.п. , что называют флеш-сайт . На самом деле , динамический сайт к этому не имеет никакого отношения . И слово динамика возникла совсем по другой причине .

Я не являюсь профи в этом деле , поэтому могу где-то давать не совсем точные формулировки .Представьте себе интернет-магазин . На форуме сайта есть поиск товара по разным критериям . На один и тот же товар можно попасть употребив разные фильтры . Например , фильтр по производителям может привести к товару , который так же можно выбрать , применив фильтр по цене и габаритам . Использование различных фильтров создает URL страницы разный путь до товара . И один и тот же товар может находиться на 2-3-4-Х разных URL .

Вот тут и начинается путаница , а какая из этих страниц является правильной и самой важной ? Какую страницу показывать в результатах поиска ? Вот тут и приходит на выручку файл robots.txt . В котором указано , что все URL , которые возникли в результате применения фильтров , индексировать нельзя .

Отличительной особенность всех URL , которые сформировались в процессе выбора товаров , является присутствие специальных символов или слов . Я предлагаю разобрать вам один частый случай . Этот случай не частый , но и не редкий , особенно , на начальном этапе ведения блогов ,когда мы еще не все понимает . Прошу отнестись к этому случаю серьезно .

Условие .

1. Вы показываете полный текст статьи на главной  , не пряча часть статьи под кат .
2. Этой статье вы присвоили ярлык , по которому у вас еще нет других статей , кроме этой .

Зайдем на вашу воображаемую статью , она имеет адрес

http:// мой_блог/дата/моя_статья 

Помните , вы присвоили этой статье ярлык , которого нет еще ни у одной статьи . Вы только что решили написать статью на эту тему , и других статей на эту тему у вас нет . Зайдем на страницу этого ярлыка . Он имеет URL

http:// мой_блог/search/label/название_ярлыка

И что мы видим .На этой странице наша статья , в полном варианте , т.к. мы не прячем ее под кат , и других статей у нас больше нет .

В итоге получается , одна и та же статья присутствует сразу по двум разным адресам . Какая из этих двух страниц является правильной ? Какая важнее? Поисковый робот не может определить разницу между этими страницами и считает их практически одинаковыми .

Вот к такому содержанию поисковый робот относится негативно . И даже , когда мы начинает прятать статьи под кат , и даже , когда у нас по ярлыку находится несколько статей , поисковой системы не нравится , что у нас складываются такие страницы . Такая ситуация носит название - дублирование контента .

Поэтому , чтобы поисковые системы не ругались , чтобы лучше ранжировали наш блог , в файле robots.txt стоит запись :

User-agent :
Dissalow: /search
Которая означает , что любые роботы всех поисковых систем не должны индексировать страницы , которые имеют в  себе директиву /search . Это сделано для нашего блога разработчиками платформы . Обнаружив в инструментах предупреждение , что какие-то страницы заблокированы ( запрещены ) файлом robots.txt , не нужно впадать в депрессию , панику и переживать , что на вашем сайте что-то не индексируется .

Похожая ситуация складывается и с архивами . Например , у вас на главной странице блога отображается 10 статей . Адрес главной страницы

http:// мой_блог
И так получается , что все эти 10 страниц написаны в ноябре . Многие используют виджет Архив . Выбираем в архиве ноябрь , мы увидим все те же 10 статей , которые сейчас находятся на главной странице блога , но в адресной строке браузера  мы видим совершенно другой URL

http:// мой_блог/2010_11_01_archive.html
Одно и тоже содержание по разным адресам . Вот такие страницы архива мы намеренно запрещаем к индексации через мега-теги . Нечто подобное складывается из-за стандартного листинга страниц блога не по отдельными статьями , а когда можно листать главную страницу . В результате листания главной страницы образуются адреса вида

http:// мой_блог/search?updated-max=2010-06-17T16%3A17%3A00&max-results=7

Казалось бы , в URL этой странице содержится директива /search , но я обратил внимание , что Google постоянно индексирует эти страницы . Именно по этому у меня нет листинга по страницам .

Вот файлы robots.txt  :

1.............................................................................
User-agent: Mediapartners-Google
Disallow:

User-agent: *
Disallow: /rpc_relay.html
Disallow: /feeds

User-agent: googlebot
Disallow: /rpc_relay.html
Disallow: /feeds
Sitemap: http://webmmaster36.blogspot.ru//sitemap.xml

2..................................................
User-agent: Mediapartners-Google
Disallow:

User-agent: *
Disallow: /search
Allow: /

Sitemap:http://хххххх.blogspot.ru/feeds/posts/default?orderby=updated




Комментариев нет:

Отправить комментарий