Странно получается , сначала мы ищем информацию о том , как оптимизировать блог , выполняем все рекомендации , а потом начинаем задавать вопросы , почему у меня заблокированы страницы и как их разблокировать .
Я начну по порядку , и что такое вообще файл robots.txt ?
Файл robots.txt - это по сути обычный текстовый файл , который находится в корневой папке сайтов или блогов .
http://site.ru/robots.txt
Файл по сути обычный , а вот содержание этого файла очень важное . Файл robots.txt был задуман для того , чтобы УПРАВЛЯТЬ индексацией сайта . Указывать поисковому роблту , что можно индексировать , а что нельзя .
Сам собой навязывается вопрос , а зачем , что то запрещать или разрешать , пусть робот индексирует все ?
Первая и самая очевидная ситуация . С развитием интернета все больше сайтов поддерживают регистрацию и личные кабинеты пользователей с такой информацией , с которой сами пользователи не хотят делиться .Так же , с этой ситуацией можно отнести и такие , когда на сайте есть разделы доступные для всех пользователей , и разделы , доступные только для зарегистрированных пользователей . Думаю , с этим понятно . И такое содержание специально запрещается к индексации .
Но есть и другие ситуации , которые мы рассмотрим более подробно .
Халява
Все современные сайты являются динамическими . Многие пользователи наивно полагают , что динамический сайт , это тот , на котором бегающие строчки , картинки сами сменяют друг друга и т.п. , что называют флеш-сайт . На самом деле , динамический сайт к этому не имеет никакого отношения . И слово динамика возникла совсем по другой причине .
Я не являюсь профи в этом деле , поэтому могу где-то давать не совсем точные формулировки .Представьте себе интернет-магазин . На форуме сайта есть поиск товара по разным критериям . На один и тот же товар можно попасть употребив разные фильтры . Например , фильтр по производителям может привести к товару , который так же можно выбрать , применив фильтр по цене и габаритам . Использование различных фильтров создает URL страницы разный путь до товара . И один и тот же товар может находиться на 2-3-4-Х разных URL .
Вот тут и начинается путаница , а какая из этих страниц является правильной и самой важной ? Какую страницу показывать в результатах поиска ? Вот тут и приходит на выручку файл robots.txt . В котором указано , что все URL , которые возникли в результате применения фильтров , индексировать нельзя .
Отличительной особенность всех URL , которые сформировались в процессе выбора товаров , является присутствие специальных символов или слов . Я предлагаю разобрать вам один частый случай . Этот случай не частый , но и не редкий , особенно , на начальном этапе ведения блогов ,когда мы еще не все понимает . Прошу отнестись к этому случаю серьезно .
Условие .
1. Вы показываете полный текст статьи на главной , не пряча часть статьи под кат .
2. Этой статье вы присвоили ярлык , по которому у вас еще нет других статей , кроме этой .
Зайдем на вашу воображаемую статью , она имеет адрес
http:// мой_блог/дата/моя_статья
Помните , вы присвоили этой статье ярлык , которого нет еще ни у одной статьи . Вы только что решили написать статью на эту тему , и других статей на эту тему у вас нет . Зайдем на страницу этого ярлыка . Он имеет URL
http:// мой_блог/search/label/название_ярлыка
И что мы видим .На этой странице наша статья , в полном варианте , т.к. мы не прячем ее под кат , и других статей у нас больше нет .
В итоге получается , одна и та же статья присутствует сразу по двум разным адресам . Какая из этих двух страниц является правильной ? Какая важнее? Поисковый робот не может определить разницу между этими страницами и считает их практически одинаковыми .
Вот к такому содержанию поисковый робот относится негативно . И даже , когда мы начинает прятать статьи под кат , и даже , когда у нас по ярлыку находится несколько статей , поисковой системы не нравится , что у нас складываются такие страницы . Такая ситуация носит название - дублирование контента .
Поэтому , чтобы поисковые системы не ругались , чтобы лучше ранжировали наш блог , в файле robots.txt стоит запись :
User-agent :
Dissalow: /search
Которая означает , что любые роботы всех поисковых систем не должны индексировать страницы , которые имеют в себе директиву /search . Это сделано для нашего блога разработчиками платформы . Обнаружив в инструментах предупреждение , что какие-то страницы заблокированы ( запрещены ) файлом robots.txt , не нужно впадать в депрессию , панику и переживать , что на вашем сайте что-то не индексируется .
Похожая ситуация складывается и с архивами . Например , у вас на главной странице блога отображается 10 статей . Адрес главной страницы
http:// мой_блог
И так получается , что все эти 10 страниц написаны в ноябре . Многие используют виджет Архив . Выбираем в архиве ноябрь , мы увидим все те же 10 статей , которые сейчас находятся на главной странице блога , но в адресной строке браузера мы видим совершенно другой URL
http:// мой_блог/2010_11_01_archive.html
Одно и тоже содержание по разным адресам . Вот такие страницы архива мы намеренно запрещаем к индексации через мега-теги . Нечто подобное складывается из-за стандартного листинга страниц блога не по отдельными статьями , а когда можно листать главную страницу . В результате листания главной страницы образуются адреса вида
http:// мой_блог/search?updated-max=2010-06-17T16%3A17%3A00&max-results=7
Казалось бы , в URL этой странице содержится директива /search , но я обратил внимание , что Google постоянно индексирует эти страницы . Именно по этому у меня нет листинга по страницам .
Вот файлы robots.txt :
1.............................................................................
User-agent: Mediapartners-Google
Disallow:
User-agent: *
Disallow: /rpc_relay.html
Disallow: /feeds
User-agent: googlebot
Disallow: /rpc_relay.html
Disallow: /feeds
Sitemap: http://webmmaster36.blogspot.ru//sitemap.xml
2..................................................
User-agent: Mediapartners-Google
Disallow:
User-agent: *
Disallow: /search
Allow: /
Sitemap:http://хххххх.blogspot.ru/feeds/posts/default?orderby=updated
Комментариев нет:
Отправить комментарий