Меню

настройка htaccess robots txt

Настройка файлов .htaccess и robot.txt: главное зеркало сайта и индексация

Здравствуйте, уважаемые читатели моего блога! В этой статье я расскажу о файлах .htaccess и robots.txt — как их грамотно настроить. Это крайне важные файлы, которые позволяют задать главное зеркало сайта (склеить домены с www и без), настроить индексацию страниц, создать редирект 301. Дополнительно рассмотрим порядок действий при переезде со старого домена на новый.

Файл .htaccess и главное зеркало сайта

Каждый интернет ресурс имеет два зеркала — с приставкой www и без нее. Чтобы поисковики не воспринимали эти зеркала как два разных сайта с одинаковым контентом, необходимо выбрать из них главное и настроить редирект 301 на него, со второго зеркала. Тогда оба зеркала поисковиками будут восприниматься как единое целое и не будет играть роли, на какое из них ссылаются сторонние сайты — редирект позволит автоматически перекидывать пользователя на нужный адрес. Для этого необходимо создать и настроить файл .htaccess. Дополнительно можно указать основное зеркало в Яндекс Вебмастер и Google — инструменты для веб-мастеров. Для поисковиков все равно, какое зеркало вы выберете основным, поэтому исходите из своих личных предпочтений.

Зайдите на ftp в корневую папку и проверьте наличие файла .htaccess. Файл является скрытым, поэтому ftp клиенты могут его и не отображать. В ftp клиенте FileZilla следует включит функцию «Принудительно отображать скрытые файлы» в разделе «Сервер».

Для редактирования или создания файла .htaccess можно воспользоваться любым текстовым редактором. Только при создании укажите имя .htaccess, не забыв про точку в начала. Пропишите в нем следующие строчки (или добавьте их к уже имеющимся):

Редирект 301 с зеркала www на без www:

Обратный вариант — редирект 301 с зеркала без www на с www:

Только не забудьте вписать свой URL адрес. После этого еще необходимо прописать директиву Host в фале robots.txt, о чем читайте в следующем пункте.

Robots.txt — настройка индексации страниц сайта

Файл robots.txt указывает поисковикам, какие страницы сайта им можно индексировать, а какие нельзя. Для его создания можно воспользоваться любым текстовым редактором, даже блокнотом. Так же как файл .htaccess, robots.txt следует загрузить на ftp в корневую папку. Теперь рассмотрим основные директивы, которые следует прописывать в robots.txt.

User-agent — в этой директиве прописываются поисковые боты, для которых действуют указанные ниже настройки. Если указать символ *, то настройки будут относится ко всем поисковикам:

Вот список имен ботов самых популярных поисковых систем:

После User-agent обязательно должна следовать директива Disallow или Allow .

Директива Disallow используется для запрета индексации всего сайта целиком или каких-то его страниц. Allow наоборот разрешает индексацию, в ней можно задавать исключения из правил, указанных в директиве Disallow.

Следует соблюдать следующие правила:

  • Недопустимо наличие пустых строк между директивами ‘User-agent’ и ‘Disallow’ (‘Allow’), а также между самими директивами ‘Disallow’ и ‘Allow’.
  • Перед каждой новой директивой ‘User-agent’ обязательно оставляйте пустую строку.
  • После названия директивы ставьте .
  • Allow и Disallow из соответствующего блока User-agent сортируются по длине URL (от меньшего к большему) и применяются последовательно. Если для данной страницы подходит несколько директив, то выбирается последняя в порядке появления в сортированном списке. Этот пункт будет более понятен после рассмотрения примеров, приведенных ниже.
  • при отсутствии параметров в директивах Allow и Disallow, индексация соответственно запрещается или разрешается для всех страниц сайта.

Теперь рассмотрим примеры, чтобы все стало более понятно.

Звездочка в директиве User-agent указывает на то, что приведенные ниже настройки относятся ко всем поисковикам. Отсутствие параметров в Disallow соответствует разрешению индексации всего сайта.

Настройки относятся только к роботу Гугла. Они предписывают запретить индексацию всего сайта, кроме страниц из /zapisi. Порядок следования Allow и Disallow не имеет значения, главное длина URL — в директиве Allow он длиннее, поэтому является исключением из правил, указанных в Disallow.

Читайте также:  настройка screen mirroring sony

Помимо этого можно использовать спец символы — «*» и «$»:

* — любая (в том числе пустую) последовательность символов. По-умолчанию в конце каждого правила добавляется символ «*»:

Это означает запрет индексации всех страниц, которые начинаются с «/indeksaciya», то есть /indeksaciya, /indeksaciya.html и другие. Символ $ позволяет отметить действие * , тем самым конкретизировать правило:

В этом случае запрет будет распространятся только на /indeksaciya, но не на /indeksaciya.html.

Директивы Host и Sitemap воспринимается только ботами яндекса и служат для указания главного зеркала и адреса карты сайта.

Обязательно отделите данный блок от остальных настроек robots.txt пустой строкой.

Порядок переезда со старого домена на новый

Переезд со старого домена на новый является частным случаем склейки зеркал сайта. Яндекс рекомендует два пути решения данной проблемы: через директиву Host в файле robots.txt или через настройку редиректа 301 со старого адреса на новый в .htaccess. Так как директиву Host понимает только Яндекс, то лучше подстраховаться и выполнить оба этих варианта.

1. Купите новый домен и хостинг.

2. Перенесите на новый сервер все содержимое своего интернет ресурса.

3. На старом сайте в файле robots.txt в директиве Host укажите новый URL адрес.

4. В файле .htaccess настройте редирект 301:

Не забывайте указывать именно главные зеркала — с приставкой www или без нее.

5. Склейка займет определенное время, на протяжении которого оба интернет портала должны быть доступны.

На этом все, спасибо за внимание! Подписывайтесь на новости блога. Всех вам благ!

Лучший способ выразить благодарность автору — поделиться с друзьями!

Узнавайте о появлении нового материала первым! Подпишитесь на обновления по email:

Следите за обновлениями в Twitter и RSS.

Эти статьи Вам могут быть интересны:

Обязательно отделите данный блог от остальных настроек robot.txt пустой строкой.

Наверное имелось ввиду данный блок:

Привет! Нет, эта фраза относится ко всему коду, представленному ниже, то есть с директивами User-agent и Disallow.

Пожалуйста

А вот ещё такой вопрос по поводу файла robots.txt .

То, что этот файл должен указывать поисковикам куда ходить, а

куда не ходить это понятно. Многие сайты даже предлагают

скачать «единственно правильные» robots.txt . Но дело в том, что

есть общие файлы, например, wp-login, wp-register, и эти файлы

в этих robots.txt указаны. Но у меня, например, есть и другие

файлы, в этой же директории, и с таким же расширением .php:

wp-load.php, wp-mail.php, wp-pass.php и т.д. Они в robots.txt

не указаны. И есть такие файлы и директории, которые в данном

robots.txt указаны, но нет в моей директории сайта. Сам robots.txt я использую чужой, так сказать «правильный». В связи с

этим вопрос: мне надо добавить все эти wp-*.php в свой robots.txt

и удалить те, которых у меня нет?

Здравствуйте! Я думаю, стоит оптимизировать его под реалии своего сайта.

Могу в качестве примера предложить свой robot.txt. Он универсальный и подойдет для любого блога на WordPress. Скачать robots.txt.

Свой роботс заменил на твой =

Опять обращаюсь к вам за помощью.

Всё пытаюсь настроить правильно индексацию нужных страниц и удалить из индексации не нужные. Пока у меня всё наоборот, свалка, одним словом.

В очередной раз решил просмотреть свой robots.txt и увидел, что у меня такая строчка есть: Disallow: /category/*/* . То-есть, насколько я сейчас понимаю, это как раз и есть воспрепятствование поисковикам индексировать страницы. У меня как раз так: /название-категории/название-страницы.html . То-есть получается, мне надо прописать Disallow: /category/, и Allow: /category/*.html , верно?

Читайте также:  mac os настройка впн

И как закрыть от индексации такие дубли: /category/*.html#more-№ ?

Здравствуйте! Я бы порекомендовал не запрещать индексацию категорий. Пусть они состоят фактически из дублированного контента, но при этом являются связующим звеном между главной страницей и записями блога, что значительно влияет на перелинковку страниц. Так что строчку Disallow: /category/*/* я бы просто удалил.

Теперь что касается дублей вида /category/*.html#more-№. В WordPress для борьбы с дубликатами страниц используются Canonical URLs. Они показывают поисковикам, какая из страниц основная, а какие просто черновики и копии. За автоматическое создание Canonical URLs отвечает плагин All in One Seo Pack или его аналог All in One Seo Pack.

Дмитрий! Огромное спасибо за консультации! Успехов вам на поприще

Спасибо за добрые пожелания!

уточните пожалуйста, в уроке про склейку доменов с www и без

или вместо adres_saita.ru надо поставить имя своего сайта, как в предыдущей строке?

Впишите имя своего сайта.

Как перенаправить категорию сайта вмести со всеми материалами?

Можно перенаправлять только отдельную страницу сайта.

Я чёт не пойму в файл .htaccess нужно оба эти кода вставлять или только один в зависимости от того какой домен с WWW или без WWW??

Только один из них, смотря какой вариант больше нравится.

Вот еще одна беда. При использовании 301 редиректа яша не видит файл роботс. Как его исключить из перенаправления?

RewriteRule (.*)$ www . newsite.com/$1 [R=301,L] — не работает

Доброе утро! Склейка доменов с www и без не должна влиять на файл robot.txt. Попробуйте добавить его в Яндекс через панель Вебмастера.

Я не правильно истолковал вопрос. Дико извиняюсь. Мне нужно склеить два домена. Я понимаю как это сделать поочередно для яши и гугла, но вот вместе мало вероятно получится, так как при 301 редиректе с одного сайта на другой(одинаковая структура) файл роботс не читается с первого сайта,, его тоже редиректит. То есть нужно каким то образом внести его в список исключений. Вот что мне нужно. Заранее спасибо за советы.

Хитрый вопрос В старом файле robot.txt в директиве Host укажите новый URL адрес сайта, а новый robot.txt можно попробовать добавить в Яндекс и Гугл вебмастер.

Ну дак в том то и дело, что старый файл не может прочитать из за его перенаправления.

Да и фиг с ним тогда. Пусть поисковики уже начинают новый читать Раз уж на все стоит 301, то поисковики должны понять, что проходит склейка доменов.

Ну яндекс тоже вроде понимает 301 редирект и инструкция хост в роботс может помочь склеить быстрее. Не чего не остается кроме чем ждать. Кстати я тоже связист)

а что заканчивал?

Такой вот вопрос: Что необходимо прописать, чтобы закрыть с индекса архив?

Создайте на ftp новую папку и закиньте в нее архив. После этого запретите поисковым системам индексировать эту папку:

Странно. Я так понимаю речь идет о файле archiv.php! Дело в том, что в своей теме я его еще даже не создавал, т.е. его у меня нету.

Есть идеи? На других ресурсах советуют Disallow: /2010/ и т.д. Пока скопировал Robots с этого блога, посмотрим что Яндекс проиндексирует в следующий раз.

Дима, привет, установил Wp Super Cache. Постоянно глючит блог теперь, менял настройки, в разделе «Настройки».

Вылазит постоянно: Внимание: Среди правил mod_rewrite обнаружены правила от Supercache. Для работы с кэшем будут использоваться они. Чтобы удалить эти правила, Вам нужно вручную отредактировать файл .htaccess.

Как это исправить, подскажи?

Читайте также:  настройка для тач пада

Т.е. происходит следующее. Блог тупо не грузится. Через 5 минут — все нормально. Это происходит в разных браузерах.

В настройках ставил галочки и в Использовать mod_rewrite для обслуживания кэша. (Рекомендовано)и в Использовать PHP для обслуживания кэша.

У меня стоит галочка в «Использовать mod_rewrite для обслуживания кэша. (Рекомендовано)». Работает норм. Можешь попробовать плагин Hyper Cache — там я вообще настройки никакие не трогаю.

про .htaccess хорошо расписал. Что-то даже для себя взял, молотог!

С файлом robots.txt у меня, вроде, все в порядке, а вот файл .htaccess я не знаю что это и зачем он я тоже не поняла из вашей статьи. Но это не потому, что вы плохо объясняете, а потому, что я новичок и не поняла не про зеркала, не про этот файл.

Все, что я слышала об файле .htaccess, что он нужен для безопасности сайта. В нем прописывается IP адрес и файл загружается на хостинг в wp-admin. Тем самым другой IP адрес не сможет войти в админ панель сайта. Я правильно говорю или нет? Я что-то такое слышала.

Есть вопрос по склейке 2-сайтов

4 года назад был создан интернет-магазин umishki.com.ua

весь контент был копипастовский и поэтому, когда мы решили продвигать этот сайт ,нам указали на полное отсутствие уникального контента и посоветовали сделать новый сайт.

2 года назад был создан новый umishutki.com.ua- на этот раз с уникальным контентом. Сеошники посоветовали не ставить никакие зеркала, а просто сделать сквозную ссылку со всех страниц старого на главную страницу нового сайта.

На данный момент старый сайт мне не нужен — тк товары там уже не актуальные. Движки на обоих сайтах разные, товары могут повторяться процентов на 30, но контент абсолютно разный. контакты хостинг и владельци сайтов одинаковые.

Как выяснилось недавно- сквозная ссылка и незазеркаленный старый сайт — это фильтры гугла на мой новый сайт( возможно фильтр аффилиатов, фильтр за сквозную ссылку).

В новом сайте и старом в основном индексе находится где то по 250 страниц. остальное под фильтрами.

Задача- избавиться от старого сайта, но при этом по максимуму передать все его показатели эффективности и трафик на новый сайт, не потеряв их, но и не повредить новому сайту никак.

1) снял сквозняк со старого сайта

2) в Гугл вебмастере нового сайта отказался от этих сквозных входящих ссылках.

3) в robots.txt старого сайта прописал хост и сайтмэп на новый сайт.

1) нужно ли выставлять редирект со старого или зеркало.

2) если делать редирект- то можно ли сделать со всех старых на главную нового? ТК товары далеко не все пересекаются, а даже если и пересекаются, то контент везде разный.

3) может с некоторых страниц старого сайта (которые не под фильтром) нужно сделать редиректы на страници нового сайта, а остальные просто убить?

4) на новом сайте только уникальный контент, товары все время добавляются, но при этом год назад в основном индексе гугла было 400 страниц, а сейчас их 250.

В этом разбираюсь не очень хорошо, но начинаю реально понимать, как и что после того, как мне все это становится необходимо.

А как склеить два разных домена, сайт на джумле

Спасибо за статью. Но я немного побольше хотел бы знать про файл htaccess, а не только настройку 301-го редиректа.

Скажите пожалуйста, после Disallow: у меня стоит вопросительный знак, его нужно стирать? Disallow: /?

Ребята! Подскажите как выставить редирект с одной страницы сайта на другую?

и как закрыть станицу от индексации если она не работает.

источник