Создаем правильный robots.txt для uCoz - uGuide.ru

Создаем правильный robots.txt для uCoz

  • Обновлено:
    2012-12-27
  • Просмотры:
    23758
  • Отзывы:
    12
  • Рейтинг: 9.6
Robots.txt – это текстовый файл в корне сайта со специальными инструкциями для поисковых роботов. В нем вы можете указать поисковикам как индексировать ваш сайт.

По-умолчанию системой подгружается "стандартная заглушка", в которую добавлено большинство "правильных" команд, но все же их бывает не достаточно.

Напоминаю, что новый сайт на юкозе находится на т.н. "карантине", то есть он запрещен к индексации поисковыми системами (Яндексом и Google). Карантин – это испытательный период, который дается вашему сайту, чтобы доказать свою "серьезность". На время карантина вам стоит продумать структуру сайта, наполнить его уникальным контентом, подчистить шаблон, купить и прикрепить домен, обзавестись социальными аккаунтами и т.д.

Снять карантин можно сразу, для этого нужно подключить платный пакет услуг "Базовый" или выше на выбор и карантин снимется без каких-либо условий.

После снятия карантина вы получите свободный доступ к robots. Вот так выглядит стандартный файл robots.txt от uCoz:

Код
User-agent: *
Allow: /*?page
Allow: /*?ref=
Disallow: /*?
Disallow: /stat/
Disallow: /index/1
Disallow: /index/3
Disallow: /register
Disallow: /index/5
Disallow: /index/7
Disallow: /index/8
Disallow: /index/9
Disallow: /index/sub/
Disallow: /panel/
Disallow: /admin/
Disallow: /informer/
Disallow: /secure/
Disallow: /poll/
Disallow: /search/
Disallow: /abnl/
Disallow: /*_escaped_fragment_=
Disallow: /*-*-*-*-987$
Disallow: /*0-*-0-17$
Disallow: /*-0-0-
Host: site.ru

Sitemap: http://site.ru/sitemap.xml

Если вы хотите внести какие-то правки – вам необходимо отредактировать текстовый файл robots.txt в корне своего сайта и уже в него вносить изменения. В этом случае системой будет отдаваться ваш кастумный robots.txt

В принципе базовый файл настроен правильно – все лишнее от индексирования закрыто. Но как говорится нет предела совершенству и поэтому я немного изменил его содержание "под себя".

Не так давно я уже писал заметку о некоторых дублях страниц, которые были найдены на сайте – поэтому у меня уже есть правило, которое убирает с индекса эти "ляпы" системы. 

Но недавно появились новые "дубли": 

  • https://uguide.ru/news/ucoz_shablon_dlja_detskogo_sada/2012-11-29-31 – правильный урл

  • https://uguide.ru/news/ucoz_shablon_dlja_detskogo_sada/2012-11-29-31&post=-28741529_11198 – дубль

Поисковые системы очень негативно относятся к наличию дублированного контента в индексе. Поэтому подобные урлы нужно закрыть. Устранить саму причину появления невозможно, так что будем бороться с последствиями. В данном случае строкой: 

Код
Disallow: /*&*

Теперь файл robots.txt для моего сайта настроен правильно и должен устранить "ляпы" системы (которые проявили себя на данный момент на модуле Блог).

После всех изменений рекомендую проверить корректность составленного robots в панеле Яндекс.Вебмастер – http://webmaster.yandex.ru/robots.xml.

Делается это вот так:

Проверка файла robots.txt

Как видно на скриншоте результаты проверки подтверждают корректность правил. На этом все, спасибо за внимание :)

P.S:

Если у вас возникли какие-то сложности или остались вопросы – их можно задать через комментарии, или соцсети... Также не лишним будет прочесть официальный мануал от Яндекса: https://yandex.ru/support/webmaster/controlling-robot/robots-txt.xml.

  • Автор:

no avatar

Комментариев:12

nigga
Ruslan Madiev • 14:40, 2016-10-04
Подскажите, пожалуйста, возможно ли в роботсе закрыть целый модуль, допустим "Каталог файлов"?
tdt
vk
tet • 07:31, 2016-09-03
Здравствуйте! В файловом менеджере у меня на сайте самого роботса нет, а при проверке в яндексе, показывает, что есть. Где-то , по умолчанию, он видимо есть. А где? И как его изменить, добавить свой новый в файловый менеджер? И как яндекс воспримет их оба, какой будет использовать, не выдаст ли ошибку, что их два.
нет аватара
Sergey Kubarev • 23:06, 2015-12-03
Здравствуйте. Не могу найти в ФМ свой робот.тхт Забиваю кв адресной строке .http://адрес моего сайта.ru/robots.txt и выходит
User-agent: *
Disallow: /
как его исправить подскажите пожалуйста?????!
нет аватара
Виталик Антонов • 19:15, 2015-07-17
Скажите пожалуйста , будет ли индексироваться мой сайт?
http://inst-vk.at.ua/robots.txt
нет аватара
Никита Кузовлёв • 12:24, 2015-06-10
Помогите пожалуйста,фото которые я выкладываю на сайт не показываются в поисковиках,что делать?
uGuide: Это ваш сайт kolodec-igla.ucoz.ru ? Если да, то нужно открыть сайт для индексации поисковыми системами. Сейчас ваш сайт не индексируется: kolodec-igla.ucoz.ru/robots.txt
didicgami
vk
Игорь Жуков • 17:24, 2015-04-28
Спасибо тебе большое  respect
нет аватара
Дмитрий • 21:48, 2015-03-27
ДОбрый день. У меня почему-то в панели Яндекс.Вебмастер,, на главную страницу моего сайта, пишет ошибку "Страница исключена роботом. Причина: HTTP-статус: Внутренняя ошибка сервера (500)."
В чём проблема? Спасибо.
uGuide: Возможно, на момент обхода поисковиком ваш сайт был временно не доступен. Ждите следующей переиндексации, должно быть все нормально.
Покажите свой сайт
нет аватара
Fuad Tahmazov • 20:57, 2014-12-27
Всем привет,кто знает как запретить индексацию виджетов на cms wordpress ?
ksuxaz1988
vk
Ксения Сапрыкина • 10:54, 2014-12-12
Огромное при огромное Спасибо)))сделано
ksuxaz1988
vk
Ксения Сапрыкина • 21:08, 2014-12-11
Что вписать понятно, а где этот файл найти , написано везде в корне сайта находится robots , а где этот корень искать ??? Web-программисты не смейтесь сильно с моего вопроса))))
uGuide: Нужно зайти в "Панель управления" своего сайта (site.ucoz.ru/admin) и перейти в "Файловый менеджер" - это и есть корень сайта. Там должен быть текстовый файл robots.txt. Если роботса там нету, то его можно создать у себя на компьютере с помощью Блокнота и загрузить через Файловый менеджер в корень своего сайта.


ksuxaz1988
vk
Ксения Сапрыкина • 15:06, 2014-12-11
А как вообще закрыть индексацию сайта, так как я уже подключила пакет, а сайт не наполнила?
uGuide: Что бы закрыть сайт от индексации, нужно в файл robots.txt добавить такое правило:

Код
User-agent: *
Disallow: /

Чтобы индексировался правильный урл можете добавить код <link rel="canonical" href="$ENTRY_URL$" />
нет аватара
Само Саакян • 18:48, 2013-09-16
У меня вот такие дубли
/load/filmer/no_comment_nerkayacowm/3-1-0-40
/load/filmer/no_comment_nerkayacowm/3-1-0-40/
Скажите пожалуйста а как запретить индексацию вот этого второго варианта с последнем / ?
Добавить комментарий