Мусорные страницы 404 оставленные парсерами

Мусорные страницы 404

Добрый день уважаемые читатели и гости сайта, сегодня я хочу с вами поговорить о такой проблеме как парсинге и его последствиях для вашего сайта. Как только ваш ресурс становится популярным, на него начинают охоту всякие сайты дорвеи и парсинговые пауки, скачивающие ваш контент и генерируя на его основе свои говносайты, тем самым забивая интернет ворованным и дублирующим контентом, из-за чего может и пострадать ваш ресурс, и ладно бы просто парсили, так делают так, что в результате таких обходов, поисковые пауки оставляют кучу несуществующих страниц 404, которые попадают в индекс и плохо влияют на ваши позиции. Давайте смотреть как это находить и пресекать.

Чем плохи 404 страницы

Для начала давайте поймем, чем это плохо:

  • Во-первых дубль контента, который не очень любит поисковая система, в результате чего может получиться так, что первоисточником будет считаться своровавший у вас сайт, а вы будите в роли вора, за что сразу получите пинальти от Google или Yandex.
  • Из-за специфической работы различных движков, в результате парсинга могут появляться несуществующие 404 страницы, попадающие в индекс, все их вы не сможете закрыть в файле robots.txt, это не возможно. Поисковые системы не любят 404 ошибки и за это песемизируют сайты.
  • Увеличивается нагрузка на хостинг

Как найти 404 страницы

Я уже подробно рассказывал про поиск несуществующих страниц сайта тут лишь приведу примеры, как это выглядит:

  • В плагине перенаправление есть соответствующий раздел, в котором отображаются все эти пропавшие или несуществующие страницы WordPress (​/email-newsletter-signup​/, ​/elemente-fier-forjat​/vopsea-si-grund, ​/ever-thought-of-a-cell-phone-as-a-romantic-gift.html и другое барахло), обратите внимание, что все они идут с одного и того же ip адреса, который мы потом забаним.

несуществующие страницы WordPress-1несуществующие страницы WordPress-2И что самое плохое, поисковые системы это могут спокойно проглатывать, и закидывать в поисковый индекс. Вот пример Яндекса, через сервис webmaster. Тут вы видите два значения:

  • Загружено
  • В поиске

Как видно, он загрузил почти 1000 страниц непонятного хлама.

мои сайты Яндекс вебмастер

Если в кабинете вебмастера зайти в пункт "Индексирование > Статистика обхода"

Статистика обхода

То отфильтровав код ответа на 404 (Not Found) вы можете посмотреть, что у вас не находится. В примере видно, что есть страницы у которых в конце формата jpg добавляется еще 1, и логично что вас такой не будет, и таких примеров очень много.

обход ботом 404 страниц

Теперь зная ip адрес злоумышленика вы легко сможете его заблокировать, как это делать я писал тут про файл .htaccess. Надеюсь вам пригодится эта маленькая заметка и вы сможете избежать кучи мусора на вашем ресурсе и выглядеть в глазах поисковой системы в хорошем свете.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *