Решено: Страница Обнаружена, не просканирована

Решено: Страница просканирована, но пока не проиндексирована

Когда ваш проект начинает расти и у него появляются тысячи публикаций, следует очень внимательно следить за его индексацией, так как сколько бы вы не создавали новых страниц, их отсутствие в поисковом индексе не приведет вам читателя и будет бессмысленным. На минувшем месяце я на одном из своих крупных проектов наткнулся на интересую ситуацию, я выпустил цикл новых статей, отправил их на ручную индексацию Google и забыл, какого же было мое удивление, когда я их не обнаружил в индексе гугла, а в Яндексе все появилось буквально через минуту. Начав копать я обнаружил, что они имеют статус "Страница Обнаружена, не просканирована". Давайте разбираться из-за чего они получили такой статус и как это исправить.

Что означает статус "Страница Обнаружена, не просканирована"

В Google Search Console есть раздел "Покрытие" в котором вебмастер может отслеживать состояние страниц на его ресурсе:

  1. Ошибка - Это самое важное из данного представления
  2. Без ошибок, но есть предупреждения
  3. Страниц без ошибок - их должно быть максимальное количество
  4. Исключено - тут нужно особенно изучить все, так как там могут быть проблемы.

Google Search Console раздел "Покрытие"

Если пролистать немного ниже, заведомо выбрав пункт "Исключено", то можно очень детально посмотреть состав исключенных страниц, тут то я и обнаружил раздел с "Страница Обнаружена, не просканирована".

"Страница просканирована, но пока не проиндексирована" в разделе исключено

Перейдите в него и вы увидите состав данных страниц, вот мои бывшие примеры:

список страниц "Страница просканирована, но пока не проиндексирована"

Что значит обнаружена, не проиндексирована - Это сообщение означает, что мы нашли страницу, но пока не добавили ее в индекс Google. Обычно это объясняется тем, что роботу Google не удалось просканировать сайт, поскольку это могло привести к чрезмерной загрузке ресурса, и сканирование было перенесено на более поздний срок. Именно поэтому в отчете не указывается дата последнего сканирования.(https://support.google.com/webmasters/answer/7440203?hl=ru)

Поиск проблем и причин

Когда при индексации вы видите подобный статус страницы, то с большой вероятностью когда пришел Google-bot отвечающий за сканирование ваших страниц, он осознал, что создает большую нагрузку на ваш ресурс. Дабы его не положить он откладывает данный процесс на неизвестное время и старается вас меньше напрягать. Что это значит для нас, это очень плохо, так как страницы не будут индексироваться, значит не будет трафика и далее заработка.

Что делать, нужно смотреть нагрузку на сайт. Первым делом вам необходимо зайти на ваш сервер или хостинг и проанализировать логи. В моем случае, это хостинг. Открыв админку, я увидел сильную нагрузку на сайт и на базу данных, выглядело это вот так. Обычно в пиковые значения нагрузка на БД не превышала 5-6%, что меня очень заинтересовало.

График нагрузки на сайт

Далее я пошел в отчеты в Google Search Console. Раздел "Настройки - Статистика сканирования". Нажмите "Открыть отчет".

Настройки в Google Search Console

Нас будет интересовать среднее время ответа, это по сути аналог PING, при обращении к хосту. Как видите у меня он в среднем был 260, а затем резко подскочил до 700. Потом то, я нашел причину и он уменьшился, как вы видите по графику, но это успело повлиять на ресурс, и бот стал слегка осторожнее при обходе.

Среднее время ответа в Google Search Console

Вспоминая хронологию действий я понял, что причиной всему стало обновление плагина WordPress под названием WP Super Cache. И реально я заметил, что на хостинге в статистике была нагрузка, так как будто сайт работает без кэширующего плагина. Что я сделал, я полностью удалил кэш, а затем провел его тестирование, в итоге штампы совпадают, значит все хорошо.

Проверка кэширования WP Super Cachе

На следующий день я проверил статистику по нагрузке на хостинге, в итоге увидел привычную картину.

График нагрузки на сайт

Так же я проверил скорость загрузки сайта в Google через сервис, в итоге все вернулось в зеленую зону.

Скорость загрузки сайта в Google

Дополнительно

  • Обязательно учитывайте свой краулинговый бюджет сайта, постарайтесь, чтобы у вас если страницы не изменяются, то отдавался 304 код и заголовок Last Modified. Это можно увидеть в отчете.

Last Modified in Google Search Console

Проверить заголовок Last Modified можно на вот этом ресурсе "https://lastmodified.ru/". Например, я проверю статью "Какими компаниями владеет Сбербанк".

Проверка Last Modified

Last-Modified найден

Ваш сервер отдал корректный заголовок Last-Modified.

Last-Modified: Wed, 04 Aug 2021 20:50:03 GMT
Server: nginx
Date: Wed, 04 Aug 2021 20:50:04 GMT
Content-Type: text/html; charset=UTF-8
Content-Length: 62130
Connection: keep-alive
Keep-Alive: timeout=5
Vary: Accept-Encoding, Accept-Encoding,Cookie
X-Powered-By: PHP/7.3.2
Cache-Control: max-age=3, must-revalidate
Код ответа:    200
Время ответа:  0.22 сек.
Размер:        62.13 Кб.

Ваш сервер отдал корректный заголовок Last-Modified

  • Уменьшите количество 404 страниц, удостоверьтесь, что они не индексируются
  • Создайте правильный файл robots.txt, чтобы исключить от индексации разные технические страницы.
  • Постарайтесь нарастить ссылочную массу, на страницы у которых статус "Страница Обнаружена, не просканирована"
  • Создайте карту сайта в формате XML
  • Попробуйте уменьшить количество страниц, если среди них есть незначимые

Через некоторое время ваши выпавшие из индексации страницы появятся в индексе, можете периодических их пытаться засунуть в ручную Google Search Console через кабинет.

Решено: Страница Обнаружена, не просканирована: 2 комментария

  1. Что то вы, батенька, напутали.
    Нет в Покрытии GSC такого статуса для страниц — Страница Обнаружена, не просканирована.
    Страница может быть «Обнаружена, не проиндексирована» или «Страница просканирована, но пока не проиндексирована».
    Поправьте по тексту пожалуйста.
    Спасибо!

  2. У меня на сайте все было то же самое. Где-то с конца марта перестали страницы индексироваться «Обнаружена, не проиндексирована Статус: Исключено». Много думал чего, предпринимал и ничего так прям сильно не помогало. Но потом через google cloud API прогнал страницы, и да все страницы влетели в индекс примерно через несколько дней.. Я так решил проблему.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *