Когда ваш проект начинает расти и у него появляются тысячи публикаций, следует очень внимательно следить за его индексацией, так как сколько бы вы не создавали новых страниц, их отсутствие в поисковом индексе не приведет вам читателя и будет бессмысленным. На минувшем месяце я на одном из своих крупных проектов наткнулся на интересую ситуацию, я выпустил цикл новых статей, отправил их на ручную индексацию Google и забыл, какого же было мое удивление, когда я их не обнаружил в индексе гугла, а в Яндексе все появилось буквально через минуту. Начав копать я обнаружил, что они имеют статус "Страница Обнаружена, не просканирована". Давайте разбираться из-за чего они получили такой статус и как это исправить.
Что означает статус "Страница Обнаружена, не просканирована"
В Google Search Console есть раздел "Покрытие" в котором вебмастер может отслеживать состояние страниц на его ресурсе:
- Ошибка - Это самое важное из данного представления
- Без ошибок, но есть предупреждения
- Страниц без ошибок - их должно быть максимальное количество
- Исключено - тут нужно особенно изучить все, так как там могут быть проблемы.
Если пролистать немного ниже, заведомо выбрав пункт "Исключено", то можно очень детально посмотреть состав исключенных страниц, тут то я и обнаружил раздел с "Страница Обнаружена, не просканирована".
Перейдите в него и вы увидите состав данных страниц, вот мои бывшие примеры:
- http://pyatilistnik.org/how-to-turn-your-photos-into-a-beautiful-movie/
- http://pyatilistnik.org/dell-r740-server-testing/
- http://pyatilistnik.org/netapp-create-aggregate-command-line-howto/
- http://pyatilistnik.org/skachat-ibm-advanced-settings-utility-asu-9-63-dlya-linux/
- http://pyatilistnik.org/how-to-install-the-operating-system-on-the-dell-r740/
- http://pyatilistnik.org/error-rac0509-the-server-temporalily-unavailable/
Что значит обнаружена, не проиндексирована - Это сообщение означает, что мы нашли страницу, но пока не добавили ее в индекс Google. Обычно это объясняется тем, что роботу Google не удалось просканировать сайт, поскольку это могло привести к чрезмерной загрузке ресурса, и сканирование было перенесено на более поздний срок. Именно поэтому в отчете не указывается дата последнего сканирования.(https://support.google.com/webmasters/answer/7440203?hl=ru)
Поиск проблем и причин
Когда при индексации вы видите подобный статус страницы, то с большой вероятностью когда пришел Google-bot отвечающий за сканирование ваших страниц, он осознал, что создает большую нагрузку на ваш ресурс. Дабы его не положить он откладывает данный процесс на неизвестное время и старается вас меньше напрягать. Что это значит для нас, это очень плохо, так как страницы не будут индексироваться, значит не будет трафика и далее заработка.
Что делать, нужно смотреть нагрузку на сайт. Первым делом вам необходимо зайти на ваш сервер или хостинг и проанализировать логи. В моем случае, это хостинг. Открыв админку, я увидел сильную нагрузку на сайт и на базу данных, выглядело это вот так. Обычно в пиковые значения нагрузка на БД не превышала 5-6%, что меня очень заинтересовало.
Далее я пошел в отчеты в Google Search Console. Раздел "Настройки - Статистика сканирования". Нажмите "Открыть отчет".
Нас будет интересовать среднее время ответа, это по сути аналог PING, при обращении к хосту. Как видите у меня он в среднем был 260, а затем резко подскочил до 700. Потом то, я нашел причину и он уменьшился, как вы видите по графику, но это успело повлиять на ресурс, и бот стал слегка осторожнее при обходе.
Вспоминая хронологию действий я понял, что причиной всему стало обновление плагина WordPress под названием WP Super Cache. И реально я заметил, что на хостинге в статистике была нагрузка, так как будто сайт работает без кэширующего плагина. Что я сделал, я полностью удалил кэш, а затем провел его тестирование, в итоге штампы совпадают, значит все хорошо.
На следующий день я проверил статистику по нагрузке на хостинге, в итоге увидел привычную картину.
Так же я проверил скорость загрузки сайта в Google через сервис, в итоге все вернулось в зеленую зону.
Дополнительно
- Обязательно учитывайте свой краулинговый бюджет сайта, постарайтесь, чтобы у вас если страницы не изменяются, то отдавался 304 код и заголовок Last Modified. Это можно увидеть в отчете.
Проверить заголовок Last Modified можно на вот этом ресурсе "https://lastmodified.ru/". Например, я проверю статью "Какими компаниями владеет Сбербанк".
Last-Modified найденВаш сервер отдал корректный заголовок Last-Modified.
Last-Modified: Wed, 04 Aug 2021 20:50:03 GMT Server: nginx Date: Wed, 04 Aug 2021 20:50:04 GMT Content-Type: text/html; charset=UTF-8 Content-Length: 62130 Connection: keep-alive Keep-Alive: timeout=5 Vary: Accept-Encoding, Accept-Encoding,Cookie X-Powered-By: PHP/7.3.2 Cache-Control: max-age=3, must-revalidate
Код ответа: 200 Время ответа: 0.22 сек. Размер: 62.13 Кб.
- Уменьшите количество 404 страниц, удостоверьтесь, что они не индексируются
- Создайте правильный файл robots.txt, чтобы исключить от индексации разные технические страницы.
- Постарайтесь нарастить ссылочную массу, на страницы у которых статус "Страница Обнаружена, не просканирована"
- Создайте карту сайта в формате XML
- Попробуйте уменьшить количество страниц, если среди них есть незначимые
Через некоторое время ваши выпавшие из индексации страницы появятся в индексе, можете периодических их пытаться засунуть в ручную Google Search Console через кабинет.
Что то вы, батенька, напутали.
Нет в Покрытии GSC такого статуса для страниц — Страница Обнаружена, не просканирована.
Страница может быть «Обнаружена, не проиндексирована» или «Страница просканирована, но пока не проиндексирована».
Поправьте по тексту пожалуйста.
Спасибо!
У меня на сайте все было то же самое. Где-то с конца марта перестали страницы индексироваться «Обнаружена, не проиндексирована Статус: Исключено». Много думал чего, предпринимал и ничего так прям сильно не помогало. Но потом через google cloud API прогнал страницы, и да все страницы влетели в индекс примерно через несколько дней.. Я так решил проблему.