Обход сайта поисковыми роботами

Обход сайта поисковыми роботами 3. Техническое SEO

В этой статье рассматривается обход сайта поисковыми роботами – сканируемость. Мы рассмотрим, что такое сканируемость.

И почему важно понимать возможность сканирования, если вы владеете или поддерживаете веб-сайт.  

Кроме того, мы рассмотрим, как плагин Yoast SEO заботится о многих аспектах сканирования для вас.

Что такое обход сайта поисковыми роботами?

Ранжирование в поисковых системах требует безупречного технического SEO.  Для большинства людей это звучит немного  страшно.   К счастью, плагин Yoast SEO заботится почти обо всём, что связано с техническим SEO на вашем сайте.  

Тем не менее, если вы действительно  хотите  получить максимальную отдачу от своего  сайта, некоторые базовые знания технического  SEO являются обязательными.  

Одним из   наиболее важных аспектов технического SEO является сканируемость – обход сайта поисковыми роботами. Поэтому мы начнём этот технический раздел SEO с объяснения сканируемости.

Поисковый робот

Давайте вернёмся к понятию поискового робота.

Поисковая система, такая как Google, состоит из сканера, индекса и алгоритма. Сканер, также называемый пауком, роботом или просто ботом, переходит по ссылкам.  

Когда сканер просматривает ваш сайт, он читает ваши сообщения и страницы. И добавляет контент в гигантскую базу данных, называемую индексом.

Этот индекс обновляется каждый раз, когда сканер приходит к вашему сайту и находит его новую или пересмотренную версию.

В зависимости от того, насколько важным Google считает ваш сайт и количество изменений, которые вы вносите на свой сайт, поисковый робот появляется более или менее часто.

Возможность обхода сайта – сканируемость

Но что такое сканируемость? Сканирование связано с возможностями Google  сканировать  ваш сайт.  Эти возможности могут быть ограничены несколькими  способами.  

Hidden Content

Вы можете заблокировать сканер от сканирования и индексации вашего сайта. Или определенных страниц на вашем сайте.

Если ваш сайт или страница на вашем сайте заблокированы, вы говорите сканеру Google: «Не заходите сюда».  Ваш сайт или соответствующая страница не будут отображаться в результатах поиска в большинстве этих случаев.

Зачем блокировать обход сайта или страницы?

Но почему вы не хотите, чтобы ваш сайт или страница на вашем сайте не сканировались? И не индексировались?  

Некоторые из страниц на вашем сайте служат определенной цели. Но эта цель не в ранжировании в поисковых системах. Или даже в получении трафика на ваш сайт.  

Например, вы бы не хотели, чтобы люди видели ваши страницы администратора и входа в Google. Люди также не хотят попадать на страницу благодарности.

Страницу, которая не служит никакой другой цели, кроме как поблагодарить клиента за покупку чего-либо. Или подписку на новостную рассылку.

Что может помешать Google делать обход вашего сайта?

Давайте обсудим три метода, чтобы предотвратить обход или индексацию вашего сайта Google.

Файл robots.txt

Вы можете создать .txt файл (текстовый файл) с именем robots.txt. Для того чтобы сказать Google не сканировать страницу или часть вашего сайта.

Прежде чем бот поисковой системы сделает обход любой страницы, с которой он раньше не сталкивался, он откроет файл robots.txt для этого сайта. Файл robots.txt сообщит сканеру, какие URL-адреса на этом сайте ему разрешено посещать.

Таким образом, используя файл robots.txt, вы можете сказать поисковому роботу, куда он не должен заходить на вашем сайте.

Файл robots.txt всегда имеет один и тот же URL-адрес: https://site.ru/robots.txt.  

Вы можете просто использовать текстовый редактор. Для чтобы создать свой текст и загрузить его на сайт, который мы только что упомянули.

 Разработчики Yoast SEO, например, обсуждают содержание файла robots.txt в их курсе технического SEO.

Тем не менее, ваши роботы.txt не могут запретить поисковой системе показывать URL-адрес в результатах поиска.  Это означает, что блокировка поискового сканера на определенной странице  не гарантирует, что URL не будет отображаться  в результатах поиска.  

Если поисковая система найдёт достаточно ссылок на этот URL, она включит его. Она просто не будет знать, что находится на этой странице.

Заголовок HTTP

Также можно использовать заголовок HTTP, чтобы предотвратить сканирование и индексацию страницы поисковыми системами.

Заголовок HTTP содержит код состояния, который представляет собой сообщение. Сообщение, которое сервер отправляет, когда запрос, сделанный браузером, может или не может быть выполнен.

Если этот код состояния говорит, что страница не существует, поисковая система не будет сканировать страницу.

Существует несколько кодов состояния с различными значениями. Если код состояния равен, например, 200, страница существует. И Google может выполнить обход страницы.

Однако, если код состояния равен 307, страница была перенаправлена на другой URL-адрес. И Google не будет сканировать текущий URL-адрес.

Метатеги роботов

Последний метод, который мы обсудим – это использование мета тегов роботов на ваших страницах. Вы можете использовать  метатеги роботов, чтобы запретить Google индексировать страницу.

Обратите внимание, что Google фактически сканирует страницу. Однако вы можете запретить Google индексировать страницу.   

Метатеги роботов — это короткие фрагменты кода. Фрагменты, которые говорят Google, что он может и не может делать. Мы не будем вдаваться в подробности, но давайте рассмотрим варианты.

Существует довольно много значений мета тегов робота сканирования, но  мы будем придерживаться основ. Чтобы запретить Google добавлять страницу в свой индекс, вы можете использовать значение noindex на этой странице.

Затем Google просканирует страницу, но не добавит её в свой индекс. Противоположным значением noindex является index.

Другим полезным   мета тегом роботов является значение nofollow.  Если вы обращали   внимание, вы уже знаете, что сканер переходит по ссылкам на странице.

Значение nofollow указывает сканеру вообще не переходить по ссылкам на определенной странице. Противоположностью  значения nofollow является follow значение.

Вам не нужно вручную задавать индекс и следовать значениям.  

Они являются значениями по умолчанию для любой страницы, с которой столкнется поисковый робот. Давайте рассмотрим конкретный пример кода.

Если вы хотите запретить поисковым роботам индексировать вашу страницу и переходить по ней, этот код вы должны поместить в <head> вашей страницы:

<meta name=”robots” content=”noindex, nofollow”>

 Конечно, вы можете поиграть с ценностями, чтобы отразить ситуацию, которую вы хотите достичь.

Диаграмма flow на изображении 1 может помочь вам понять процесс. Процесс, которому следуют сканеры при попытке индексировать страницы.

Возможность обхода сайта и плагин Yoast SEO

Тема обхода сайта роботами может быть немного утомительной, если у вас нет технического опыта.

Вот почему разработчики заботятся о многих аспектах сканирования для пользователей в плагине Yoast SEO.   

Давайте посмотрим, что такое плагин делает, и посмотрите, какие опции у вас есть.  Чтобы   убедиться, что Google индексирует именно то, что вы хотите показывать в результатах поиска.

Добавление тега noindex для различных типов контента

Yoast SEO позволяет определить,какой из указанных типов контента вашего сайта, отображался в результатах поиска.

Эти настройки можно найти на вкладке “Типы контента” настроек “Внешнего вида поиска” плагина. Для каждого типа контента он спрашивает вас,  хотите ли вы,  чтобы поисковые системы помещали его в результаты поиска.  

Если вы выберете «нет», он добавит метатег noindex на эти страницы. Добиваясь, чтобы боты не помещали  этот тип контента в свой индекс.  

В настройках внешнего вида поиска это можно сделать для:

  • записей,
  • страниц,
  • категорий,
  • тегов,
  • архивов и любых пользовательских типов записей,
  • таксономий.

Добавление тега noindex для определенных сообщений или страниц

Предположим, что вы сказали поисковым системам показывать все ваши сообщения в результатах поиска с помощью сети-ngs Search Appearance.

Но у вас есть один конкретный пост, который вы не хотите показывать в Google.  Это может быть тот случай, когда это старая статья, которой вы не очень гордитесь, например.

К счастью, плагин Yoast SEO также позволяет вам не индексировать конкретные сообщения.

Вы можете сделать это в редакторе сообщений этого конкретного поста.  На вкладке «Дополнительно» мета-окна Yoast SEO вы найдете тот же вариант, который мы обсуждали ранее.

Помимо определения того, хотите ли вы показывать этот конкретный пост в результатах поиска. Вы также можете определить, следует ли разрешить поисковым системам переходить по ссылкам на этой странице.   

Если вы решите не разрешать их, Yoast SEO добавит мета тег nofollow на страницу.

Плагин Yoast SEO также позволяет редактировать свой собственный файл robots.txt. Редактирование ваших файлов robots.txt является продвинутым действием.

И, таким образом, выходит за рамки этого поста. Вы можете узнать больше об этом в курсе технического SEO от Yoast SEO.

Консоль поиска Google

Последней важной функцией плагина, когда дело касается обхода сайта роботом, является возможность подключения плагина к Google Search Console.

На странице настроек Search Console вы можете подключиться к google Search Console и проверить все ошибки сканирования.Ошибки, с которыми Google столкнулся при сканировании вашего сайта.  

Это  отличный  способ проверить, есть ли у отдельных страниц проблемы с сканированием. Существует два основных типа ошибок, с которыми может столкнуться Google:

  • Ошибки сайта, которые влияют на весь ваш сайт. Подумайте о проблемах с подключением к вашему веб-серверу и проблемах с извлечением файлов robots.txt.
  • Ошибки URL-адресов, которые влияют на определенную страницу на вашем сайте. Робот Googlebot попытался просканировать URL, но почему-то не преуспел. Он смог подключиться к вашему серверу, а затем запросить URL-адрес. Но после этого что-то пошло не так.

Решение этих ошибок значительно облегчает Google сканирование вашего сайта, что может иметь положительный эффект в вашем рейтинге.

Заключение

Мы разобрались, что обход сайта роботами – сканируемость связана с возможностями Google сканировать ваш сайт. И что эти возможности могут быть ограничены несколькими способами.

Мы обсудили три метода, чтобы бот Google не сканировал или индексировал вашу страницу или веб-сайт: роботы.txt файл, заголовок HTTP и мета теги роботов.

В заключении мы разобрались, как плагин Yoast SEO заботится о многих аспектах сканирования для вас.

Продолжение следует…

Оцените статью
( 1 оценка, среднее 5 из 5 )
Поделиться с друзьями
Добавить комментарий

Success message!
Warning message!
Error message!