Занятие №3. Сайт в поиске.

Ведёт Драгун Алексей.

11 мая 2010 года.

Что было на занятии?

Рассказали в основном тривиальные вещи про поисковую выдачу и апдэйты. Было некоторое количество теории про то, что-же такое поисковые системы и как собственно происходит индексация. Затронули стандартные для индустрии веб разработки сервисы вебмастеров от Яндекса и Google.

Из нового с удовольствием послушал про региональность выдачи сайтов и региональность запросов.

    Что представляет собой сайт с точки зрения поисковой машины?

    В большинстве случаев это просто тексты разных типов. Основной html страницы, css, ленты новостей.

    Многие поисковики умеют индексировать документы более других типов - это могут быть pdf, xls, doc.

    Стандартом стал сбор картинок и видео с сайта. Но основное для поисковиков - это текст страницы документа.

    Как работает поисковый робот

    1. Сканирование - это процесс, в ходе которого робот обнаруживает новые и обновленные страницы для добавления в индекс. Программа роботов определяет какие именно сайты нужно сканировать, сколько страниц и как часто с сайта нужно выбрать. Всё начинается со списка URL'ов страниц, полученного во премя предыдущих сканирований Интернета. Это список дополняют данными из файлов sitemap.xml, которые предоставляют владельцы сайтов.
      Шарясь по каждому из урлов, робот находит ссылки и добавляет их в список страниц, которые нужно просканировать. Робот отмечает все изменения, новые и дохлые ссылки. И всё, что получилось в результате, собственно и используется для составления индекса.
    2. Индексирование - робот поисковой системы переваривает каждую полученную страницу и составлет полный индекс всех найденных слов, попутно отмечая где именно на странице они попались. Также обрабатываются данные из оснонвых html-тэгов (в том числе и альты картинок).
      Отмечу что в настоящее время роботы способны проиндексировать далеко не все типы контента (например видео).
    3. Показ результатов поиска - когда кто-то справшивет у поисковика что-то, то система находит в своём индексе подходящие страницы и выдаёт наиболее релевантные, по её мнению. Релевантность определяется кучей факторов. Например в гугле их более 200.

    Индекс поисковика - это массив информации в котором храняться специальным образом обработанные и преобразованные текстовые составляюшие всех посещённых и проиндексированных роботом страниц и текстовых файлов. Основное назначение индекса - ускорить процесс поиска - он позволяет избежать непосредственного опроса каждого документа.

    Перед попаданием в индекс поисковики производят над информацией некоторый набор магических действий. Например выборки по частотности и лингвистическая обработка.

    Попутно разгребаются ссылки для составления рейтингов пузомерок.

    Кстати о ссылках - Яндекс наконец научился обрабатывать rel="nofollow", а гугл теперь умеет доставать ссылки из JavaScript.

    Как помочь роботу быстрее и правильнее проиндексировать сайт?

    • Не создавайте страницы зарытые глубоко в структуру меню - сейчас рекомендуется дать посетителю доступ не более чем в 2 клика к нужным ему страницам
    • Создайте карту сайта для посетителей
    • Создайте sitemap.xml для поисковых систем и не забудьте прописать его в robots.txt или скормить через инструменты для вебмастеров
    • Перелинкуйте межлоу собой страницы вашего сайта - страницы должны ссылаться друг на друга и делать это желательно в тексте страницы
    • Делайте хлебные крошки - они помогают создать структуру вашего сайта. Некоторые даже выводят их в SERP'е.

    Что бы заставить робота проиндексировать ваш сайт нужно ему об нём каким-либо образом сообщить.

    Самый простой способ - это воспользоваться формой add url (в народе адурилки). Не повредит добавить сайт в сервисы для вебмастеров.

    Но можно ничего этого и не делать - рано или поздно кто-то поставит ссылку на ваш сайт и по ней поисковый робот доберётся естественным образов до вашего сайта. Скорее всего первая ссылка была поставлена на вас сразу после покупки домена.

    Поисковая выдача

    Поисковая выдача - SERP - страница с набором ссылок на сайты, выдаваемся поисковой системой на запрос пользователя.

    Каждый строка результата обычно состоит из следующих частей: заголовк, выжимка из сайта (снипет) и собственно адрес сайта.
    Иногда могут появляться так называемые быстрые ссылки сайта и навигационные цепочки.

    Быстрые ссылки появляются только для первых трёх результатов поиска. Для определения быстрых ссылок у Яндекса есть рекомендации по этому поводу в документации. Если вам повезло поиметь быстрые ссылки в Яндексе или Google, то они появятся в инструметах для вебмастеров соответствующего поисковика и сайта. Яндекс даёт возможность управлять быстрыми ссылками. Что касается гугла - ещё не знаю - мои сайты там пока не получили такой фичи.

    Сниппет - поисковик старается генерить его сам, но иногда со свистом заходят descriptions, если оный набит для данной страницы вебмастером. Около года назад я провёл эксперимент с забиванием descriptions для всех страниц сайта, и он показал что лучше пускай снипет будет, чем его не будет вообще.

    Навигационная цепочка - выглядит как хлебные крошки сайта, но не всегда совпадает с ними

    Чтобы увидеть, как выглядит живой серп, просто спросите чего-либо у своего любимого поисковика...

    Вот пример серпа по запросу "dell e6400 обзор":

    SERP Яндекса

    Поисковая выдача она не статическая, а постоянно меняется. В народе процесс изменения выдачи называют "апдэйт" или "ап". Апдэйт поисковой выдачи или обновление выдачи - обновление кеша серверов поисковых систем после пересчёта позиций сайтов в серпе.

    Региональная выдача - поисковая выдача, результаты которой скорректированны в пользу сайтов с региональной принадлежностью. Кроме того у Яндекса для некоторых регионов есть своя формула ранжирования.

    Из-за наличия региональной выдачи все запросы можно поделить по этому признаку на две кучи:

    1. Геозависимые - выдача разная для разных регионов

    2. Геонезависимые - выдача одинаковая вне зависимости от региона

    Регион, в котором производится поиск, обычно определяется автоматически на основании IP-адреса посетителя, но можно выставить руками в настройках поисковика.

    Для сайтов, которые предлагают товары или услуги в определённых регионах, очень важно правильно присвоить регион. В Яндексе это может произойти автоматически на основании различных признаков, а можно пошевелить своё тело и присвоить его с помощью каталога Яндекса (бесплатно или за бабки) или через панель вебмастеров, если индекс цитирования вашего сайта не менее 10.

    Пока сайт молодой и зелёный для присвоения региона советую написать на сайте реальные контактные данные и воспользоваться hCard - относительно новый микроформат от Яндекса - можно поискать в гугле или посмотреть в исходниках на странице про меня.

    Сервис вебмастер от Яндекса

    Без регистрации можно сделать следующие вещи: предложить свой сайт Яндексу на индексацию (адурилка) или наоборот удалить урл, проверить орфографию и правильность написания robots.txt или сдать нечестных конкурентов Яндексу с потрахами.

    С регистрацией доступно гораздо больше. Сами увидите после регистрации.

    Сервис Google для вебмастеров

    По возможностям примерно сопоставим с Яндексом, но недавно добавилась фича отображения поизиции конкретных ключевых слов по которым показывался ваш сайт. Для регистрации требуется почта на гугле.

    В конце занятия на очень посоветовали почитать и зарегистрироваться на Searchenines.ru. И предложили курить тамошний форум до полного просветления. Но на веру всё не брать - сколько людей столько и мнений :)

     

    Предыдущее занятие: Занятие №2, 6 мая 2010 года. Тема: Поисковые системы и продвижение сайта.
    Следующее занятие: Занятие №4, 13 мая 2010 года. Тема: Статистика посещаемости сайтов.
    Оглавление: SEO курсы.

    RSSAdd to Google

    Обсуждение:

    Как вам материальчик? *



















    Тема:

    Мысль:

    Как звать-то:

    Почта:

    PS: Комментарии публикуются только после проверки модератором.

    PPS: E-mail'ы не публикуются.

    * обязательные поля