Внутренняя оптимизация с точки зрения программиста

Занятие не предвещает особых новостей лично для меня. По предварительным данным будем изучать robots.txt, .htaccess и sitemap.xml

Что такое robots.txt

Это текстовый файл, который находится в корне сайта и в него в первую очередь ломятся поисковые роботы дабы узнать что можно делать с вашим сайтом, а его нельзя. Есть некоторые нехорошие роботы, которые плевать хотели на robots.txt.

Формат файла уже более или менее устоялся, но для некоторых поисковых систем возможны различия. В наиболее целевых поисковиках (Google и Яндекс) существует специальный сервис для проверки robots.txt, который ходит в состав вебмастеровых утилит от поисковиков. Им очень настоятельно рекомендую пользоваться перед внесением измененийв файл, т.к. очень легко выбить сайт из поиска простейшей ошибкой в robots.txt. Про файл информация легко гуглится или просто смотрите в википедии.

Что такое sitemap.xml

Это xml-файл, в котором перечислены ссылки сайта. Может содержать дополнительную информацию (кроме урла) типа даты изменения, частоты изменения, важности страницы и т.д.

Замечу, что наличие sitemap.xml не влияет на скорость индексирования сайта, и на всё, что указано в нём поисковая система может честно наплевать, хотя они предпочитают или пользоваться.

Для сайтмапов существуют ограничения: не более 10 метров веса и не более 50 тысяч ссылок в одном файле. Сайтмапы можно гзиповать.

Если ваш сайт не влазит в вышеописанные рамки, то можно использовать индексный sitemap.xml, в котором описаны ссылки на обычные сайтмапы.

Про сайтмап можно почитать на моём основном блоге или в википедии.

Плюс недавно в гугле начало появляться расширение для sitemap.xml, которое позволяет включать в него ссылки на изображения. И я даже провёл по этому поводу небольшой эксперимент.

Сайтмап можно скормить поисковым системам руками или прописать в robots.txt где он находится.

В моём роботсе написано что-то типа:

Sitemap: http://www.seoder.ru/sitemap.xml

Файл .htaccess

Позволяет управлять настройками папки/папок/сайта на сервере.

В основном используется для получения красивых ссылок (mod_rewrite) и назначения паролей на папки. Работает только для web-сервера Apache.

В его-же документации полностью и описан.

Стоит иметь ввиду, что при ошибках в .htaccess сайт или его часть может стать полностью нерабочей. Плюс хостеры любят ограничивать набор директив, который можно применять. И последнее время вирусы повадились гадить в .htaccess.

Занятие №9. Внутренняя оптимизация сайта. Программные аспекты.

Ведёт: Дмитрий Иванов

Занятие не предвещало никаких особых новостей для меня, но тем не менее внесло определённую ясность в хитровыпендренные robotos.txt.

Я окончательно для себя уяснил, что Disallow: /images/ и Disallow: /images/* - это одно и то-же и для запрещения в роботсе одной конретной взятой страницы, нужно закрывать окончание адреса символом бакса, что-бы ничего с дуру под этот запрет не попало: Disallow: /images/dir/$

Ещё новостью было, что как только попадается пустая строка, то это считается окончанием секции robots.txt (которая начинается с User-Agent: как_там_звать_этого_бота). И, что-бы упростить жизнь роботам, сеошники предпочитают писать для каждого свою секцию, пускай они даже полностью повторяются.

Попутно ткнули носом в важность порядка директив Allow: и Disallow: - если первывой идёт Allow, то его уже не вырубить никами disallow далее и наоборот.

Порадовали потенциальные грабли с "Disallow: " который на самом деле "Allow: /" и "Allow: ", который на самом деле "Disallow: /". Старайтесь не выпендриваться - пишите явно или что-бы было понятно как минимум самому себе.

Если перевести на русский "Disallow: ", то это будет звучать как "Запретить ничего", что равно разрешить всё.
И, соотвесттвенно, "Allow: " - это "Разрешить ничего", что равняется запрещению всего сайта. Отсыпьте мне того, чего курил афтор robots.txt :)

Что касается .htaccess, то было добавлено некоторой ясности в мои мозги по поводу "внутренних" редиректов апача - это редиректы без указания кода редиректа и полного урла ресурса.

В целом занятие оставило состояние некоторой незавершённости - часть материала была перенесена на "будет рассказано потом", и это потом до звонка не наступило. Потерялся кусок про разгон нечестных роботов через .htacces - очень интересно было-бы послушать. Но зато мы оторвались другими вопросами по теме.

Попытку научить за занятие регэкспам я считаю чуть менее бесполезной чем предыдущая попытка обучить html за час - кто не знал - то ничего особо не поймет, а кто уже осилил - тому это сто лет не нужно. Из названия занятия у меня создалось ощущение, что мы должны разговаривать про более программные аспекты, чем robots.txt и даже регеэкспы из .htaccess - хотя может я просто выпендриваюсь, как программист :)

Что дальше?

Посмотреть на мой ненаглядный учебный запрос
Глянуть предыдущее занятие №8 на тему внутренняя оптимизация сайта, 27 мая 2010 года.
Следующее занятие: Занятие №10 про платные внешние ссылки. Состоится 3 июня 2010 года.
Перейти к оглавлению курсов по поисковой оптимизации.

RSSAdd to Google

Обсуждение:

Как вам материальчик? *



















Тема:

Мысль:

Как звать-то:

Почта:

PS: Комментарии публикуются только после проверки модератором.

PPS: E-mail'ы не публикуются.

* обязательные поля