В прошлой статье по оптимизации мы вели разговор о оптимизации страничного кода. Теперь, когда сайт готов к запуску, нам нужно сделать его доступным для посетителей. Для этого необходимо добавить его в индекс ПС, то есть чтобы ваш сайта отображался в результатах поиска.

По индексацию можно писать и писать, поэтому хотелось бы вкратце пробежаться.
robots.txt как средство управления индексацией
robots.txt - это обычный текстовый файл, который лежит в корне сайта и к которому обращается поисковой робот при заходе на сайт. С помощью данного файла можно указать, что разрешено индексировать, а что нельзя.
Основные советы, которыми стоит руководствоваться при создании robots.txt:
- Не указывайте директорию админки в robots.txt.
- Не указывайте запрет на индексацию изображений.
- Запрещайте индексировать файлы-инклюды, подключаем js-скрипты и тд.
- Указывайте расположение вашей карты сайта.
- Указывайте основной адрес сайта, особенно когда у сайта имеют "зеркала".
Даже если у вас и стоит суперзащита от взлома, всё равно стоит скрывать директорию админки от посторонних глаз. А для запрета лучше поместите в админку файлик .htaccess со следующим содержанием:
SetEnvIfNoCase User-Agent "^Yandex" search_bot
SetEnvIfNoCase User-Agent "^Yahoo" search_bot
SetEnvIfNoCase User-Agent "^igdeSpyder" search_bot
SetEnvIfNoCase User-Agent "^Robot" search_bot
SetEnvIfNoCase User-Agent "^Googlebot" search_bot
SetEnvIfNoCase User-Agent "^msnbot" search_bot
SetEnvIfNoCase User-Agent "^Aport" search_bot
SetEnvIfNoCase User-Agent "^Mail" search_bot
SetEnvIfNoCase User-Agent "^bot" search_bot
SetEnvIfNoCase User-Agent "^spider" search_bot
SetEnvIfNoCase User-Agent "^php" search_bot
SetEnvIfNoCase User-Agent "^Parser" search_bot
<Limit GET POST HEAD>
Order Allow,Deny
Allow from all
Deny from env=search_bot
</Limit>
У яндекса и гугла существуют отдельные роботы, которые индексируют изображения для поисковых сервисов картинок. Вам же будет лучше, если на ваш сайт придёт дополнительный трафик с таких сервисов.
Лишние страницы, которые не будут интересны посетителям, не стоит включать в индекс ПС.
Чтобы робот смог быстро найти вашу карту сайта, стоит её указать в robots.txt
Сервисы для web-мастеров:
У Яндекса с Гуглом существуют сервисы для веб-мастеров, в которых отображаются всё, начиная от ошибок, с которыми столкнулся робот при индексации, и заканчивая проверкой файла robots.txt. Для Яндекса - Яндекс.Вебмастер, для Гугла - Инструменты для веб-мастеров.
Особенно радует функция, которая позволяет удалять страницы из индекса. Правда, она реализована пока только у Гугла. Обязательно зарегистрируйте свой сайт в там.
Используем Sitemap
Речь идёт не об обычной карте сайта, а о той, что реализована в XML.
Sitemap - файл, который содержит информацию о индексируемых страницах.
Иными словами, это файл, который хранит в себе все ссылки, которые подлежат индексации. Сейчас существует множество сервисов, которые позволяют автоматически генерировать данный. Вам останется поместить его в корень вашего сайта и прописать в robots.txt:
Sitemap: http://домен/sitemap.xml
Сервисы:
Сам же выполняю вручную (каждый раз когда публикую новый материал, вношу изменения в sitemap.xml). Да и вам того же желаю. Разобраться в этом файле очень легко, достаточно лишь открыть его текстовым редактором, и вся структура на лицо.
Ping-сервисы
Если ваш сайт построен на каком-то движке (например, на wordpress), то некоторые CMS позволяют пинговать сервисы для ускорения индексации. Этот заветный список вы можете найти здесь. И как на вашем блоге появится новая запись, движок оповестит, что на вашем сайте появился новый материал.
Заключение:
Обязательно просматриваете спосок страниц, находящихся в индексе. Это очень важный шаг, ведь от него зависит, посетит ли вашу страничку очередной посетитель или нет.

Рубрика:
Просмотров: 1620
Дата: 9.11.09

2.03.10
3.02.10
12.01.10
28.11.09
22.11.09
22.10.09
27.09.09
18.09.09
18.08.09
6.08.09