Итак. В ответ на запрос пользователя бот выдает результат поиска.
Ищет он в собственном индексе. В индексе у него лежат сайты в том виде,
в каком бот их понимает. У каждого бота это понимание свое, но общие
черты прослеживаются. Индекс образуется двумя путями. Первый
- web-маз сам просит бот проиндексить его сайтец. Так поступают чаще
всего с популярными и уважаемыми ботами. Для Рунета это: Яндекс,
Рамблер и Апорт. Причем именно в такой последовательности. Хотя Рамблер
с Яндексом соперничают в этом плане. На остальные боты можно не тратить
время. Это мое мнение.
Второй путь - боты сами в «свободное от работы время» ползают по
Инету и вынюхивают изменения. С новыми сайтами они поступают по
разному. Чаще всего они принюхиваются к ним какое-то время, а потом,
если, по мнению бота, со страницей все в порядке (посетители иногда
появляются, спама нет и др.) - они его индексят. То есть заносят
информацию о нем в свой индекс (базу данных). Самый тормозной в плане
принюхивания - это Рамблер. Он принюхивается по несколько месяцев.
Самый непридирчивый - Яндекс. Можно создать левый сайт и посмотреть,
как скоро он самопроизвольно появится в том или ином поисковике. В
Яндексе… ну, через месяц-два. Кроме этого, боты следят за
состоянием своего индекса. То есть за его соответствием реальному
положению дел в Инете. Сайт может измениться, исчезнуть и т.д. Поэтому
боты его обычно реиндексируют. Правда, можно запретить это мета-тегами
и цивилизованные боты не будут этого делать. Самый скоростной по
реиндексированию - Яндекс. Скорость реиндекса - несколько дней, а то и
чаще, если ресурс популярный. Самый тормозной - Апорт. Скорость
реиндекса страниц с посещаемостью 50-100 хостов в сутки - до полугода!
У меня был сайт, который переехал. Так Апорт по запросу старый адрес
еще несколько месяцев выдавал, хотя по этому адресу уже несколько
месяцев ничего не было! И соответственно, посещаемость - 0. А Апорту
все равно! Результат поиска по запросу пользователя чаще всего
выдается по релевантности. Чем выше релевантность, тем выше позиция
страницы в результате работы поисковика. Страница с наиболее высокой
(по мнению бота) релевантностью отображается первой. Релевантность -
это степень соответствия содержимого индекса бота запросу пользователя.
Например, пользователь вводит «анекдоты». Бот выдает страницы
проиндексированных сайтов, где встречается это слово. Причем не просто
встречается, а встречается в тех местах, которые бот индексит. Но об
этом позже. Яндекс, например, чаще всего выдает только одну
страницу с сайта и ссылки на то, что есть еще страницы с того же
сервера. Замечали, наверное. Другие боты могут по несколько страниц с
одного сервака на один запрос выдавать. Это не очень образованные боты,
но их тоже юзают. Продолжим с примером про «анекдоты». Бот выдает
результат поиска по релевантности. То есть, если на странице имеется
100 слов и 4 из них - «анекдоты» (в именительном падеже, множественном
числе), то релевантность страницы по запросу «анекдоты» 0.04. Четыре
процента. Соответственно, если слов будет 10, и 4 из них - «анекдоты»,
то релевантность будет 40 %. То есть в 10 раз выше. Это
грубоватый пример, так как слова в заголовке (то, что между
<title></title>) и в тексте страницы имеют для бота разный
вес, равно как слова в падеже и числе, указанном в запросе и имеющемся
на странице. Но для понимания понятия «релевантность» вполне сойдет. Поясню
про падежи и числа. Если запрос «анекдоТЫ», а на странице встречаются
только слова «анектоТ, анекдоТОВ» и т.д. то релевантность страницы по
этому запросу будет ниже, чем тех страниц, на которых прямо написано
слово «анекдоТЫ». Но в любом случае страница все равно найдется по
запросу «анекдоТЫ» (но в с конце списка ответа поисковика). Из
сказанного следует, что страница должна содержать поменьше слов, и
слова должны быть, в основном, ключевые. Куда же девать инфу,
которая в 10-20 слов никак не поместится? Ответ - страницы с инфой и
страницы для ботов - это «две большие разницы». Страницы с инфой - это
те страницы, на которые попадаешь по ссылке со стартовой страницы. А
стартовая страница (другие названия - индексная, заходная, doorway и
др.) - это страница, которая как раз и содержит 10-20 слов (включая
заголовок и мета-теги). То есть эта страница, созданная специально для
бота. И больше ни для кого. Обычно, на стартовой странице
размещают лого, иногда еще несколько слов - чтобы пользователь понял,
куда попал, и кнопочку «Вход». Иногда вместо кнопочки «вход» - ссылки
на разные разделы сайта. То есть несколько входов. Если без текста на
индексной странице, ну, никак не обойтись, можно запихнуть его в
картинки. Так Мелкософт (www.microsoft.com) поступает, например.
Правда, им-то чего о релевантности заботиться? Важно, чтобы бот
по запросу нашел хоть какую-то страницу на сайте. Важно также, чтобы
навигация на ВСЕХ страницах позволяла попасть в КРАТЧАЙШИЙ срок в любое
место сайта. По крайней мере, ссылка на главную страницу, по моему
мнению, должна стоять на каждой странице. Если бот начнет индексить, он
надет одну страницу и дальше пойдет по ссылкам на ней. Нужно облегчить
ему эту задачу. Причем, чем больше ссылок на ту или иную страницу (с
разных страниц, ясен тетя), тем выше ее «ценность» с точки зрения бота. Итак.
Стартовая страница делается для бота. На ней нет инфы, только ссылка
(ссылки) и куча хитростей (см. ниже) для заманивая ботов. Страницы с
инфой должны содержать ссылки друг на друга, нормальный информативный
заголовок и приемлемые мета-теги. Все. Их цель - дать инфу и не
препятствовать боту запихнуть их в свой индекс. Они не должны первыми
появляться по запросу пользователя. Так как в данном случае это как раз
те два зайца, за которыми никак не угнаться, да и не надо. Понятное
дело, что есть не одно, а несколько ключевых слов, по которым web-маз
хочет, чтобы искался сайт. Чтобы этого добиться, по-хорошему, нужно
делать столько стартовых страниц, сколько желаемых web-мазом ключевых
слов. Внешне эти страницы ничем не должны отличаться. Ну, может,
title`ом. Отличаться должна служебная инфа, о которой речь пойдет ниже. Например,
у меня есть сайт для фирмешки, продающей стартеры для иномарок. Я
сделала с десяток-два индексных страниц для наиболее популярных моделей
иномарок. Внешне страницы отличаются только тем, что на одной в
заголовке написано «Стартеры для Мерседеса», а на другой - «Стартеры
для Вольво». Все. Конечно, отличаются мета-теги, alt`ы (подписи к
картинкам) и т.д. Об этом ниже. Каждую индексную страницу я индексила в
ботах отдельно. Что же индексит бот? У каждого бота свой
характер, но в целом примерно так. Во-первых, title. Это самая важная
часть. Слова в title`е имеют самый большой вес. Большой вес имеют слова
в alt`ах (подписях к картинкам), слова между <h1> </h1>,
<h2> </h2> и т.д. в порядке убывания значимости, слова
между <b> </b>. Кроме того, слова, расположенные ближе
(выше) к title`у, имеют больший вес, чем слова расположенные ниже. То
есть, чем выше слово, тем выше его вес при определении релевантности. Полнотекстовые
боты (то есть практически все современные) индексят еще и сам текст. В
основном, на предмет наличия в тексте слов, указанных в заголовке и
метах. Но если текста нет или очень мало - соответственно. Итого, как заставить бот выдавать твою страницу первой по запросу, например, «варез»? Пишем: <html> <title>Лучший варез</title> <title> Софт Варез Нелегальный софт</title> То
есть пишем второй title. После второго title`a нужно поставить знак
неразрывного пробела -   или . Так как Яндекс, например,
выдаст оба заголовка как один и без пробела последнее слово первого
заголовка сольется с первым словом второго заголовка. Разумеется,
ключевые слова (2-6) можно выдумать и другие. На той же странице пишем дальше: <meta name="keywords" content="Варез, софт, нелегальный софт"> <meta http-equiv="keywords" content="Варез, софт, нелегальный софт"> <meta name="description" content="Лучшие программы"> <meta http-equiv="description" content="Лучшие программы"> В
keywords`ах должно быть не более 10-ти слов, необходимо использовать
варианты (не более трех) наиболее частых падежей и чисел: (например:
программы, программ, программа), чередуя их с другими словами
(например: программы, софт, программ, варез, программа). В
description - несколько слов (5-8 слов, не более 170 символов), емко
характеризующих сайт. В Апорте и Рамблере это описание появится рядом с
результатом поиска по запросу. В настоящее время при индексировании
содержимое description на релевантность не влияет. По крайней мере, в
рассматриваемых поисковиках. Главное: МЕНЬШЕ СЛОВ!
Преимущественно ключевые. Name и http-equiv должны полностью совпадать.
Одни боты понимают name, другие - http-equiv. Дальше на той же странице: <meta name="robots" content="index,follow"> # Роботам - индексировать страницу и идти дальше по ссылкам на ней. # Аналогично сработает: <meta name="robots" content="all"> Дальше: <meta name="resourse-type" content="document"> #Если бот видит, что ресурс - это документ, # он приступает (должен) к его индексации. <meta name="document-state" content="dynamic"> # Если тип документа - динамический - бот запомнит что сюда # нужно периодически возвращаться. <meta name="revisit-after" content="10 days"> # Это пожелание боту, как часто реиндексировать документ. # Пожелание - не более. Бот может послушаться, а может и нет. # Если, например, он разок вернется через 10 дней и увидит, # что страница и впрямь изменилась, может и еще разок вернется # через 10 дней. А если написать revisit-after 1 day и не менять # страницу вообще - бот может обидеться и посчитать это попыткой # его спама. Он занесет такую страницу в черный индекс # (точнее, сначала - в "серый"). Это плохо. Дальше для Рамблера (только): <!--<h1>Варез, софт, нелегальный софт</h1>//--> То
есть в тегах комментария в заголовке первого уровня пишем ключевые
слова. Яндекс то, что в тегах комментария не индексит, а Рамблер ест
как миленький. Потом, все картинки, что ни есть, должны содержать alt`ы
с ключевыми словами. Можно даже в неприметном месте страницы
однопиксельных прозрачных гифов запихать (не очень много - 3-4) и alt`ы
к ним нужные прикрутить. Это считается спамом поисковика (как и два
title`а, впрочем), но по опыту - они (боты) этого в упор не видят. Вообщем, «легальные» способы кончились дальше идут «нелегальные». Можно сделать для IE: <div style="visibility: hidden"> <h1>Программы, варез, софт, программа</h1> </div> Для NN: <layer visibility="hide"> <h1>Программы, варез, софт, программа</h1> </layer> Это не очень удобно. Нужно ставить скрипт, определяющий тип браузера. Но боты глотают эту наживку и в «черный» список не запихивают. Проще: <font color="#цвет фона"><h1>Варез программа</h1></font> Но
это боты грозятся определять. Ничего не знаю по этому поводу. Может, и
определяют - они сейчас умные пошли. Еще можно вот что сделать.
Где-нибудь неприметненько запихиваем прозрачные gif-чики и делаем из
них ссылки. Бот и alt`ы проиндексит и по ссылкам пойдет, особенно, если
сами ссылки по дизайну на страницу никак не поместить. Примерно так: <a
href="первая ссылка"><img src="images/gif_1.gif" width="1"
height="1" border="0" alt="Варез, софт, нелегальный софт"></a> <a href="вторая ссылка"><img src="images/gif_1.gif" width="1" height="1" border="0" alt="Софт, варез"></a> <a href="третья ссылка"><img src="images/gif_1.gif" width="1" height="1" border="0" alt="варез, софт"></a> и т.д. Ну,
и нужен специально обученный человек, который будет следить за
эволюцией ботов, изменениями позиции страницы в поисковиках и
предпринимать соответствующие действия. Не каждый день, но раз в
недельку-две тестирование в поисковиках своим страницам нужно
устраивать. И вот еще что! Если релевантность _слишком_ высока, Яндекс
обижается и не выдает страницу по запросу. За остальными не замечала.
Другие страницы того же сайта с меньшей релевантностью может выдавать
(«серый» список). Так что, если на странице только слова «варез варез
варез» - это не выход. Релевантность должна быть не более 30 %. И
одинаковые слова подряд лучше не повторять. А Батва меня навел на
мысль, что можно делать по 2 страницы на одно ключевое слово. На одной
странице релевантность по ключевому слову 10 % (для подозрительного
Яндекса), на другой - порядка 30 % (для остальных). И вот когда
все это извращение готово - 10-15 стартовых качественно написанных
страниц - идешь на http://www.design.ru/free/addurl/ и каждую страницу
индексишь одной пимпой в нескольких наиболее популярных поисковиках.
При этом видишь ответы серверов, и, если не прошло - идешь индексить
вручную. Об остальных поисковиках спокойно забываешь, толку от них…
Работы больше. Описание к каждой странице - разное, ясен тетя. Емкое,
краткое, состоящее из ключевых слов. Можно, и вручную добавлять сайт в
каждый поисковик, но это геморройно и не сильно выгодней. Впрочем, это
мое мнение. И последнее. В корень (только в корень) помещаешь файл robots.txt (именно так и никак иначе) со следующим содержимым: User-agent: * # Первая строка. # Комментарии, понятное дело, убрать # Строка говорит, что любой бот может индексить ресурс # Между первой и последующими - # не должно быть переводов строк Disallow: /cgi-bin/ #Не индексировать то, что в каталоге cgi-bin Disallow: /images/ #Не индексировать то, что в каталоге images Disallow: /scripts/ #Не индексировать то, что в каталоге scripts # И далее по смыслу. В конце каждого имени каталога - слеш. # Нече там ботам ползать. Нагрузку на сервак повышать. :) Вот, собственно. Хотя, можно еще много фантазировать на тему.
|