Что такое релевантность?
05.08.2007 SEO
Представители поисковых систем, в частности Google, уверено говорят о скорых изменениях в алгоритмах ранжирования, которые должны полностью изменить как методы оптимизации, так и намного снизить спам в выдаче (дорвеи). Многие верят, что так оно и будет, особенно после появления практически у всех поисковиков персонализированного поиска, а также скупки Гуглом многих трафикогенерящих порталов и сервисов (например Feedburner). Я и сам так считал, пока не подумал головой и почитал толковый материал по теме
.
ПС выдают страницы исходя из релевантности запросу. Давайте узнаем, какому количеству запросов может быть релевантна какая-нибудь страница.
Не будем учитывать повторяющиеся слова и будем считать, что комбинация из наскольких слов читается только в одном направлении - слева направо для русского языка, например. Также не будем учитывать близость расположения отдельных слов из фразы друг к другу. Это все учитывается ПС, но чтобы найти количество релевантных слов, можно для простоты поступить и так.
Считаем:
В документе из 1000 слов можно найти 996 возможных 5-словных комбинаций, 997 4-словных, 998 трехсловных и 999 двухсловных. То есть всего в 1000 словном документе можно найти 3990 возможных комбинаций от одного до пяти слов, которым данный документ релевантный. В общем можно подсчитать количество ключевых слов так: посчитать количество слов в документе, потом умножить количество слов на число слов в самой длинной комбинации (5 в нашем примере), потом отнять сумму чисел (1..5) плюс количество слов от первого числа. Например, в 1000 словном документе для запросов от 1 до 5 словного имеем 5*1000 - (1000+(1+2+3+4))=3990.
Конечно, среди таких запросов могут оказаться дубликаты. Чтобы учесть повторяющиеся слова, разделим полученную цифру на два. То есть наш 1000 словный текст релевантен 1995 1-5 словным комбинациям. Это число не точное, а приблизительное. Но закономерность понятна: мы не можем оптимизировать 1000 словный текст под почти 2000 запросов.
Мы можем органичиться не 5-и словными, а например 10-словными запросами. Тогда 1000 словная страница будет релевантна максимум 8955 комбинациям слов (от 1 до 10), то есть по нашим приближениям около 5000 фраз. Хотя 1000 слов - довольно длинный текст. Но даже если на странице 250 слов, то она релевантна 1103 комбинациям от одного до десяти слов.
Традиционное SEO гворит об оптимизации страницы под один-два, максимум три кейвуда. Некоторые оптимизируют под 5-10 кейвудов. Но если вы создаете 250-словный текст, то он релевантен приблизительно 1100 запросам. Почему бы не оптимизировать под все эти запросы?
Что остается делать поисковику? Правильно, - выделить ключевые слова из наиболее видимых элементов на странице - тега title, заголовков h1,h2 и далее, выделяющихся сочетаний слов (теги b или strong), а еще и из урла. Это что касается оптимизации текста.
Ситуация с огромным количеством релевантных запросов для любой страницы привела к появлению внешних факторов ранжирования, то есть ссылок.
Часто говорят о том, что главное для продвижения - ставить ссылки со страниц одной темы на страницу по той же теме, то есть релевантные одному и тому же запросу. То есть говорят, что Гугля каким-то образом придает больший или меньший вес ссылке исходя из контента страниц. То есть если страница “А” про лошадей ссылается на страницу “Б” про лошадей и страницу “В” про кошек, то ссылка с “А” на “С” весит меньше, чем с “А” на”Б”. При этом неважно, что каждая из страниц релевантна более чем 1000 запросов.
Имеются ввиду ссылки с тематических сайтов. Для Яндекса это действительно актуально - тематика определяется для сайтов из Яндекс.Каталога, и ссылки с сайтов той же тематики дают бонус при ранжировании сайтов каталога. Для общего веб-поиска даже в Рунете этот закон уже не действует, потому что роботу сложно определить тематику сайта. Да и Google в своих новостях включает новости в несколько категорий. Почему? Потому что каждая страница релевантна более чем 1000 запросам.
Слежение за тематичностью ссылок - это потеря времени, потому что никак не относится к релевантности. Релевантность для поисковой системы - совсем не то же самое, что релевантность для человека. Тема этой статьи - теория поисковой оптимизации, но она будет релевантна и слову “лошадь”, поскольку я использую это слово в тексте. И по запросу о лошадях эта страница будет включена в результат поиска, хотя не имеет к этой теме никакого отношения.
Единственный действующий механизм в этом случае - анкоры ссылок. То есть не просто рекомендация страницы со стороны другого сайта, а ссылка на него с соответствующим кейвудом.
Несовершенство поисковых систем обусловлено ограничениями их алгоритмов. Релевантность определяется не ссылками, а текстом. Одной из причин соединения основного и дополнительного индексов Гугли стал как раз тот факт, что именно содержание страницы имеет главное значение для релевантности, а не количество входящих ссылок. Если эти заявления - правда, то в скором времени ожидается смещение приоритетов с ссылочного ранжирования на текстовое.
Так что как бы Google ни учитывал историю поиска и остальные более 200 факторов (как говорят представители поисковика) при ранжировании, все равно текст остается основным фактором определения релевантности страницы. Поставьте ключевую фразу в титл, заголовок, пару раз в текст, в урл, проставьте ссылки с нужными анкорами - и будет вам топ. Теоретически
.
З. Ы. Новые теги Гугли работают.
Еще почитать:
- Ничего похожего не найдено.




05.08.2007 в 6:22 pm
имхо гуглу не выгодно делать очень сильно ревалентную выдачу - ведь он:
1. главный поисковик мира
2. зарабатывает он на адвордзах и адсенсах
И нах ему нужна ревалентность. Хотя возможно он занмается разработками “в стол” и “под сукно”. на случай появления каких нить товарищей из гаража с ацкой разработкой…
05.08.2007 в 7:44 pm
По логике вещей тематичность ссылающейся страницы должна быть более важной, чем анкор ссылки, имхо.
05.08.2007 в 7:49 pm
2 $okolM:
Не согласен.
1. Google стал лучшим поисковиком именно благодаря своей технологии, которая оказалась лучше других плюс постоянное совершенствование. “Главным” он стал не сразу.
2. Заработок на Адсенсе/Адвордсе на странице поиска не зависит, а на сайтах-клиентах напрямую зависит от релевантности выдачи. Именно соответствие текста запросу (и соответствие рекламы тексту) определяет CTR и доход с сайтов-клиентов Адсенс.
Гуглей пользуются не потому что он крутой, а потому что в нем можно найти то, что нужно. Попробуй поискать в Яндексе. Разница налицо.
05.08.2007 в 7:58 pm
2 Фотограф:
Трудность - в определении тематики. Сложно понять тематику, особенно в Веб 2.0 проектах - когда контент делают пользователи. Как это реализовать на уровне алгоритма? (в Я.Ке тему определяют люди) Ведь жизнь изменчива, появляются новые темы, исчезают старые, меняются возможные семантические ядра для тем и т. д. На интересный контент могут сослаться на ресурсе любой тематики - по-моему неправильно от этого понижать важность ссылок.
05.08.2007 в 9:51 pm
2egorych
ИМХО, трудностей в реализации на уровне алгоритма нет, если позволяют вычислительные ресурсы. Т.е. если паук работает ОЧЕНЬ активно, а поисковая машина - ОЧЕНЬ часто и активно пересчитывает внутрение индексы, то это возможно.
Правда, темпы увеличения объемов веба кажется опережают рост вычислительных мощностей Гугла.
Всё как всегда ИМХО.
05.08.2007 в 10:32 pm
Webmaster, мощностей у Гугли много конечно (хотя иногда долго грузится), но я о другом. КАК реализовать алгоритм определения тематики? И насколько это действительно важно для ранжирования? В принципе для определения “нишевой принадлежности” и существует анализ поведения юзера на сайте - куда кликают, сколько страниц смотрят и т.д. (Google Analytics). Можно еще анализировать подписку Feedburner… Дело темное.
06.08.2007 в 5:40 am
>>В документе из 1000 слов можно найти 996 возможных 5-словных комбинаций, 997 4-словных, 998 трехсловных и 999 двухсловных
Это,конечно, не принципиально, но все-таки. То ли я плохо комбинаторику учил, то ли все забыл, то ли чего-то недопонял. Какие-то очень уж маленькие цифры получаются.
C(n,k)=n!/(k!(n-k)!)
[imho! без обид!]есть категория статей, которые я называю “мясом” - эти статьи клепаются лишь бы набить сайт(блог)[/imho]
09.08.2007 в 10:17 pm
Да это я чужие расчеты взял
. Если на самом деле вариантов еще больше, то это подтверждает изложенную теорию.
03.09.2007 в 1:05 pm
2 The end:
Комбинаторику Вы учили хорошо, просто Вы плохо читали то что там ^ написано (без обид). В данном случае были весьма жесткие ограничения: текст читается справа налево и т.д. Тоесть мое текущее предложение можно разбить так.
5: Тоесть мое текущее предложение можно
5: мое текущее предложение можно разбить
5: текущее предложение можно разбить так
4: Тоесть мое текущее предложение
4: мое текущее предложение можно
4: текущее предложение можно разбить
4: предложение можно разбить так
и т.д. , но вот рассчет там действительно кривой
ИМХО так точнее (для моего случая) 5*7-(1+2+3+4)=25