Антиспам фильтры в Google Blogsearch
24.10.2007 Блоги
Google решил бороться со спамом в поиске по блогам. В результате додумались до двух фильтров:
1. Фильтр дублированного контента
Удаляет из выдачи одинаковые или почти одинаковые посты. Однако этот фильтр не отсеивает все похожие посты и не находит посты-дубликаты статей с новостных сайтов типа Business Week, NY Times и тому подобных.
2. Сортировка по релевантности
Включен по умолчанию. Главная задача этого фильтра - отсеить сплоги. Google использует много сигналов для ранжирования постов: PageRank, количество подписчиков или количество ворованного контента. Но если сортировать по релевантности, то можно найти и старые, и новые посты, что не всегда нужно. В таком случае можно искать посты за определенный промежуток времени (например последний день или час).
Чтобы показать наиболее “хорошие” варианты, рядом с ними в серпе поиска по блогам Google показывает метку “Ссылки”:
Не знаю по какому алгоритму ставится эта метка. Рядом с моими постами, на которые 100+ ссылок, этой метки я не увидел.
Подводя итог, гуглеры предложили такую стратегию выживания:
1. Используйте сортировку по релевантности
2. Делайте запрос за конкретный период
3. Ищите посты на одном конкретном языке
4. Самый крутой способ - добавить в строку поиска антиспам-оператор
-”google alert” -site:blogspot.com -site:.info, но это не гарантирует что вы не потеряете нормальные посты
5. Жмите на ссылки, рядом с которыми есть метка “Ссылки” (в англоязычном поиске “References”)
Наверное совсем задолбались гуглеры со спамом в блогах, раз предлагают своим юзерам так извращаться с поиском.




19.06.2008 в 11:22 pm
Сортировка по ревалентности даст хорошие результаты, гораздо лучше, нежели фильтр дублированного контента. надо бороться со спамом.