Поскольку оптимизаторы очень сильно загадили Интернет своей ссылочной массой, то мы уже не сможем просто взять и использовать хороший алгоритм и множество роботов-индексаторов. Если мы так сделаем, то выдача будет плохой, замусоренной, и её придётся долго фильтровать, изобретая для этого свои алгоритмы.
Что делают новые поисковики сейчас – они прислоняются к чужой базе, создают роботов, ворующих выдачу популярных запросов из популярных же поисковиков, прежде всего у Google. У Yandex, тяжело воровать, там агрессивная капча, да и смысла парсить выдачу Яндекса сейчас не очень много – она не очень-то и хороша. Ещё, как я заметил, Гугл несколько лет назад просел в качестве выдачи и её объёме, особенно в предлагаемой для стран не из “Золотого миллиарда”. В общем, мне кажется копировать у Гугла или Яндекса особого смысла нет, кроме как из жадности, т.е. желания сэкономить.
Так как же сделать поисковик? Для меня совершенно очевидно, что нужно расти из каталога сайтов. Вручную добавлять сайты Рунета в белый список, и использовать старый Гугловский алгоритм PageRank, но только работающий с сайтами из этого белого списка.
Например, dreamwidth.org добавляем, но все внешние ссылки с него идут в зачет, только если ведут на уже добавленный ранее сайт. При этом естественно, учитывать нужно только русскоязычные страницы, т.е. должен существовать механизм точного определения языка документа.
Поисковик должен быть некоммерческий, в том смысле, что вообще не нужно добавлять в индекс магазины, рекламные сайты, спамеров и т.п. Поиск должен вестись по блогам, форумам, СМИ, школьным и научным сайтам, энциклопедиям, библиотекам, сайтам музеев и т.п. Буквально должно сидеть сто человек и ежедневно добавлять, каждый по тысяче сайтов минимумом. На главной странице поисковика помимо строки поиска должно быть и предложение добавить сайт. Должно быть две строки поиска – в одной можно будет искать по пользовательскому контенту, а в другой по профессиональному. Тут можно многое придумать, постоянно всё улучшая, главная идея должна быть неизменной – в основе всегда должен быть каталог вручную отобранных сайтов. Серьёзный Рунет мал, поэтому достаточно легко получится обработать все качественные сайты – достойных сайтов не так и много у нас.
Вот я постоянно надеюсь, что кто-нибудь всерьёз пойдёт этим путём. А вместо этого люди предпочитают опираться на чужие базы, подглядывая в выдачу конкурентов. Сделать сейчас нормальный поисковик по текстам Рунета проще пареной репы.