Рассмотренная ранее модель не имеет привязки к вычислительным машинам, к их возможностям.
Итак, пробегать весь Интернет, чтобы выполнить каждый запрос - нереально. Поэтому соберем весь текст и все ссылки в одном месте. Конечно же, на один сервер все это дело не поместиться, поэтому разобьем на много – кластеры. Машины могут ломаться, поэтому сайты и их отдельные страницы могут «выпадать из индекса». Скачивают информацию из Интернета специальные программы – пауки или поисковые роботы. Если поисковые роботы не могут “достучаться” до страницы сайта (например, по вине хостера) они удалят страницу из индекса. Это тоже называют выпадением из индекса. Позже эту страницу вернут обратно в индекс.
Это первый момент технической инертности поиска – поисковая система может очень долго добавлять в индекс (индексировать) новые страницы – до 2 месяцев, а в некоторых случаев и 6ти. Второй момент – поисковая система не сразу может переиндексировать страницы с ссылками на вас, а ссылки, как мы ранее выяснили - самый главный фактор ранжирования.
Чтобы для каждого запроса пробегать индекс целиком, нужно очень много ресурсов, ведь его размеры составляют не один миллион гигабайт. Поэтому вводиться Кеш – для каждого слова запоминается все страницы, где его видели и частота встреч этого слова на этих страницах. Тоже самое делается со ссылками на страницу. Поиск по однословным запросам может происходить исключительно по Кешу. По дву- и более словным - ситуация немного другая, но Кеш тоже используется.
Дважды рассчитывать один и то же запрос нет смысла – поэтому результаты запоминаются и при втором запросе с аналогичными параметрами выводятся ранее рассчитанные и запомненные результаты. Назовем это Кеш2.
Кеш2 добавляет инертность поиску и иногда, чтобы “заглянуть” в будущую выдачу используется “пробой кеша”. Стоит понимать , что метод пробоя кеша не дает точных результатов. Запрос-пробой выглядит для Яндекса так “~~АБРАКАДАБРА Сам_Запрос”, где вместо АБРАКАДАБРА любое не используемое слово. Например вам нужно пробить Кеш для запроса “Siemens CX65″, для этого в Яндексе следует ввести запрос “~~Магниттопилятор Siemens CX65″.
Чтобы изменения в алгоритме ранжирования вошли в силу, приходиться полностью обновлять Кеш2. Если сделать это сразу для всех запросов, то сильно возрастет нагрузка, поэтому Кеш2 может обновляться от нескольких часов до нескольких дней. Чтобы учесть изменения внесенные в страницы и структуру сайтов, а также новые страницы в индексе, нужно пересчитать Кеш1. Это называется Апом. Ап – это обновление поиска.
Неразумно тратить одинаковое время на индексацию сайтов. Поэтому, чем более часто обновляется - тем он чаще индексируется. Также положительно влияет на частоту индексации «известность» сайта – количество и качество ссылок на сайт. Так мы плавно подошли к следующей главе.torrent download ; firewall