Реализован метод шинглов. Со сравнением по выборке из мин-макс 100 случайных фиксированных функций. Алгоритм наиболее жесткой проверки дублей Яндекса.
Отличия от алгоритма Яндекса:
1. Реализовано не 85, а 100 случайных функций (чтобы проценты реализовывать без дробной части)
2. Естественно фиксированные случайные функции разные, но как показывает практика в расхождения для текстов с размером > 2000 символов погрешность не более 10ти процентов.
3. Для хранения переменных используеться меньшее число байт. Для сравнения к-ва текстов меньше 10 000 штук, этот фактор не играет критической роли.
Различает регистр, вырезает Тэги.
Не учитывает словоформы, синонимы, стоп слова. А также замены русских букв на их аглийские аналоги.
Если вы мне предоставите список стоп слов - он будет их игнорировать.
http://altalabs.ru/files/Shingles.rar
текстовый файл содержит массив 100 на 10 параметров рандомных функций (многочлены первого порядка).
Все круизы! Все теплоходы! 2009: морские круизы . Майские праздники на Балтике.; защита подозреваемого