Проверка текстов на дублирование.
Понедельник, Декабрь 4, 2006 в 3:09 am в рубрике сервисы и программыВот здесь (8) обнаружил статью, про использование шинглов (shingles) для определения дуплицированного текста, вкупе с алгоритмом. Некоторое время покодил и реализовал данный в статье алгоритм. С данной реализацией предлагаю ознакомиться и вам.
Скрипт проверяет два текста с помощью шинглов 1, 2, 3 и 4 уровней. Я тестировал скрипт с двумя текстами, один из которых являлся оригиналом статьи про цифровые фотоаппараты, второй же был сгенерирован из первого с применением цепей Маркова, использовавших 2-словные цепочки. Результат работы - коэффициент совпадения около 0.8 - то есть очень похожи. При проверке с разными текстами одной тематики (все те же статьи про фотоаппараты) - коэффициент совпадения около 0.05. Результаты налицо.
Пожалуйста, при тестировании скрипта используйте только чистые тексты, без принудительного добавления ключевых слов. Это всего лишь скрипт демонстрации одной из технологий определения дупликатов текста. При желании в него можно добавить очистку от мешающих ключевиков и другие фильтры, повышающие точность результата.
Пишите в камменты результаты ваших тестов. Если у кого появятся дельные мысли о практическом применении методики - могу выдать исходники скрипта.
далее на http://thisishot.org/Найдено на: SEO-PPC-FAQ
Ваша оценка:


