Сделать стартовой  
Главная   О проекте   обновлено: 2008-02-19 13:05:00
Всего 2672 новостей, + 0 сегодня.
Индикатор апдейтов поисковых систем

ПРЯМОЙ ЭФИР
forum.searchengines.ru

Оценки
значит кому-то понравилось

Проверка текстов на дублирование.

Понедельник, Декабрь 4, 2006 в 3:09 am в рубрике сервисы и программы

Вот здесь (8) обнаружил статью, про использование шинглов (shingles) для определения дуплицированного текста, вкупе с алгоритмом. Некоторое время покодил и реализовал данный в статье алгоритм. С данной реализацией предлагаю ознакомиться и вам.

Скрипт проверяет два текста с помощью шинглов 1, 2, 3 и 4 уровней. Я тестировал скрипт с двумя текстами, один из которых являлся оригиналом статьи про цифровые фотоаппараты, второй же был сгенерирован из первого с применением цепей Маркова, использовавших 2-словные цепочки. Результат работы - коэффициент совпадения около 0.8 - то есть очень похожи. При проверке с разными текстами одной тематики (все те же статьи про фотоаппараты) - коэффициент совпадения около 0.05. Результаты налицо.

Пожалуйста, при тестировании скрипта используйте только чистые тексты, без принудительного добавления ключевых слов. Это всего лишь скрипт демонстрации одной из технологий определения дупликатов текста. При желании в него можно добавить очистку от мешающих ключевиков и другие фильтры, повышающие точность результата.

Пишите в камменты результаты ваших тестов. Если у кого появятся дельные мысли о практическом применении методики - могу выдать исходники скрипта.

далее на http://thisishot.org/

  Найдено на:   SEO-PPC-FAQ

Ваша оценка:   
2 Votes | Average: 5 out of 52 Votes | Average: 5 out of 52 Votes | Average: 5 out of 52 Votes | Average: 5 out of 52 Votes | Average: 5 out of 5 (Всего оценок: 2, средняя оценка: 5 из 5)
Loading ... Loading ...

Оставить комментарий

Обратите внимание, все комментарии сначала проходят модерацию, поэтому могут появляться на сайте не сразу!





Последние новости
Самое популярное

Записи (RSS)
Комментарии (RSS)