“Искусственный интеллект” и информационный поиск
Суббота, Сентябрь 30, 2006 в 9:28 pm в рубрике Интересное
Мне сегодня пришло в голову, что неплохо было бы составить список "фишек", которые используются в поиске. Неполный список, который я хочу пополнить и уточнить, под катом. По мере поступления предложений, я буду его корректировать.


Итак, большие и маленькие, коммерческие и экспериментальные поисковые системы умеют:
* Искать точные вхождения поисковых слов запроса (это не ИИ, это для затравки);
* Искать с учетом словоформ, особо продвинутые умеют склонять несловарные слова и учитывать согласованность слов запроса;
* Использовать словари синонимов и тезаурусы, чтобы найти больше результатов;
* Кластеризовать документы;
* В связи с последним пунктом: синонимия может вычислять автоматически, см. например, LSI;
* Исправлять опечатки, при этом они умеют обучаться, на основе похожих запросов пользователей, вводимых одним и тем же человеком;
* Искать с учетом неточных вхождений слов (Glimpse, системы хранимых переводов а-ля Trados);
* Автоматически классифицировать страницы;
* Строить различные индексы популярности, в том числе на основе ссылочной информации;
* Учитывать отзывы пользователей (feedback);
* Искать дубликаты, в том числе неточные;
* Обрабатывать семантические сети (деревья)
Последнее, конечно, совсем экзотика и относится скорее к системам автомизированного тестирования, в которых тестируемый дает ответ, набирая текст, но пусть будет. На этом месте, я спёкся. Какие будут предложения, уточнения, исправления?
PS: "Искусственный интеллект" в настоящее время - это компромисс между полнотой и точностью. Никакой настоящей семантики, ИМХО, пока нет есть "математизированная эмпирика".
Найдено на: Заметки разработчика поисковых сервисов
Ваша оценка:
Итак, большие и маленькие, коммерческие и экспериментальные поисковые системы умеют:
* Искать точные вхождения поисковых слов запроса (это не ИИ, это для затравки);
* Искать с учетом словоформ, особо продвинутые умеют склонять несловарные слова и учитывать согласованность слов запроса;
* Использовать словари синонимов и тезаурусы, чтобы найти больше результатов;
* Кластеризовать документы;
* В связи с последним пунктом: синонимия может вычислять автоматически, см. например, LSI;
* Исправлять опечатки, при этом они умеют обучаться, на основе похожих запросов пользователей, вводимых одним и тем же человеком;
* Искать с учетом неточных вхождений слов (Glimpse, системы хранимых переводов а-ля Trados);
* Автоматически классифицировать страницы;
* Строить различные индексы популярности, в том числе на основе ссылочной информации;
* Учитывать отзывы пользователей (feedback);
* Искать дубликаты, в том числе неточные;
* Обрабатывать семантические сети (деревья)
Последнее, конечно, совсем экзотика и относится скорее к системам автомизированного тестирования, в которых тестируемый дает ответ, набирая текст, но пусть будет. На этом месте, я спёкся. Какие будут предложения, уточнения, исправления?
PS: "Искусственный интеллект" в настоящее время - это компромисс между полнотой и точностью. Никакой настоящей семантики, ИМХО, пока нет есть "математизированная эмпирика".
Найдено на: Заметки разработчика поисковых сервисов
Ваша оценка:



