Внутренности Яндекс-XML
Март 15, 2007Почитал я тут Яндекс-ХМЛ, там некоторые особенности попадаются...
Из http://help.yandex.ru/xml/?id=362990 - описание ответа яндекса:
relevance> Приоритет, с которым найден документ, указан в атрибуте:priority= фразовое соответствие, строгое или нестрогое соответствие («phrase»|«strict»|«all»).
title> Заголовок документа, при этом слова запроса выделены тегами hlword> с атрибутом priority.
passages> Cписок пассажей текста (см. <passage> ниже) с найденными словами. Как правило, пассаж — это одно предложение, особенно если оно не слишком длинное.
passage> Один пассаж текста. Слова запроса выделены тегами hlword> с атрибутом priority, содержащим приоритет соответствия пассажа запросу.
_PassagesType> Часть документов находится по ссылкам. В таких случаях в выдаче Яндекса пишется "текст ссылок: ...". В XML тип содержимого пассажа обозначается так: 0 - обычный пассаж, 1 - пассаж содержит текст ссылок.
В общем, впечатление такое, что в соответствии с яндексовским отчетом по Ромипу http://romip.narod.ru/romip2006/03_yandex.pdf , где есть упоминания о "фразовой" релевантности, похожие же принципы заложены в нынешний поиск...
В общем, надо идти на страницу http://xml.yandex.ru/request_example.xml и пробовать задавать запросы в поле query> :)
Самое забавное - то, что релевантность типа "phrase" в реальности не наблюдается, она всегла strict... А вот прикольно то, что выделение слов в выдаче идет с обозначением типа пассажа, и иногда можно в одном фрагменте выделить два разных типа пассажей, к которым слова относятся (phrase и strict) ...
Например, с http://xml.yandex.ru/request_example.xml даем запрос окна пластиковые, выдачу ствим по 50 (groups-on-page="50").
Видим, что в поле title> выделение слов либо "strict" (когда ПЕРВОЕ ВКЛЮЧЕНИЕ "пластиковые" есть ДО "окон"), либо "phrase" (когда порядок слов в тайтле совпадает с порядком слов в запросе).
А промежуточных вариантов мало - в конце первой 50 есть сайты dreamokna.ru:
title>
hlword priority="strict">Пластиковые/hlword>
hlword priority="strict">Окна/hlword>
Мечты - установка
hlword priority="strict">пластиковых/hlword>
hlword priority="strict">окон/hlword>
veka kbe rehau, монтаж
hlword priority="phrase">окон/hlword>
,
hlword priority="phrase">пластиковые/hlword>
hlword priority="phrase">окна/hlword>
в кредит, окна veka ( века ), окна kbe ( кбе ), окна rehau ( рехау ), окна пвх
/title>
и и oknaprofi.ru:
title>
hlword priority="strict">Пластиковые/hlword>
hlword priority="strict">окна/hlword>
пвх в Москве - цены, остекление балконов лоджий, производство деревянных
hlword priority="phrase">окон/hlword>
hlword priority="phrase">пластиковые/hlword>
hlword priority="phrase">окна/hlword>
пвх, остекление балконов лоджий, пластиковые окна москва
/title>
-в выдаче тайтлы выделяются одинаковым болдом, :), а внутре они разных типов... Причем явно есть ограничение на число "запросных" слов в пассаже... У второго сайта слова "окона" в конце даже не выделены никакаим болдом, а в реальной выдаче там идет обрезание выводимого тайтла... Причем середина тайтла со "стриктом" заменяется многоточием, а тип релевантности "фрейз" всегда выводится, хоть и стоит в конце...
Такое впечатление, что реально находится первое слово из запроса, и от него идет отсчет числа слов, включенных в выделение от этого пассажа (не говорю "включенных в пассаж"). И тип пассажа по нему же определяется.
Кстати, в теге headline>, который соответствует метаданным, пассажи всегда "стрикт".
***
Еще одна прикольная вещь. В той же самой выдаче по "окна пластиковые" сайты есть с параметром <categ>:
categ> Описание найденной группы.... name= имя группы. Например, URL сайта при группировке по сайтам или название категории каталога при группировке по категориям;
-прикольно то, что оно иногда пишет "не тот" сайт в "группировке по сайтам", причем изредка сайты одного владельца попадают:
categ attr="d" name="balkonwest.ru" /> <domain>www.oknamobifon.ru</domain>
categ attr="d" name="kbe4you.ru" /> <domain>www.okna4me.ru</domain>
categ attr="d" name="okna-dar.ru" /> <domain>www.funkeprofi.ru</domain>
categ attr="d" name="z-host.ru" /> <domain>www.okna-petrov.ru</domain>
categ attr="d" name="alsico-okna.ru" /> <domain>www.rusokon.ru</domain>
categ attr="d" name="plastholding.ru" /> <domain>okna-magnit.ru</domain>
categ attr="d" name="oknavips.ru" /> <domain>www.okna.ru</domain>
categ attr="d" name="city-okna.ru" /> <domain>oknabm.ru</domain>
categ attr="d" name="plastik-okna.com" /> <domain>www.favorit-okna.ru</domain>
-интересно, глюк это или так и задумано...
PS В общем, надо копать...


Kevin Dark - основатель и руководитель контент-провайдера Adonico, автор рекламных идей и слоганов для компаний NEC, Philips, Kimberly&Clark.
