Сделать стартовой  
Главная   О проекте   обновлено: 2008-02-19 13:05:00
Всего 2672 новостей, + 0 сегодня.
Индикатор апдейтов поисковых систем

ПРЯМОЙ ЭФИР
forum.searchengines.ru

Оценки
значит кому-то понравилось

Интересное

Внутренности Яндекс-XML

Март 15, 2007

Почитал я тут Яндекс-ХМЛ, там некоторые особенности попадаются...

Из http://help.yandex.ru/xml/?id=362990 - описание ответа яндекса:

relevance> Приоритет, с которым найден документ, указан в атрибуте:priority= фразовое соответствие, строгое или нестрогое соответствие («phrase»|«strict»|«all»).

title> Заголовок документа, при этом слова запроса выделены тегами hlword> с атрибутом priority.

passages> Cписок пассажей текста (см. <passage> ниже) с найденными словами. Как правило, пассаж — это одно предложение, особенно если оно не слишком длинное.

passage> Один пассаж текста. Слова запроса выделены тегами hlword> с атрибутом priority, содержащим приоритет соответствия пассажа запросу.

_PassagesType> Часть документов находится по ссылкам. В таких случаях в выдаче Яндекса пишется "текст ссылок: ...". В XML тип содержимого пассажа обозначается так: 0 - обычный пассаж, 1 - пассаж содержит текст ссылок.

В общем, впечатление такое, что в соответствии с яндексовским отчетом по Ромипу http://romip.narod.ru/romip2006/03_yandex.pdf , где есть упоминания о "фразовой" релевантности, похожие же принципы заложены в нынешний поиск...

В общем, надо идти на страницу http://xml.yandex.ru/request_example.xml и пробовать задавать запросы в поле query> :)

Самое забавное - то, что релевантность типа "phrase" в реальности не наблюдается, она всегла strict... А вот прикольно то, что выделение слов в выдаче идет с обозначением типа пассажа, и иногда можно в одном фрагменте выделить два разных типа пассажей, к которым слова относятся (phrase и strict) ...

Например, с http://xml.yandex.ru/request_example.xml даем запрос окна пластиковые, выдачу ствим по 50 (groups-on-page="50").

Видим, что в поле title> выделение слов либо "strict" (когда ПЕРВОЕ ВКЛЮЧЕНИЕ "пластиковые" есть ДО "окон"), либо "phrase" (когда порядок слов в тайтле совпадает с порядком слов в запросе).

А промежуточных вариантов мало - в конце первой 50 есть сайты dreamokna.ru:

title>

hlword priority="strict">Пластиковые/hlword>

hlword priority="strict">Окна/hlword>

Мечты - установка

hlword priority="strict">пластиковых/hlword>

hlword priority="strict">окон/hlword>

veka kbe rehau, монтаж

hlword priority="phrase">окон/hlword>

,

hlword priority="phrase">пластиковые/hlword>

hlword priority="phrase">окна/hlword>

в кредит, окна veka ( века ), окна kbe ( кбе ), окна rehau ( рехау ), окна пвх

/title>

и и oknaprofi.ru:

title>

hlword priority="strict">Пластиковые/hlword>

hlword priority="strict">окна/hlword>

пвх в Москве - цены, остекление балконов лоджий, производство деревянных

hlword priority="phrase">окон/hlword>

hlword priority="phrase">пластиковые/hlword>

hlword priority="phrase">окна/hlword>

пвх, остекление балконов лоджий, пластиковые окна москва

/title>

-в выдаче тайтлы выделяются одинаковым болдом, :), а внутре они разных типов... Причем явно есть ограничение на число "запросных" слов в пассаже... У второго сайта слова "окона" в конце даже не выделены никакаим болдом, а в реальной выдаче там идет обрезание выводимого тайтла... Причем середина тайтла со "стриктом" заменяется многоточием, а тип релевантности "фрейз" всегда выводится, хоть и стоит в конце...

Такое впечатление, что реально находится первое слово из запроса, и от него идет отсчет числа слов, включенных в выделение от этого пассажа (не говорю "включенных в пассаж"). И тип пассажа по нему же определяется.

Кстати, в теге headline>, который соответствует метаданным, пассажи всегда "стрикт".

***

Еще одна прикольная вещь. В той же самой выдаче по "окна пластиковые" сайты есть с параметром <categ>:

categ> Описание найденной группы.... name= имя группы. Например, URL сайта при группировке по сайтам или название категории каталога при группировке по категориям;

-прикольно то, что оно иногда пишет "не тот" сайт в "группировке по сайтам", причем изредка сайты одного владельца попадают:

categ attr="d" name="balkonwest.ru" /> <domain>www.oknamobifon.ru</domain>

categ attr="d" name="kbe4you.ru" /> <domain>www.okna4me.ru</domain>

categ attr="d" name="okna-dar.ru" /> <domain>www.funkeprofi.ru</domain>

categ attr="d" name="z-host.ru" /> <domain>www.okna-petrov.ru</domain>

categ attr="d" name="alsico-okna.ru" /> <domain>www.rusokon.ru</domain>

categ attr="d" name="plastholding.ru" /> <domain>okna-magnit.ru</domain>

categ attr="d" name="oknavips.ru" /> <domain>www.okna.ru</domain>

categ attr="d" name="city-okna.ru" /> <domain>oknabm.ru</domain>

categ attr="d" name="plastik-okna.com" /> <domain>www.favorit-okna.ru</domain>

-интересно, глюк это или так и задумано...

PS В общем, надо копать...

Подчеркивание vs. тире в ссылках

Март 5, 2007
Что вы думаете по поводу данной статьи?
http://www.mattcutts.com/blog/dashes-vs-underscores/

Я всегда считал что нет разницы между test1_test2.html и test1-test2.html
Однако автор утверждает что test1_test2.html найдется в Гугле только по запросу test1_test2 и не найдется по test1 или test2...

Интересно а как на этот счет Яндекс?

XSS (или не xss?) уязвимости

Март 4, 2007

Навеяно этой темой форума searchengines.ru (и еще одной, где о знакомых упоминается :)).

Не знаю уж, называется ли это xss-уязвимостью, или не называется, но. Приведен пример, в котором в поиске спец. строки она вставляется в тайтл, а если туда засунуть теги (закрывающий тег тайтл, например, и хеад, и дальше ссылку), то будет ссылка с выдуманной страницы. Иногда запрос вставляется просто в текст страницы. Если есть проверка на <и> - то можно использовать UTF-7 (но не всегда: когда вставка идет в тайтл и указание кодировки идет далеко) В общем, люди вставили через поиск свои ссылки, которые качают клиентов.

Ту тему почистили, примеры:

1. Ищем в Яндексе $title(+a href http) и идем на 5-6 страницу. Видим кучу страниц, в урлах которых хтмл-код, типа http://www.cci.ru/showall.asp?t_id=1&query=%22%3E%3Ca+href%3Dhttp%3A%2F%2Finterfaks%2Ekiev%2Eua%2F%3E%E0%F0%E5%ED%E4%E0+%EA%EE%F2%F2%E5%E4%E6%E0+%ED%E0+%ED%EE%E2%FB%E9+%E3%EE%E4%3C%2Fa%3E%3Ca+alt%3D%22&page=33 . При вставке в текст страницы они дают ссылки на "клиента". Только осталось их качнуть с доноров.

2. Среди этих сайтов я нашел и сайт, который когда-то делал и продвигал - ultraslim.ru. Ссылки с него люди получают через поиск: $title(+a href http) на сайте: ultraslim.ru . Коллекция из 160 украинских (в основном!) сайтов - акцепторов. В общем, получить тИЦ 90-140 реально за счет этого метода...

3. Похожая вещь на сайте cottage.ru: #url="www.cottage.ru/search/index.php?q=*"- аж 415 проиндексированных страниц с поиском :) http://www.yandex.ru/yandsearch?text=%23url%3D%22www.cottage.ru%2Fsearch%2Findex.php%3Fq%3D*%22&stype=www

4. Можно найти "заказчиков" - сайты, с которых "качаются" доноры. Надо думать, что они связаны с заказчиками... Если на странице

http://www.nevprospekt.ru/?newsid=5296 ссылка "источник" выгладит как http://www.aurore-nissan.ru/search/search.html?searchString=%22%3E%3Ca+href%3D%22http%3A%2F%2Fallautoalarm.ru%2F%22%3E%F3%F1%F2%E0%ED%EE%E2%EA%E0+%F1%E8%E3%ED%E0%EB%E8%E7%E0%F6%E8%E9%3C%2Fa%3E%3Ca+alt%3D%22 - просто качают люди доноров...

5. Реально существует около 200 известных сайтов с дырками: содержат ссылку на sim-sim.org - 194 сайта... Пройтись по всем и собрать коллекцию уязвимых сайтов :) Тут - 110 сайтов и т.д.

Понятно, что сделать такую ссылку проще, чем взращивать сателлит. :) Прооиндексировать ее каким-нибудь фрихостом - для низкочастотки, действительно, подойдет :)

Литература:

http://hack-expo.void.ru/groups/antichat/html/rutxtutf7.html

http://www.securitylab.ru/analytics/274302.php

http://barushev.net/archive/2005/wordpress-xss.html

http://www.dsec.ru/about/articles/web_xss/

Хорошая статья про Supplimental

Март 4, 2007
Лекарство против Supplimental

Оставить комментарий

Рекомендации от инсайдера Yahoo

Февраль 25, 2007

Несколько рекомендаций по оптимизации. Вроде как от инсайдера Yahoo.

1) Register your domains for 2-5 years, not 1 year
2) Avoid buying domains with multiple dashes
3) Do begin to obtain RELEVANT links from high authority pages and directories as soon as possible for both new and old sites
4) Beware who you link out to and do not participate in link exchanges with non-related content sites
5) Have a plan in place to update your site regularly with new content and shuffle featured content (e.g. homepage features) regularly. This will encourage more search engine spider activity and faster updates of your site.
6) Do use Yahoo Site Explorer (beta) to monitor your site to see how many pages are indexed and to analyze the links to your site (and your competition)
7) Do write unique quality articles and submit them to article directories
8 ) Do use press releases and submit the to places like prweb.com
9) Do not buy ROS (run of site links) if you want to rank well on Google, particularly on a new site. (A ROS link is a link that is placed on every page of a site, like in a footer or navigation bar)
10) Build your links and submit to directories gradually. Mix up the anchor text of your incoming links with your top 5 or 6 keyword phrases and category keyword phrases.
11) Standard onpage SEO is enough (title tags with keywords, h1 for heading, static url, proper internal link structure, sitemap, deep content, article content focusing on the search tail and funnel pagerank back up to category pages).
12) Avoid search engine forums and areas where kids and beginners with no experience spread bogus rumors.
13) Do read Matt Cutt’s blog, threadwatch.org, Pandia, Search Engine Watch, Search Engine Land (new), and other top expert sites for additional information.
14) do invest in the right professional tools for seo and avoid the spam *tool of the day*
15) Avoid auto-page generators at all costs. They leave footprints and are a waste of time.
16) Do have a long term SEO and content plan. Long term unique valuable content will always beat out spam in the long run.

Полный текст тут.

Web-разработка: Как увеличить доверие к сайту

Февраль 19, 2007
Одна из лабораторий стэнфордского университета опубликовала результаты своего исслоедования в виде 10 советов по увеличению доверия к сайту.

1. Делайте всё для того, чтобы информацию, опубликованную на сайте, можно было легко проверить.

Этого можно достичь публикацией источников материалов. Даже, если люди не будут проверять ссылки, они увидят, что информация чем-то подкреплена.
читать дальше →

Почему фармацевтика?

Февраль 19, 2007

Очень интересный перевод, напомнил об одном интересном интервью и статистике.

Keywords, keywords, keywords!

Февраль 9, 2007

Исследования и тулзы о ключах и для ключей

Нововведение в Google Webmaster Tools

Февраль 9, 2007
Зайдите в свой аккаунт. Теперь Гугл показывает внешние и внутренние ссылки на сайт/сайте. “В этой таблице приведен список страниц сайта http://www.mediasite.ru/, на которые есть ссылки с других сайтов. Нажмите на число в столбце “Внешние ссылки”, чтобы просмотреть примерный список ссылок на эту страницу. Просмотрите внутренние ссылки и ссылки на страницы субдоменов в списке внутренних ссылок.” “В этой [...]

Интервью с Ярославом Шакулой (Kevindark)

Февраль 9, 2007
Kevin Dark - основатель и руководитель контент-провайдера Adonico, автор рекламных идей и слоганов для компаний NEC, Philips, Kimberly&Clark. Читать
Последние новости
Самое популярное

Записи (RSS)
Комментарии (RSS)