Публикую некоторые свои записи. Мне пригодилось - в конечном итоге прога почти написана. Может еще кому пригодится
На входе имеем:
киворды и домены
На выходе: должны иметь траф естественно
Проблемы: 1. Киворды никак не отсортированы. Содержат много мусора (просто хостнеймы, например). Или просто высосанные из пальца запросы, которые нафик не нужны.
Что мы имеем сейчас, на примере рутраффика.
На сотне ру-доменов крутятся доры на одном скрипте. У каждого домена стоят ссылки на поддомены третьего и четвертого уровня (хотя есть и пятого и шестого). Стоят ссылки на рандомные домены (берутся из базы тех хостнеймы, на которые роботы уже ходили). В схеме допустим 100 000 кивордов. Каждая страница ссылается на 30 других рандомных страниц.
Наблюдения:
Почти все из этой сотни доменов проиндексированы гуглом по 10-15k страниц. Большинство этих доменов приносят копеечный траф. Причем очень странный траф. Часто с других стран ( google.lv etc…) При изучении запросов было выявлено, что по ним в гугле очень мало результатов (иногда даже 5-10).
Наиболее ощутимый траф приносят как раз домены, которые наименее проиндексированы. То есть те домены, которые я позже всех ввел в схему.
Далее я решил провести эксперимент - взял и перелинковал все домены. Правильными анкорами на каждой странице ставил ссылки на внутреннюю страницу рандомного домена.
Гугл чуть по-другому стал индексить вроде, полез на старые. Но на траф это никак не повлияло.
Почему это произошло:
Голимый рандом во всем виноват.
там пересекается все со всем. Груши с гирями, окна с порно запросами.
А теперь как нужно делать:
Обязательно на одном домене должна быть ярко выраженная тематика.
Ссылки должны стоять только на доры ТОЙ же тематики.
Можно эмитировать блог
Чтобы сайт рос, например, со скоростью 1 статья в день и 5 10 постов к каждой статье в день. (слишком сложно реализуется и вообще выглядит замороченно)
Самая главная проблема для меня сейчас - это как разбить киворды на тематики.
Потому как их реально много.
И никакой категоризации нет.
Как вариант, можно использовать старую схему, когда в базу делались fulltext запросы. Таким образом, будут сопоставляться киворды, состоящие из одинаковых слов.
(Очень сомнительный вариант, что-то меня от него нервозит)
Кстати говоря, необязательно, сразу начинать городить гигантские ужасные схемы.
Можно на примере нескольких доменов и скажем пары сотен запросов попробовать что-то соорудить.
Я согласен даже рассчитывать на долгое развитие сайта и отсутствие траффика. То бишь, почему бы не попробовать сделать несколько доров прямо руками.
Из нерешенных задач осталась проблема с фильтрованием коммерческих кеев.
Как один из вариантов предлагается работать по старой схеме как и ру-гуглом. Те во время захода робота - до данному конкретному киворду мы лезем в гугль за сниппетами.
В старом случае количество результатов полностью игнорировалось. Так вот сейчас предлагается удалять киворд из схемы если в гугле по нему ничего не нашлось. Или нашлось но очень мало результатов. (по крайней мере если вообще ничего не нашлось, то точно можно удалять)
Можно по-другому реализовать связь между числом в адресе страницы с id в базе кеев.
те необязательно страница page23424.php должна указывать на кей номер 23424
Это в принципе можно рандомизировать (псевдорандомизировать). Сразу возникает проблема правильной перелинковки.
И опять же в ен-траффике можно использовать сам кей в названии страницы.
как это будет выглядеть buy-online-cheap-viagra-no-prescription.html
Учитывая все эти факторы, у нас остается непродуманной схема линковки и соответствия с киводом.
Также разделение кеев по категориям.
была у меня еще такая идея.
Типа первый кей= дверь . Делаем запрос в гуглю-> получаем страницу контента+ 10 титлов = 10 кеев на которые будем дальше линковать. Потом дергаем в качестве запроса эти кеи и тд и тп.
хз куда это нас приведет.
аха вспомнил еще одну проблему которая вечно маячит перед носом.
Комбинирование кейвордов. Так как часто вижу доры у которых страница не поймеш под какой кей заточена. Хотя понятно в принципе, что под высокочастотник. Но всякие h1 там делались по жизни из нескольких низкочастотников. И вообще все заголовки.
Имеем кучу кеев
Среди них точно есть такие, которые не являются коммерческими
Есть также вообще глубоко бессмысленные.
И если бы первые я бы еще оставил
То вторые вообще смысла не имеют в принципе.
Потом. Как организовать хранение кеев в линейной структуре? Если один удалить, то линейность нарушается - выпадает елемент с конкретным id.
если я уже таким образом определился
какие вознили проблемы, то почему бы не предложить способ их решения?
1. Мне жалко удалять многие кеи.
2. Сервак не любит много кеев
3. Нужно работать эффективно.
Отсюда следует вывод: не нужно жалеть мусор
Вопрос только как он него избавиться.
Как вариант предлагаю в online по мере кушанья роботом, собирать статистику по каждому кею.
Итак, какие должны быть условия, чтобы кей стал мне абсолютно не нужен?
< == Малое количество результатов в выдаче гугла по этому запросу.
эксперимент->
смотрим биды по запросу ’sex’ в umax
sex
$0.0544
$0.0324
free porn
$0.0544
$0.0285
phentermine
$5.2560
$0.6052
dfvdjhfbvdjh
$0.0360
$0.0200
csdc sdcsdc
$0.0360
$0.0200
i hate rock
$0.0355
$0.0198
Quote Results For Keyword
$0.0408
$0.0180
странно что по киворду ‘Quote Results For Keyword’
нашлись такие вот псевдообьявления:
The best directory for Quote Result For Keyword $0.0408
Find quote results for keyword $0.0360
Look for quote results for keyword on eBay $0.0270
Looking For quote results for keyword? $0.0180
Find quote results for keyword $0.0180
where the budda lived
$0.0509
$0.0200
garbage collection
$0.0747
$0.0270
где тут связь?
буду рад любым коментам