April 12, 2007

Размер robots.txt

Максимальный размер robots.txt , который может прочитать робот Яндекса - 32Kb. Сведения - из письма Платона Щукина.

December 18, 2006

Робот-зеркальщик Яндекса

По словам Романа Грачева из Яндекса, список зеркал обновляется каждые 2-3 недели. Значит робот-зеркальщик обходит сайты примерно с таким интервалом.

November 29, 2006

Язык запросов, препроцессинг и анализ выдачи Яндекса

Попытка понятным языком объяснить переколдовку запросов Яндексом и методику Миныча на форуме - http://forum.searchengines.ru/showthread.php?t=96767

November 07, 2006

Александр Садовский отвечает на вопросы

На форуме были собраны вопросы, на которые ответил Александр Садовский. Вот несколько цитат:

"У нас давно работает алгоритм, определяющий группы аффилированных
сайтов. В работе находится еще один алгоритм, который позволит выявить
многие новые виды сайтов-спутников. Его предварительные результаты нас
радуют."

"Что касается платных ссылок на мордах сайтов, с ними не все так
просто – ведь некоторые из них достаточно качественные (возможно из-за
высокой цены размещения), поэтому алгоритм их фильтрации пока не
завершен."

Про ссылочные блоки:
"В шахматах мало объявить шах, удачная партия заканчивается матом."

"Яндекс автоматически обнаруживает многие «накруточные» ссылки и
группы аффилированных сайтов. Разработки продолжаются и результаты по
мере готовности мы будем внедрять."

"тИЦ зависит исключительно от ссылок на сайт и с него(!), от темы сайта;"

"Ссылки из Яндекс.Каталога учитываются как ссылки авторитетного
сайта."

"В алгоритме анализа ссылок мы смотрим и на фактор времени тоже."

"«Сохраненную копию» нельзя пока посмотреть только для страниц из
быстрого робота и это скоро будет поправлено."

"За последние три месяца долю дорвеев, видимую пользователям (находимых
в десяти первых результатах) нам удалось существенно уменьшить.
Успокаиваться еще очень рано, потому что многие дорвейщики — умные и
экономически мотивированные люди, активно ведущие эксперименты по
созданию других видов спама и повышению отдачи от существующего.
Например, дорвеи мутируют в псевдосайты, основанные на бесплатном или
краденном контенте (новости, каталоги, доски объявлений, имитация
«живого» сайта и т.д.) Мы будем стараться, чтобы сайты, интересные
пользователям, и впредь находились на любой запрос."

"если сайт активно участвует в ссылочных обменах, «линкаторах» и
другими способами ссылается на «накрученные» ресурсы и спам, он может
быть автоматически пессимизирован."

"Мы очень дружелюбны к веб-мастерам. Мы планируем расширить раздел
Помощи для веб-мастеров в ближайшее время."

"среди покупных ссылок мало совсем нерелевантных. Но это не значит,
что выдача от учета ссылок с морд становится всегда лучше."

"когда у компании, торгующей пластиковыми окнами, появляется пять
идентичных сайтов или разных, но очень узких (немного утрируя, но один
сайт — про окна трехкомнатных квартир, другой — об окнах двухкомнатных
и т.д.), это делается явно не для того, чтобы пользователю было легче
получить информацию, а для воздействия на поисковые системы."


Вопрос: "Не планируется ли урезать поисковый синтаксис, и сокращать кол-во
информации, которой Яндекс "помогает" оптимизаторам? Какая судьба
ожидает переколдовку запроса, список бэклинков, операторы типа
anchor#link=".."[keyword] и т.д.?"
Ответ: "Часть этой информации иллюзорна с точки зрения оптимизации (если
оператор link показывает обратную ссылку на страницу, это не значит,
что ссылка учитывается в ранжировании)."

Вопрос: "Существует ли бонус (преимущество) для новопроиндексированных
страниц с уже ранее проиндексированного сайта перед другими страницами
других сайтов, релевантных данному запросу? И на какое время, если
да?"
Ответ: "Бонуса не существует. В то же время, страницы с новостной и актуальной
информацией, индексируемые быстрым роботом, ранжируются по-другому,
чем страницы из основного робота."

Вопрос: "Использует ли Яндекс при ранжировании что-то похожее на алгорим
TrustRank или это только в планах?
Ответ: Похожий по смыслу алгоритм используется в Яндексе в ранжировании уже
несколько лет."

(ноябрь 2006)

November 02, 2006

Плотность ключевого слова

Большая тема на форуме по поводу оптимальной плотности ключевого слова на странице. Если углубляться в дебри, то:

Факт в том, что для определения веса страницы по отношению к термину, используется нормированная внутридокументная частота (по размеру страницы, или по частоте самого частотного термина, или еще как), а не абсолютная. И поэтому говорить о оптимальном значении абсолютной частоты бессмысленно.
А если предположить, что нормировка tf происходит не по длине документа, а по максимальной tf, то действительно получается, что для того, чтобы получить максимум суммы контрастностей, максимизировать надо эту нормировку, т.е. минимизировать разницу между tf термина и tfmax максимально частотного термина, т.к. значение idf для конкретного термина - величина постоянная в том смысле, что мы на нее мы на нее повлиять не можем.

Если по проще, то:

  1. Желательно, чтобы точное вхождение ключевой фразы хотя бы раз встречалась в документе.
  2. Повторение желательно, но с учетом с сохранением осмысленности текста.
  3. Также желательно вхождение в определенные зоны документы такие, как title, Hx, strong/b и ссылающуюся на документ внутреннюю навигацию.

October 30, 2006

Письма Платона Щукина

Несколько полезных формулировок из ответов службы поддержки Яндекса:
***
Устранена причина обнуления ТИЦ

Благодарим за сообщение. Причина, по которой тИЦ для Вашего сайта был обнулен, устранена. Окончательно вопрос о снятии санкций с сайта будет решаться через месяц.
***
Бан за дорвейные поддомены

Лицом, ответственным за создание или поддержание вашего сайта site.ru была нарушена «Лицензия на использование поисковой системы Яндекса» – http://rules.yandex.ru/termsofuse.xml. Сайт запрещен к индексированию за поисковый спам. В соответствии с пунктом 3.5 Лицензии мы не предуведомляем об удалении сайтов из поиска, и не даем никаких гарантий и сроков на повторное их включение в индекс. Многие документы, расположенные в домене site.ru, это сайты в поддоменах, осуществляют редирект на страницы в других доменах, давая при этом ответ сервера, отличный от 3хх (страница с редиректом). Так как пользователи не смогут увидеть подобные документы (браузер перенаправит их на другую страницу), показывать их в поиске не имеет смысла. Поэтому домен site.ru был исключен из поиска.

Мы не вступаем в переписку по поводу степени тяжести нарушения, конкретных адресов страниц на сайте и/или конкретных технических приемов, а также способов устранения проблемы.

Если вы (владелец домена) уберете все подобные редиректы со страниц вашего домена, он автоматически восстановится в поиске через некоторое время.
***
Автоматический бан форума за спам

В выдаче сайта также быть не может.
Как мне удалось выяснить, Ваш форум содержит большое количество спам-сообщений и поэтому временно исключен из поиска. Как только Вы удалите весь спам, форум автоматически начнет находиться. Мы также рекомендуем Вам тщательно проверять все новые сообщения добавляемые в форум и не допускать появления нового спама. Спам – это автоматически сгенеренные сообщения с большим количеством поисковых слов и ссылками на другие сайты (дорвеи).
Подобные блокировки производятся полностью автоматически при обнаружении спамовых страниц нашими поисковыми роботами. При этом количество таких страниц должно быть довольно большим в процентном соотношении к общему объему проиндексированных с сайта страниц. Попробуйте ужесточить свою модерацию, проблем с исчезновением форума из поиска должно стать меньше.
***
Бан каталога навсегда

Сайт _www.site.ru_ был запрещен к индексированию 09 октября 2006, на этот момент он был распознан как поисковый спам (смотрите «Лицензию на использование поисковой системы Яндекса» – http://rules.yandex.ru/termsofuse.xml), а именно автоматически сгенерированный и пополняемый каталог.

Страницы продобных сайтов предназначены не для пользователей, а для робота поисковой системы и созданы с целью привлечения трафика и дальнейшего его перенаправления.

В соответствии с пунктом 3.5 Лицензии мы не предуведомляем об удалении сайтов из поиска. Вопрос возможности восстановления вашего ресурса в поисковой базе Яндекса, к сожалению на данный момент, рассматриваться не будет.
***
Бан всех сайтов на одном хостинге

Дело в том, что в домене site.ru размещено большое количество сайтов, которые нарушают Лицензию Яндекса пункт 3.5. -- http://rules.yandex.ru/termsofuse.xml. Администрация хостинга, видимо, слабо борется с владельцами подобных ресурсов, поэтому мы вынуждены временно заблокировать индексирование сайтов в данной доменной зоне. Если администрация хостинга примет шаги по устранению нарушений, мы рассмотрим возможность разблокировки доменной зоны.
***
Пессимизация

Лицом, ответственным за создание или поддержание указанного сайта
была нарушена «Лицензия на использование поисковой системы Яндекса» –
http://www.yandex.ru/info/termsofuse.html#spamer. В частности, Ваш сайт использует ссылочный спам, то есть размещает и получает ссылки, предназначенные исключительно для воздействия на алгоритмы поисковой системы.
В силу того, что Яндекс не может корректно отранжировать страницы вашего сайта и сайтов, цитируемых вашим, по многим поисковым запросам, мы вынуждены временно игнорировать ссылки на сайт www.site.ru.

Мы не вступаем в переписку по поводу степени тяжести нарушения, конкретных адресов страниц на сайте и/или конкретных технических приемов, а также способов устранения проблемы.

Чтобы ссылки на сайт снова учитывались, вам необходимо убрать с сайта элементы, нарушающие упомянутую выше Лицензию. Восстановление может быть произведено не ранее чем через месяц после получения уведомления о принятых мерах.
***
Без www и с - ошибка оптимизатора (2006-05-31)

Вы что-то опять намутили воду, с www.site.ru стоит редирект на site.ru, а site.ru запрещен к индексированию как зеркало www.site.ru. Надо снять редирект и сайт проиндексирует по адресу www.site.ru.
***
Передача эффекта ссылок при склеивании зеркал

Пусть есть site.ru и www.site.ru, с site.ru стоит серверный редирект 301 на www.site.ru, далее, имея вышеуказанные условия,
ситуация 1 - сайты не склеены роботом зеркальщиком Яндекса - влияние ссылок передаваться не будет,
ситуация 2 - сайты склеены роботом зеркальщиком Яндекса - влияние ссылок будет передаваться.
***
Замена сайта в YaCa

Для того, чтобы изменить url сайта в Каталоге есть два пути: быстрый и медленный.

1) Быстрый. Поставить сереверный редирект со старого адреса на новый и сообщить нам об этом, тогда описание будет перенесено на новый адрес в течение нескольких дней вручную. Недостаток этого пути - потеря тИЦ накопленного на старом сайте.

2) Медленный. Сделать сайты полными зеркалами с правильным robots.txt -- http://www.yandex.ru/info/webmaster2.html#virtual, тогда после склейки тИЦ просуммируется. Недостаток - может занять 2 месяца.

Если Вы не хотите терять цитируемость, то для Вас подходит второй вариант.
***
Назначение оператора % в языке запросов Яндекса

Оператор % для многословных запросов означает, что слово, рядом с которым он поставлен, может отсутствовать; % в однословных запросах игнорируется. По запросам [мебель] и [%мебель] результаты отличаются, так как в первом случае Яндекс поднимает вверх результаты, где есть точная форма слова "мебель", а во втором предполагает, что пользователь точно знает, чего он хочет, и не трогает запрос.
***
Сроки переклейки зеркал

Пока главным зеркалом останется www.site.ru. Надо дождаться захода на сайт робота зеркальщика, он отследит внесенные в robots.txt изменения и переклеит сайты по адресу, указанному в Host. Процесс переклейки занимает до 4-6 недель, ускорить его нельзя.
***
Передача эффекта ссылок при склеивании зеркал

Прописывание директивы Host, если при этом сайты работают и отдаеют роботу 200, при этом с них не установлены редиректы, не удаляют сайты из базы до тех пор, пока зеркала не подклеятся к одному из сайтов. Тем не менее, в любом случае зеркала будут удалены из поисковой базы, в поиске должен остаться только один сайт из группы одинаковых сайтов. Host использовать рекомендуется, так как это позволяет роботу явно указать на адрес главного зеркала.

Измените код главных страниц на неосновных зеркалах так, чтобы все (или почти все) ссылки с них вглубь сайта были абсолютными и вели на основное зеркало. Этого шага достаточно для перекрейки

301-й редирект со старых страниц на новые ставить можно. Но, до момента переклейки все страницы, с которых будет стоять редирект будут удалены из базы, эффект ссылок передаваться не будет.

Страницы с серверным редиректом удаляются из базы - http://webmaster.yandex.ru/faq.xml?id=502499#redirect Эффект ссылок передаваться не будет.
***
Как закрыть индексацию отдельных страниц только для Яндекса

USER AGENT нашего робота начинается со слова Yandex, далее могут идти
служебные поля (дата, версия и т.д.), которые могут меняться.

То есть Вы можете составить robots.txt для Яндекса и для остальных роботов по
отдельности:

User-Agent: *
Disallow: /dir1
Disallow: /dir3

User-Agent: Yandex
Disallow: /dir2
Disallow: /dir4
***
Кириллически адреса сайтов

Кириллические адреса не являются стандартом. А это означает, что пользователь, имеющий стандартный браузер, не сможет их увидеть – пока сам не установит специальный софт. Как мы знаем, желающие и умеющие устанавливать софт составляют доли процентов аудитории. Таким образом, кириллические домены не видны подавляющему количеству пользователей интернета.

Поэтому поисковый робот Яндекса их не индексирует и не будет этого делать то тех пор, пока они не станут стандартом. Ну а владельцы таких доменов должны понимать, что, если не заведут себе стандартного имени латиницей, то сильно ограничат круг пользователей.
***
Особенности рубрики Универсальное в YaCa

Раздел "Страны и города" будет расформирован, сайты из этого раздела переносятся в другие рубрики, в частности Ваш сайт www.site.ru перенесен в рубрику "Универсальное" первого уровня. Для сайтов, размещенных в этой рубрике, в результатах поисковой машины информация о тематике не появляется.
***
Украли контент

Вам необходимо обратиться к хостеру сайта www.site.ru с требованием заблокировать сайт, пока страница, скопированная с Вашего сайта, не будет удалена.
***

October 19, 2006

Операторы serverurl и surl

Вопрос: Чем отличается поиск по сайту с помощью операторов serverurl и surl? Ответ: Параметр serverurl не учитывает поддомены. Параметр surl ищет с учетом поддоменов.

October 17, 2006

Обслуживающий сервер Яндекса

По ссылке http://yandex.ru/cgi-bin/hostname можно узнать какая из машин фронт-енда Яндекса обслуживает ваши запросы в настоящий момент. Это может оказаться полезно, при отсылке писем с багами в суппорт Яндекса.

Садовский про большие и маленькие буквы

Александр Садовский прокомментировал на форуме Searchengines.ru работу Яндекса со словами, написанными с маленькой и большой буквы:

Вопрос: выдача по запросам [Mu Online] и [mu online] разная, неужели теперь нужно покупать морды со всевозможными комбинациями регистра?

Ответ: С точки зрения поиска сейчас это один и тот же запрос. Эти изменения были месяц или два назад описаны в Помощи. В ваших примерах результат разный, т.к. в первом случае закешировался неполный ответ (что видно и по в 1,5 раза меньшему количеству найденного). Мы знаем об этом эффекте и постепенно устраним его проявление. Но раньше по запросу, где есть слова с заглавной буквы, отсеивались документы, где таких слов нет, теперь такая фильтрация отсутствует и при одинаковом запросе к поиску (после всех преобразований) будет одинаковый результат.

Чтобы убедиться, что ранжирование одинаковое, попробуйте видоизменить запрос так, чтобы с точки зрения поиска он оставался таким же, но с точки зрения кеширования был уже другим запросом, например, [+mu online] На первом месте -- www.muonline.fm.

А ссылки с морд покупать не нужно.

October 04, 2006

основной домен в Google

Теперь можно указать основной домен сайта для Google - с www или без
www.

Это делается для конкретного сайта с в интерфейсе Google Sitemaps.

Сообщение в блоге Google
Раздел хелпа