| Читайте в разделе |
|
|
|
|
|
| Новости сайта |
|
| |
|
 |
|
100 лиц Столицы - литературно-художественный портал о Иерусалиме и его жителях.
Онлайн-библиотека с более, чем 37 000 книг!
Виртуальный музей - более 10 000 репродукций шедевров мировой живописи!
Прогулки по Булгаковскому Иерусалиму и многое-многое другое!
|
| |
| |
|
|
Что такое PageRank?
Первыми, кто запатентовал систему учета внешних ссылок стала компания Google. Алгоритм получил название PageRank. В этой главе мы расскажем об этом алгоритме и о том, как он может влиять на ранжирование результатов поиска
PageRank рассчитывается для каждой веб-страницы отдельно, и определяется PageRank’ом (цитируемостью) ссылающихся на нее страниц. Своего рода замкнутый круг.
Главная задача заключается в том, чтобы найти критерий, выражающий важность страницы. В случае с PageRank таким критерием была выбрана теоретическая посещаемость страницы.
Рассмотрим модель путешествия пользователя по сети путем перехода по ссылкам. Предполагается, что пользователь начинает просмотр сайтов с некоторой случайно выбранной страницы. Затем по ссылкам он переходит на другие ресурсы. При этом есть вероятность того, что посетитель покинет сайт и вновь начнет просмотр документов со случайной страницы (в алгоритме PageRank вероятность такого действия принята 0.15 на каждом шаге). Соответственно, с вероятностью 0.85 он продолжит путешествие, перейдя по одной из доступных на текущей странице ссылок (все ссылки при этом равноправны). Продолжая путешествие до бесконечности, он побывает на популярных страницах много раз, а на малоизвестных - меньше.
Таким образом, PageRank веб-страницы определяется как вероятность нахождения пользователя на данной веб-странице; при этом сумма вероятностей по всем веб-страницам сети равна единице, так как пользователь обязательно находится на какой-либо странице.
Поскольку оперировать вероятностями не всегда удобно, то после ряда преобразований с PageRank можно работать в виде конкретных чисел (как, например, мы привыкли видеть его в Google ToolBar, где каждая страница имеет PageRank от 0 до 10).
Согласно описанной выше модели получаем, что:
Рассмотрим теперь, каким образом PageRank может влиять на ранжирование результатов поиска (говорим «может», так как в чистом виде PageRank уже давно не участвует в алгоритме Google, как это было раньше, но об этом ниже). С влиянием PageRank все обстоит очень просто – после того как поисковая система нашла ряд релевантных документов (используя текстовые критерии), отсортировать их можно согласно PageRank – так как логично будет предположить, что документ, имеющий большее число качественных внешних ссылок, содержит наиболее ценную информацию.
Таким образом, алгоритм PageRank "вытесняет" наверх в поиске те документы, которые и без поисковика наиболее популярны.
В настоящее время PageRank не используется непосредственно в алгоритме Google. Это и понятно – ведь PageRank характеризует лишь количество и качество внешних ссылок на сайт, но совершенно не учитывает ссылочный текст и информационное содержимое ссылающихся страниц – а именно этим факторам придется максимальное значение при ранжировании. Предполагается, что для ранжирования Google использует так называемый тематический PageRank (то есть учитывающий только ссылки с тематически связанных страниц), однако детали этого алгоритма известны лишь разработчикам Google.
Узнать значение PageRank для любой веб-страницы можно с помощью Google ToolBar, который показывает значение PageRank в диапазоне от 0 до 10. Следует учитывать, что Google ToolBar показывает не точное значение PageRank, а лишь диапазон PageRank, в который попадает сайт, причем номер диапазона (от 0 до 10) определяется по логарифмической шкале.
Поясним на примере: каждая страница имеет точное значение PageRank, известное только Google. Для определения нужного диапазона и вывода информации на ToolBar используется логарифмическая шкала (пример показан в таблице)
Все цифры условны, однако наглядно демонстрируют, что диапазоны PageRank, показываемые в Google ToolBar, не равнозначны друг другу. Например, поднять PageRank c 1 до 2 легко, а с 6 до 7 гораздо сложнее.
На практике PageRank используется в основном в двух целях:
- Быстрая оценка уровня раскрученности сайта. PageRank не дает точной информации о ссылающихся страницах, но позволяет быстро и просто «прикинуть» уровень развития сайта. Для англоязычных сайтов можно придерживаться следующей градации: PR 4-5 – наиболее типичный PR для большинства сайтов средней раскрученности. PR 6 – очень хорошо раскрученный сайт. PR 7 – величина, практически недостижимая для обычного вебмастера, но иногда встречается. PR 8, 9, 10 – встречаются только у сайтов крупных компаний (Microsoft, Google и т.п.). Знание PageRank можно использовать при обмене ссылками, для того чтобы оценить качество предложенной к обмену страницы и в других подобных ситуациях.
- Оценка уровня конкуренции по поисковому запросу. Хотя PageRank и не используется непосредственно в алгоритмах ранжирования, тем не менее позволяет косвенно оценить конкурентность заданного запроса. Например, если в выдаче поисковой системы стоят сайты с PageRank 6-7, то сайт с PageRank 4 имеет очень мало шансов подняться в топ.
Еще одно важное замечание – значения PageRank, показываемые в Google ToolBar пересчитываются достаточно редко (раз в несколько месяцев), поэтому ToolBar показывает в некотором роде устаревшую информацию. То есть сама поисковая система Google учитывает изменения во внешних ссылках гораздо быстрее, чем эти изменения отображаются в Google ToolBar.
Ниже приводится текст статьи PageRank: больше хороших ссылок с сайта board.tiranet.com
В связи с успехом Google на рынке предоставления услуг поиска и в особенности с экспансией данного поисковика в Рунет, среди вебмастеров наблюдается повышение интереса к алгоритмам расчёта PageRank. В данной статье рассматриваются некторые аспекты вычисления PageRank.
Применение PageRank в поисковиках
Традиционные способы нахождения релевантных страниц, в случае односложных запросов не дают удовлетворительных результатов, т.к. по популярным темам (например “рефераты”, “работа“) всегда найдётся большое число страниц с одинаковой релевантностью. Для того, чтобы как-то упорядочить такие страницы, поисковики пускаются на разные хитрости. Например выдают первыми те страницы, которые имеют большую посещаемость (Rambler) или которые присутствуют в каталоге (Yandex, Aport). В Google для этих целей применяется PageRank, что даёт потрясающие результаты, и за короткое время Google стал занимать лидирующие позиции не только по объёму базы, но и по качеству поиска. Из наших поисковиков первым PageRank стал использовать Aport, за ним Yandex. В Rambler эта технология не применяется, но на данном этапе такая возможность рассматривается, и, не исключено, что PageRank будет использоваться и в этой поисковой системе.
На ряду с упорядочиванием результатов поиска по PageRank, есть и другое применение для этой технологии. Дело в том, что число страниц в Интернете на столько велико, что поисковики уже не могут себе позволить индексировать всё подряд. А поскольку PageRank служит критерием ценности страницы, то логично проводить индексацию страниц в порядке убывания PageRank. В Google пошли даже дальше: теперь простой отправки формы для регистрации не достаточно, - для того, чтобы сайт был проиндексирован необходимо наличие хотя бы одной внешней ссылки.
Введение в PageRank
PageRank - статическая величина, предназначенная для оценки качества страниц не зависимо от каких либо запросов, т.е. с помощью PageRank вычисляется “глобальная ценность” каждой страницы. Авторы PageRank Сергей Брин и Ларри Пейдж, разработавшие технологию дополнительного ранжирования результатов выдачи поисковиков, в последствии стали основателями компании Google.
За основу PageRank был выбран академический подход оценки важности публикации автора по числу её упоминаний в библиографических ссылках других авторов. Для адаптации к применению в Интернет в алгоритм были внесены следующие изменения: вес каждой ссылки учитывается индивидуально и нормируется по числу ссылок на ссылающейся странице. Кроме того, PageRank может быть интерпретирован в терминах случайного блуждания
Вычисление PageRank
Представьте себе идеального веб-серфера перемещающегося по всемирной паутине. Пусть сёрфер посещает страницу p, случайное блуждание при этом находится в состоянии p. На каждом шаге, веб-сёрфер либо перепрыгивает на другую страницу в сети, выбранную псевдо-случайным образом, либо он следует по ссылке на текущей странице, при этом не возвращаясь и не посещая одну и ту же страницу дважды. Вероятность случайного прыжка обозначим как d тогда вероятность перехода по ссылке будет 1–d. Таким образом, вероятность нахождения пользователя на странице p можно вычислить по следующей формуле:
где R(p) - PageRank страницы, С(p) – число ссылок на странице, к – число ссылающихся на p страниц, d- коэффициент затухания (damping factor). Обычно 0.1<0.15. что
где N - число всех страниц, для которых производится расчёт PageRank, то R(p) можно рассматривать как распределение вероятности по всем страницам. Для вычисления PageRank составляется матрица M размером NxN, где каждому элементу mij матрицы присваивается значение R0(p)=1/C(p) в том случае, если с i –й страницы имеется ссылка на j-ую, все оставшиеся элементы матрицы заполняются нулями. Таким образом, вычисление PageRank сводится к отысканию собственного вектора матрицы M что достигается умножением матрицы M на вектор Rj на каждом шагу итерации. Введение коэффициента затухания гарантирует, что процесс сходится.
Повышаем значимость сайта
Осознав победное шествие PageRank, нельзя не задуматься об его увеличении для своей странички. Интуитивно понятно, что чем авторитетнее ресурс, на котором размещена ссылка тем больше она увеличивает PageRank страницы, на которую ссылается. И наоборот, чем больше ссылок на странице, тем меньше будет её вклад в повышение PageRank вашей страницы – ещё одно доказательство бесполезности участия в FFA (Free For All – сайты, содержащие набор ссылок со свободным добавлением). Менее очевидна оптимальная топология взаимоссылающихся страниц. Например, страницы организованные в “кольцо” (когда каждая страница ссылается на соседа слева и справа, последняя ссылается на первую, а первая на последнюю) будут иметь один и тот же PageRank не зависимо от числа страниц в кольце (если не проводить масштабирование по сумме, то PageRank у всех будет равен 1). То же справедливо для «звёзд» или случая, когда все ссылаются на всех, и, вероятно, это утверждение справедливо вообще для всех симметричных топологий. Гораздо более перспективны с точки зрения увеличения PageRank асимметричные топологии. Утверждение о бесполезности создания «пустых» (но ссылающихся друг на друга) сайтов у бесплатных хостеров не столь очевидно. Например, можно организовать обмен ссылками на 5 сайтах таким образом, что у одного из них PageRank будет в 15 раз больше, чем минимальный не нулевой PageRank. В этом несложно убедится, написав небольшую программку. О том, как это сделать, читайте в статье Efficient Computation of PageRank.
Некоторые распространённые заблуждения связанные с PageRank
Проанализировав сообщения в рунетовских форумах, посвященных позиционированию в поисковых системах, можно выделить целый ряд утверждений о PageRank, как минимум спорных, а зачастую просто неверных. Кратко рассмотрим эти утверждения:
Если на какой-то сайт есть много ссылок с FFA, гостевых книг или на сайтов другой тематики, то PageRank будет занижен.
Не стоит путать понятия «индекс цитирования» и PageRank. При расчёте PageRank анализ содержимого ни сайта ни текста ссылки не производится, учитываются только общее число ссылок и их веса, поэтому никаких штрафных санкций при наличии ссылок с «неправильных» страниц не применяется.
Если добиться высокого PageRank для какой-то страницы, то эта страница будет на первом месте в результатах поиска.
Не верно, по той причине, что PageRank является не основным критерием для ранжирования страниц, а вспомогательным. В противном случае, на первых страницах по очень многим запросам располагались бы только рейтинги и топы. Только при прочих равных условиях страница с более высоким PageRank будет располагаться выше в результатах поиска.
Если зарегистрировать сайт во всех популярных каталогах, то PageRank будет очень высоким
Не стоит обольщаться - PageRank вычисляется не для сайта целиком, а для отдельно взятой страницы. Поэтому ссылка из глубокой поддириктории, скажем в Yahoo, может быть менее ценна чем страница Васи Пупкина. Так что, тут можно взять не качеством ссылок, а их количеством. Надо только обращать внимание на то, чтобы ссылки из каталога шли напрямую на ваш сайт, а не через cgi-скрипт, иначе они просто не будут учитываться. Кроме того, правила многих каталогах требуют размещения корневой страницы, а не того документа, PageRank которого вы собираетесь повышать. Поэтому гораздо эффективнее можно повысить PageRank конкретной страницы ссылкой с корневой страницы своего собственного сайта.
PageRank уменьшается при проставлении внешних ссылок
Весьма спорное утверждение, как говорилось выше PageRank понижается в случае симметричного объединения ссылающихся страниц, вероятность получить которое при проставлении внешней ссылки ничтожно мала. Если такую фобию в себе не перебороть, то можно дать совет завести специальную страницу для обмена ссылками. Кстати, стоит заметить, что при расчёте PageRank никто не обещал разделять ссылки на внешние и внутренние.
Вернуться
|