PR и ТИЦ

PageRank (PR) и Индекс цитирования (ИЦ)

 PR и ТИЦ

PageRang – дословно "ранг страницы", это величина, которая используется для сортировки веб-страниц в поисковых машинах интернета. Чем больше ранг страницы, тем выше в списке результатов поиска она находится.

Основатели поисковой машины Google – Сергей Брин и Ларри Пейдж разработали алгоритм PageRang. Различные версии этого алгоритма используют другие поисковые машины, по-разному называя их.

Необходимость PageRang.

Учитывая огромный, постоянно растущий объём информации в Интернете, очевидно большое количество документов, которые должна обрабатывать поисковая машина. А для того, чтобы пользователю было удобно анализировать результаты поиска, необходима оценка того, как именно расположить страницы в результирующем списке.

Это влечёт за собой необходимость в таком показателе, по которому можно оценить веб-страницу, и в разработке соответствующего алгоритма для расчёта этого показателя.

Алгоритмы, разработанные для оценки страниц, входящих в контролируемые коллекции, были не эффективны. Потому что обеспечение высокого положения документа в результирующем списке такого поиска было простой операцией. Это делалось путём копирования расположения ключевых слов из текста существующего документа, который уже занимает верхние позиции.

В результате назревшей необходимости, параметром оценки достоверности и полезности страниц стал показатель посещаемости страницы. Но для реализации такого подхода необходимо установить счётчик посещений для каждой страницы и постоянно обновлять его значения. Этот способ в современном Интернете не эффективен, из-за больших затрат времени и ресурсов.

Но разработчики решили использовать не фактический показатель посещаемости, а теоретический. Этот подход выполнен посредством моделирования переходов пользователя по ссылкам со страницы на страницу. Причём модель основана на предположении, что вероятность перехода одинакова для любой ссылки, имеющейся в просматриваемой странице. Таким образом, вероятность открытия пользователем конкретной страницы тем больше, чем больше количество существующих в других страницах интернета ссылок на рассматриваемую страницу.

Именно эта вероятность стала использоваться для оценки ранга по формуле:

формула

где

PRa– PageRang конкретной страницы,

d – коэффициент затухания,

PRi – PageRang i-й страницы, которая ссылается на страницу а,

Ci – общее количество ссылок на i-й странице.

Здесь коэффициент затухания показывает вероятность того, что пользователь, открыв страницу, воспользуется одной из ссылок, имеющейся на этой странице, а не отключит браузер. Обычно его значение d = 0,85.

Было бы неправильно считать, что вычисление  PageRang конкретной страницы можно вычислить по значениям PageRang страниц, которые имеют ссылки на рассматриваемую страницу. Это не так просто.

Для правильного определения ранга страницы, необходимо применить систему линейных уравнений данного вида для каждой страницы, известной поисковой машине. Причём количество уравнений равно количеству известных страниц. Таким образом, необходимо решить систему, содержащую N неизвестных. В результате определяются PageRang каждой страницы, содержащейся в базе поисковой машины.

Из вышесказанного очевидно, что обработка огромного числа  страниц, существующих в современном Интернете, которое к тому же постоянно увеличивается, требует поистине грандиозных вычислительных мощностей. А существующая ограниченность этих мощностей обуславливает упрощение процесса расчётов PageRang. Сам же способ этого упрощения, который использовали разработчики поисковых машин, является их коммерческой тайной.


 Про ТИЦ

ТИЦ — расшифровывается как тематический индекс цитирования, который применяется при сортировке сайтов в выдаче результатов поиска (СЕРП) поисковой системы.

Этот индекс зависит непосредственно от количества и качества (ссылки должны связывать тематические сайты) ссылок на сайт и с него. Стоит заметить, что этот коэффициент не влияет на результаты поиска, по крайней мере, напрямую.

Это ошибочное суждение, видимо, исходит из того, что алгоритм ранжирования поисковых систем учитывает ссылки на сайты. Чем больше количество ссылок с тематических сайтов ведет на определенную страницу, тем, она ставится выше в поисковике по запросам. Получается, раз увеличение числа ссылок ведет к увеличению ТИЦ, то рост этого индекса приводит к повышению позиции в ранжировании.

 

"Google" и PR

Для удобства использования этой поисковой системы существует специальная панель инструментов Google ToolBar, встраиваемая в браузер, которая помимо прочих функций отображает нормированное значение PageRang открытой веб-страницы.

 

"Яндекс" и ВИЦ

Яндекс использует похожую на PageRang величину, которая называется "взвешенным индексом цитирования" (ВИЦ), и служит для отображения "авторитетности" страницы. Эта величина была введена с 2001 года. По словам представителей Яндекса, допущения при расчёте ВИЦ по классическому алгоритму PageRang установлены на уровне "с точностью до реализации".

Ранее существующий (до осени 2002 года) индикатор на панели Яндекс-Бар (аналог Google ToolBar), который отображал значении ВИЦ главной страницы с точностью до сотых, теперь заменён индикатором ТИЦ.

А ТИЦ – это совершенно другой показатель, используемый для упорядочения ресурсов в базе Яндекса. Информация о значениях ВИЦ теперь не доступна.

 

"Апорт" и ИЦ

Апорт – первооткрыватель использования алгоритма расчёта PageRang с собственными допущениями, среди отечественных поисковиков. Его реализация датируется 1999-м годом, а величина "авторитетности" страницы получила название "Индекс цитирования" (ИЦ). Кроме этого названия, представители Апорта официально используют такие его синонимы, как PageRang и взвешенный индекс цитирования. Отличительной чертой реализации Апортом алгоритма PageRang, стало использование только одной, по их словам - "лучшей" ссылки среди расположенных на всех страницах в домене второго уровня. Другими словами используется ссылка той страницы, которая имеет больший собственный индекс цитирования.

Индекс цитирования сайта (англоязычный вариант - Site Rang) поисковой системы Апрорт, определяется путём сравнивания всех индексов цитирования страниц этого сайта и выбором максимального из них. Для сайтов, имеющихся в каталоге Апорта, в системе представлены значения ИЦ, сделанные таким образом доступными.

 

"Rambler" и коэффициент популярности

Эта поисковая машина стала использовать алгоритм с осени 2002 года, назвав свою величину "коэффициентом популярности". По словам разработчиков Рамблера, они используют алгоритм, основанный на классическом PageRang для учёта гиперссылок между страницами Интернета. Но в дополнение применяется информация от счётчика Top100, который вычисляет реальное количество посещений страниц.

Это обосновывается тем, что ссылки устанавливаются веб-мастерами. Таким образом, классический алгоритм основывается на учёте только их мнения. Простые пользователи в свою очередь обычно не занимаются размещением ссылок. Что обуславливает невозможность учёта их оценки веб-страниц. Эту проблему решает введение информации от счётчика Top100 в расчёты коэффициента популярности.

Но в последнее время, из-за массовых накруток счётчика посещаемости, которые используют находчивые владельцы сайтов, учёт значений счётчика Top100 для корректировки алгоритма перестаёт применяться. Таким образом, происходит возврат к расчётам, основанным на использовании гиперссылок между страницами.

 

Расчёт PageRang используется не для всех страниц или даже сайтов. Поисковые машины могут их игнорировать исходя из определённых собственных критериев, допускающих включение страницы в процесс расчёта показателя PageRang.

К примеру, в Яндексе существует "непот-фильтр", который не допускает к процессу ранжирования ресурсы, которые:

-           используют бесплатный хостинг, не описанный в каталоге Яндекса,

-           имеют возможность свободного размещения ссылок (гостевая книга, доска объявлений),

-           имеют ссылки, невидимые для пользователя.

 

В завершение темы можно сказать, что повышение ранга страницы должно основываться на увеличении в Интернете количества страниц, которые ссылаются на неё. Для этого существуют определённые способы: обмен ссылками между владельцами сайтов, регистрация в сторонних тематических каталогах и ресурсах и т.д. Самый лучший способ – творчески отнестись к наполнению сайта, разместив в нём оригинальные и интересные материалы. Это будет способствовать появлению у владельцев других сайтов желания разместить на своём ресурсе ссылку на ваш сайт.

Кроме того, следует серьёзно отнестись к созданию эффективной системы ссылок внутри сайта.  Здесь следует иметь в виду, что при определении ранга страницы, помимо внешних ссылок, учитываются и внутренние. Поэтому самые важные страницы сайта должны иметь ссылку на себя, расположенную на главной странице сайта. Это обусловлено тем, что обычно именно главная страница имеет максимальный ранг среди остальных страниц сайта; так как внешние ссылки, как правило, указывают на главную страницу.