Google a jeho PageRank

Jistě každého napadne otázka, zda by nebylo možné našim stránkám trochu pomoci například použitím těch „správných slov", která jsou hledaná nejčastěji. Takových technik je mnoho a jsou označované souhrnně jako „Black Hat SEO" . Nejužívanější techniky jsou patrně tyto:

  • uvádění množství slov, které nemají souvislost se stránkami v metadatech (značky META) nebo přímo v textu stránky
  • seznam klíčových slov na stránce ve stejné barvě jako pozadí (neviditelný text)
  • cloaking - vytvoření dvou variant stránky. V http požadavku se robotu vyhledávače (tzv. crawleru) pošle speciálně upravená verze stránky, jiná než návštěvníkovi
  • přesměrování navštívené stránky - v podstatě podobné cloakingu, uživatel je okamžitě po vstupu na nalezenou přeoptimalizovanou stránku, přesměrován jinam
  • stránky sestávající z výsledků hledání vyhledávačů na zadané slovo

Tyto metody byly velmi hojně používány v době první generace vyhledávačů, které vévodil známý fulltextový vyhledávač Altavista v první polovině devadesátých let. V té době v touze po velké návštěvnosti prakticky každá stránka obsahovala slova, která zdaleka neměla s původním obsahem webové stránky žádnou spojitost.

Google přichází

Nepřehlednou situaci na webu vyřešil až příchod vyhledávače Google, který kromě zkoumání samotné stránky využil myšlenku používanou už mnoho let v akademických kruzích - citační index.

Myšlenka je prostá a vychází z filozofie, že pokud je některý článek kvalitní, jistě je hodněkrát citován v článcích jiných autorů. V prostředí webu si můžeme citaci nahradit klasických hyperlinkovým odkazem. Pokud navíc začneme zjišťovat i kvalitu odkazující stránky (tedy počet a kvalitu odkazujících stránek směřující na odkazující), dostáváme základní myšlenku, na které je vyhledávač Google založen:

"Na kvalitní stránky je hodně odkazováno z kvalitních stránek."

Tento algoritmus je pojmenován PageRank po jménu jeho autora Larryho Page, jednoho ze zakladatelů společnosti Google.

PageRank P(A) stránky A se vypočte z PageRanků stránek, které na stránku A odkazují. Označme si je T1Tn. Dále si definujme proměnou C(Tn), která udává počet odkazů, které vedou ze stránky Tn „někam". Tzn, že pokud na celé stránce Tn se vyskytuje jeden odkaz odkazující jen na jednu jinou stránku, má tento odkaz n-krát větší váhu, než kdyby stránka Tn odkazovala na n jiných stránek. Pak platí vzorec:

P(A)= (1-d) + d * P(T1)/C(T1) + ... + P(Tn)/C(Tn)

Případně jeho modifikace:

P(A)= (1-d)/m + d * P(T1)/C(T1) + ... + P(Tn)/C(Tn)

Parametr d udává tzv. dumpeding faktor, který má za následek konstantní součet pageranků, m je celkový součet stránek ve sledované množině.

Každá stránka tak své hodnocení v podstatě předává dál skrze odkazy. Hodnoty PageRanku se dají spočítat pomocí přiřazení libovolných hodnot, a následným iterováním výpočtu, dokud hodnoty nezačnou konvergovat (záleží na parametru d).

Problém nastane, pokud tento algoritmus spustíme pro uzavřenou množinu stránek, které odkazují jen samy na sebe a algoritmus se tak zacyklí. Tento jev je znám jako rank sink a lze mu předejít přidáním zdroje ranku, tedy číslem, které má každá stránka sama od sebe.

PageRank našich stránek (tedy laicky „hodně kvalitních odkazů směřujících na naše stránky") je velmi důležitý při optimalizaci stránek a moderní vyhledávače, které okopírovali filozofii PageRanku, používají při řazení stránek ve výsledcích vyhledávání jeho hodnotu.

Při výpočtech PageRanků se pracuje s množinou (sítí) odkazujících stránek (orientovaným grafem), což může zjistit mnoho dalších informací o konkrétních podsítích, například podobnost stránek apod. Tyto znalosti opět mohou přispět k lepším pozicím ve výsledcích vyhledávání.

Velmi propracovaný mechanismus řazení stránek ve výsledcích vyhledávání zajistil Googlu prakticky monopol na trhu fulltextového vyhledávání a princip citačního indexu používají prakticky všechny moderní fulltextové vyhledávače. Náš největší vyhledávač Seznam.cz pracuje například s hodnotou Srank, Jyxo.cz řadí dle Jyxoranku atd.

Aktuální projekty

Sportoviště Sušice

Webdesign, snadné ovládání redakčního systému, rezervace, kalendář, pravidelná tvorba obsahu... Stovky návštěvníků denně díky internetovému marketingu.

Puzzlepoint.cz s.r.o.

20000 produktů, stovky kategorií, pokladní online systém, sklady, zahraniční mutace, propagace v zahraničních vyhledávačích...

Leasyn s.r.o.

3D zobrazení produktů, pokročilé filtry, responzivní design sklady, práce se zákazníky (CRM), správa sociálních sítí...

HMStudio a.s.

propojení na informační systém Helios, tisíce produktů a objednávek synchronizované se sklady a účetnictvím.