18. listopadu 2010

Punk's not dead!! A PageRank?

Nadpis by mohl znít - PageRank is still not dead. V dnešní době jak jsou informace strukturovány, již nestačí používat staré algoritmy, což si uvědomuje i Google a snaží se přizpůsobovat

Nápad na článek vznikl cca před uvedením nového Google indexu s názvem Caffeine, přesto bych se nebál říci že hlavní myšlenka zůstane zachována http://googleblog.blogspot.com/2010/06/our-new-search-index-caffeine.html

Rychlý úvod
Každý se chybně domnívá,že Google přišel s myšlenkou geniálního algoritmu se kterým porazil tehdejší konkurenci. Ano chytré provedení matematických zákonů hrálo svoji roli v úspěchu,úspěch tkvěl někde jinde

V době před 10 lety lidé přistupovali k informacím naprosto rozdílným přístupem - přes katalogy a jeho kategorie. Vyhledávač v portálu primárně prohledával svoji databázi (která byla zpočátku plněna ručně) a na "celém internetu" vyhledával s velmi špatnými výsledky. Google tedy konkurenci neporazil, ale naopak vytvořil trh - na kterém byl první a nejlepší. Tím že se soustředil na jednu věc (organizace stránek, hodnocení důležitosti dle PageRanku), mu pomohlo k získání velkého náskoku. Odstupem času vidíme jak dobře vizionářské myšlení měli. Většina přístupů na stránky je řešena z vyhledávače... Nebo snad při nákupu nového fotoaparátu jde do elektronického obchodu cestou katalogu: Obchody > Elektronika > Fotoaparáty > Digitální fotoaparát ?

PageRank
PageRank je číslo - kvantifikovaná metrika či způsob jak ohodnotit kvalitu stránky. Paralelou je hodnocení kvality vědeckých prací. Pokud na Vás odkazuje kvalitní stránka, znamená to že jste hodnotnější než ostatní. V době kdy stránek bylo relativně málo, tak nejlepší výsledek často obsahoval hledanou frázi v těle stránky. Bohužel pro toto ohodnocení s postupem let příbývala další veličina - a to právě čas

Pokud nyní vyhledáváte na internetu, často se na prvních pozicích objevuje sice kvalitní, ale zastaralý obsah.
Největším problémem je měření jablek a hrušek, včetně toho jak ohodnotit co je nejkvalitnější napříč časem

Na diagramu můžeme vidět dva pohledy - aktuálnost (v čase, novější je vpravo) a pak kvalita stránky (jako PageRank, vyšší je nahoře).

V dnešní době pracují vyhledávače pouze s jednou úrovni (modrou) a tedy řadí podle PageRanku. Nastává zde problém pokud vznikají podobné stránky, které jsou v čase novější, nemají tak vysoky PageRank ale mohou být kvalitnější.

Existují 4 variatny, ty 2 jednodušší z nich:
  • starou stránku s nízkým PageRankem můžeme rovnou vyřadit - koho by zajímalo něco neaktuálního navíc, nerelevantního (vlevo dole, přeškrtnuta)
  • novou stránku s vysokým PageRankem s radostí uvítáme - jde o akutální věc, která si za "krátkou dobu" dokázala získat pozornost, tudíž její kvalita byla ověřena (označena číslem 1)
Jenže pak jsou další dvě varianty, mnohem složitější aneb jak porovnat mezi sebou v čase. (na obrázku "A" a "B"). Je to ta která na webu je 10 let, odkazují na ní plno stránek, jenže stále pracuje s daty pro IE 5.5
nebo je to nová,aktuální -s nižším PageRankem.

Důsledek
V praxi to vypadá tak že pokud hledám např. něco spojené s JavaScriptem, dostáváme pěkné výsledky z pohledu PageRanku, jenže často se zastaralým časem v datu.. A novější stránky často musíte ručně omezovat

Částečné řešení? Např. po spojení s daty ze sociálních sítí, tak jak to chystá udělat Bing s Facebook "lajky"
 Bringing Your Friends to Bing: Search Now More Social

Nebo způsob, jak převést číslo z jedné úrovně do druhé. To by mohl být nový hledač..



Zajímá tě více?

4 komentáře:

  1. A co registrace do katalogu? Je dead?

    OdpovědětVymazat
  2. Registrace do katalogu není mrtvá, jen se změní jejich význam a formát. Do budoucna budou mít více smysl sociální katalogy, např. jako dělají http://nejremeslnici.cz

    Osobně mi formát např. firmy.cz moc nevyhovuje, protože mi přijde nekompletní a nerelevantní

    OdpovědětVymazat
  3. Myslím si, že přinejmenším Google už s časovým faktorem dost zásadně pracuje. Všechny dnešní pokročilé fulltexty užuUmí jakýkoliv zadaný dotaz zaškatulkovat, ohodnotit, zatřídit podle jeho typu. A podle toho si pro vyhodnocení toho kterého konkrétního dotazu přenastavit použité váhy.

    Google tedy IMHO umí rozlišit například rešeršní dotazy na témata s trvalou dlouhodobou platností od dotazů na hot trending topics. U prvních pak dá větší váhu třeba na pagerank nebo i na stáří stránky (starší je lepší, protože je etablovanější). U druhých pak naopak na rank moc nekouká, ale zohlední právě aktuálnost nebo v budoucnu real-time ohlasy ze sociálních sítí.

    OdpovědětVymazat
  4. Honzo, možná s tím Google pracuje, ale asi zatim ne moc dobře, viz Matěj Novák (čas cca 7:30) http://www.tyinternety.cz/socialni-site/ve-sklepe-s-matejem-novakem1-3150

    OdpovědětVymazat