Nápad na článek vznikl cca před uvedením nového Google indexu s názvem Caffeine, přesto bych se nebál říci že hlavní myšlenka zůstane zachována http://googleblog.blogspot.com/2010/06/our-new-search-index-caffeine.html
Rychlý úvod
Každý se chybně domnívá,že Google přišel s myšlenkou geniálního algoritmu se kterým porazil tehdejší konkurenci. Ano chytré provedení matematických zákonů hrálo svoji roli v úspěchu,úspěch tkvěl někde jinde
V době před 10 lety lidé přistupovali k informacím naprosto rozdílným přístupem - přes katalogy a jeho kategorie. Vyhledávač v portálu primárně prohledával svoji databázi (která byla zpočátku plněna ručně) a na "celém internetu" vyhledával s velmi špatnými výsledky. Google tedy konkurenci neporazil, ale naopak vytvořil trh - na kterém byl první a nejlepší. Tím že se soustředil na jednu věc (organizace stránek, hodnocení důležitosti dle PageRanku), mu pomohlo k získání velkého náskoku. Odstupem času vidíme jak dobře vizionářské myšlení měli. Většina přístupů na stránky je řešena z vyhledávače... Nebo snad při nákupu nového fotoaparátu jde do elektronického obchodu cestou katalogu: Obchody > Elektronika > Fotoaparáty > Digitální fotoaparát ?
PageRank
PageRank je číslo - kvantifikovaná metrika či způsob jak ohodnotit kvalitu stránky. Paralelou je hodnocení kvality vědeckých prací. Pokud na Vás odkazuje kvalitní stránka, znamená to že jste hodnotnější než ostatní. V době kdy stránek bylo relativně málo, tak nejlepší výsledek často obsahoval hledanou frázi v těle stránky. Bohužel pro toto ohodnocení s postupem let příbývala další veličina - a to právě čas
Pokud nyní vyhledáváte na internetu, často se na prvních pozicích objevuje sice kvalitní, ale zastaralý obsah.
Největším problémem je měření jablek a hrušek, včetně toho jak ohodnotit co je nejkvalitnější napříč časem
Na diagramu můžeme vidět dva pohledy - aktuálnost (v čase, novější je vpravo) a pak kvalita stránky (jako PageRank, vyšší je nahoře).
V dnešní době pracují vyhledávače pouze s jednou úrovni (modrou) a tedy řadí podle PageRanku. Nastává zde problém pokud vznikají podobné stránky, které jsou v čase novější, nemají tak vysoky PageRank ale mohou být kvalitnější.
Existují 4 variatny, ty 2 jednodušší z nich:
Důsledek
V praxi to vypadá tak že pokud hledám např. něco spojené s JavaScriptem, dostáváme pěkné výsledky z pohledu PageRanku, jenže často se zastaralým časem v datu.. A novější stránky často musíte ručně omezovat
Pokud nyní vyhledáváte na internetu, často se na prvních pozicích objevuje sice kvalitní, ale zastaralý obsah.
Největším problémem je měření jablek a hrušek, včetně toho jak ohodnotit co je nejkvalitnější napříč časem
Na diagramu můžeme vidět dva pohledy - aktuálnost (v čase, novější je vpravo) a pak kvalita stránky (jako PageRank, vyšší je nahoře).
V dnešní době pracují vyhledávače pouze s jednou úrovni (modrou) a tedy řadí podle PageRanku. Nastává zde problém pokud vznikají podobné stránky, které jsou v čase novější, nemají tak vysoky PageRank ale mohou být kvalitnější.
Existují 4 variatny, ty 2 jednodušší z nich:
- starou stránku s nízkým PageRankem můžeme rovnou vyřadit - koho by zajímalo něco neaktuálního navíc, nerelevantního (vlevo dole, přeškrtnuta)
- novou stránku s vysokým PageRankem s radostí uvítáme - jde o akutální věc, která si za "krátkou dobu" dokázala získat pozornost, tudíž její kvalita byla ověřena (označena číslem 1)
Jenže pak jsou další dvě varianty, mnohem složitější aneb jak porovnat mezi sebou v čase. (na obrázku "A" a "B"). Je to ta která na webu je 10 let, odkazují na ní plno stránek, jenže stále pracuje s daty pro IE 5.5
nebo je to nová,aktuální -s nižším PageRankem.
V praxi to vypadá tak že pokud hledám např. něco spojené s JavaScriptem, dostáváme pěkné výsledky z pohledu PageRanku, jenže často se zastaralým časem v datu.. A novější stránky často musíte ručně omezovat
Částečné řešení? Např. po spojení s daty ze sociálních sítí, tak jak to chystá udělat Bing s Facebook "lajky"
Bringing Your Friends to Bing: Search Now More Social
Nebo způsob, jak převést číslo z jedné úrovně do druhé. To by mohl být nový hledač..
Zajímá tě více?
@codeas
Tweet
A co registrace do katalogu? Je dead?
OdpovědětVymazatRegistrace do katalogu není mrtvá, jen se změní jejich význam a formát. Do budoucna budou mít více smysl sociální katalogy, např. jako dělají http://nejremeslnici.cz
OdpovědětVymazatOsobně mi formát např. firmy.cz moc nevyhovuje, protože mi přijde nekompletní a nerelevantní
Myslím si, že přinejmenším Google už s časovým faktorem dost zásadně pracuje. Všechny dnešní pokročilé fulltexty užuUmí jakýkoliv zadaný dotaz zaškatulkovat, ohodnotit, zatřídit podle jeho typu. A podle toho si pro vyhodnocení toho kterého konkrétního dotazu přenastavit použité váhy.
OdpovědětVymazatGoogle tedy IMHO umí rozlišit například rešeršní dotazy na témata s trvalou dlouhodobou platností od dotazů na hot trending topics. U prvních pak dá větší váhu třeba na pagerank nebo i na stáří stránky (starší je lepší, protože je etablovanější). U druhých pak naopak na rank moc nekouká, ale zohlední právě aktuálnost nebo v budoucnu real-time ohlasy ze sociálních sítí.
Honzo, možná s tím Google pracuje, ale asi zatim ne moc dobře, viz Matěj Novák (čas cca 7:30) http://www.tyinternety.cz/socialni-site/ve-sklepe-s-matejem-novakem1-3150
OdpovědětVymazat