26. března 2010

Jakým způsobem vyřešit vyhledávání s časovou lokalizací na internetu

Článek byl napsán pro blog předmětu Transformace SAAS: http://obchodnimodely.blogspot.com

V naší době internetové daleko více než kdykoliv předtím platí pravidlo, že není důležité mít všechny znalosti, ale vědět kde konkrétní věc najít. S množstvím rostoucích dat, roste i potřeba důležité informace třídit. Velmi zajímavou oblastí je třídění dle místního nebo časového hlediska. Pro časové hledisko nastávají dva problémy- jak vyhledat v již zveřejněných záznamech a s tím souvisí aplikace řadícího algoritmu. Druhým problémem je jak vyřešit zapsání časových informací k danému obsahu.

Vyhledávání


Internetové zdroje jsou plné časových záznamů, které se liší jak země od země či systém od systému. O zpětnou konverzi na svůj vnitřní datový formát se snaží velké vyhledávače, aby mohli s těmito údaji dále pracovat. Google takto indexuje nejen webové stránky (daří se mu i v případě českých variant), ale také např. naskenované články ze starších novin. Díky těmto meta-informacím o stránce, je může třídit dle uživatelských kritérií (např. vybrat článek z definovaného období)



Link na dotaz IBM uvedeného na obrázku výše



Jediným problémem je fakt, že uživatel musí přímo konkrétně definovat období, ze kterého požaduje dané výsledky. Vyhledávač stále chápe slova pro určení časového období (tj. včera, dnes a zítra nebo v sobotu večer a v neděli ráno) jen jako běžné fráze a tak s nima pracuje. Na prvních jsou nejlépe optimalizované výsledky na daná slova. Ideální případem je stav kdy frázi dnes identifikuje jako dnešní datum (= 26.3.2010) a dle toho filtruje výsledky vyhledávání z dalších klíčových slov.

Zapisování informací o obsahu k datu


Práci, by všem vyhledávacím robotům a tedy i koncovým uživatelům, ušetřilo masové použití mikroformátu. Mikroformáty jsou přesně definované vlastnosti html tagů, tak aby jim rozuměli hlavně roboti (či vyhledávací crawlery), a ohraničují data viditelná uživateli.

Např. tento segment kódu informuje o probíhající akci a datumu. (mikroformát: hCalendar)

<div class="vevent">
<p>Termín<span class="summary">zkoušky z předmětu Transformace SAAS</span> je naplánován na
<span class="dtstart">2010-05-13T11:00</span>.
</p>
</div> 


Takovéto označování dat pomoci meta-informací přináší výhody i pro uživatele s možnosti automatizovaného zpracování tohoto obsahu (např. přidání položky do kalendáře).

O výhodách použití mikroformátů si je vědom Google a ve svém blogovacím systému Blogger (na kterém běží i tento blog) je poctivě používá. U každého napsaného článku je datum vydání článku zapsáno např. takto.

<abbr class='published' title='2010-03-16T21:17:00+01:00'>21:17</abbr>

To již nyní umožňuje nechat si vyfiltrovat články publikované (např. zde najdete články na anglicky psaných blozích, publikovaných během posledních 12 hodin na téma SAAS)


Další servery taktéž přidávají sémantickou informaci. Facebook jakžto uzavřená platforma používá vlastní, i když stále snadno identifikovatelný formát. Twitter naopak otevřeně podporuje možnost přístupu jiným systémům (přes API)

Facebook
<abbr class="timestamp" title="Sat, 20 Mar 2010 09:58:57 -0700">15 minutes ago</abbr>

Twitter
<span class="published" title="2010-03-20T10:07:06+00:00">about 7 hours ago</span>


Řazení výsledků


S rozvojem mikroblogovacích systémů (Twitter, později Buzz a můžeme zde zařadit i Facebook) se klade důraz na časovou a místní meta-informaci. Jakmile tedy uživatel něco publikuje, je cílem systémů tuto zprávu zaregistrovat, zpracovat a poskytnout. Vzniká pojem real-time search, který nečeká na vytváření zpětných odkazů a budování např. PageRanku. Cílem je zachytit a nejrychleji zobrazit. Jenže nastává problém v tom, která informace je důležitějši.


V dosavadním modelu řazení výsledků vyhledávání se zohledňovala důležitosti pro uživatele. Ta je často vyjádřena mnoha neveřejnými faktory (mluví se zhruba o stovce), mezi nejznámější patří - množství klíčových slov, jejich umístění a semantické označení, počet odkazů vedoucí na stránu a ze stránky, počet návštěv daného webu atd. Pokud se všechna tato data vloží do matematické formule, vyjde jedno konkrétní číslo vyjadřující kvalitu stránky.


V modelu novém je ve chvíli položení dotazů, mnoho odpovědí. Ty jsou řazeny pouze podle jednoho kritéria - datum publikování, s tím že nejrelevantnější příspěvky jsou nejvýše.



Závěr 
Již publikované texty se průběžně zpětně doplňuji o meta-informaci datumu a času, tak aby mohli uživateli poskytnout větší svobodu při filtrování výsledků. Důvodem je přidaná hodnot pro uživatele.


Do budoucna širší používání mikroformátů, umožní poskytování kvalitnějších výsledků, se kterýma se dá snadněji pracovat. Jakmile toto bude reálně funkční, zbývá kousek k dodefinování algoritmů, aby rozuměli slovům časového významu (dnes, zítra, atd).


Na závěr bych ukázal zajímavý koncept pro vizuální vyhledávání, řešící jako lokační tak časovou filtraci [1]. Na mapě vybere oblast (vyřešení lokaĺizačního filtru) a v panelu vybere období (vyřešení časového filtru). Dále se dodefinuje oblast zájmu (fotky, videa, události, zprávy) a konečně i vyhledávací dotaz.






Otázka na závěr: Budeme k informacím vždy přistupovat pouze textově přes jedno vyhledávací pole ?


Zdroj:
[1] FAAS, Michel: Virtual Moment for Google Maps/Earth
http://www.slideshare.net/MichelFaas/virtual-moment-presentation



Zajímá tě více?