Vyhledávač
Z MiS
				
				
				(Rozdíly mezi verzemi)
				
																
				
				
								
				| m (Přidána kategorie Category:Stránky s obrázky) |  (Vývoj vyhledávačů přesunut do stránky Historie Internetu.) | ||
| (Není zobrazeno 5 mezilehlých verzí od 1 uživatele.) | |||
| Řádka 1: | Řádka 1: | ||
| [[Category:VSE]][[Category:CRI]][[Category:Internet]][[Category:Informatika]][[Category:Stránky s obrázky]] | [[Category:VSE]][[Category:CRI]][[Category:Internet]][[Category:Informatika]][[Category:Stránky s obrázky]] | ||
| − | ==  | + | == Typy vyhledávačů == | 
| − | + | === Katalogový vyhledávač === | |
| − | + | ||
| − | + | ||
| − | + | ||
| − | + | ||
| − | == Katalogový vyhledávač == | + | |
| − | + | ||
| *Historicky starší varianta. | *Historicky starší varianta. | ||
| *Obvykle pevně dané kategorie, podle kterých se třídí. | *Obvykle pevně dané kategorie, podle kterých se třídí. | ||
| Řádka 15: | Řádka 9: | ||
| *Příklad: [http://www.firmy.cz Firmy.cz] (součást Seznamu.cz) | *Příklad: [http://www.firmy.cz Firmy.cz] (součást Seznamu.cz) | ||
| − | == Fulltextový vyhledávač == | + | === Fulltextový vyhledávač === | 
| − | + | ||
| − | + | ||
| <div class="Poznamka"> | <div class="Poznamka"> | ||
| − | Myšlenka: stránky, kde se často vyskytuje slovo „klavír“ se budou nejspíš týkat klavírů a měly by tedy být vráceny při dotazu „klavír“ na prvním místě. ;) | + | Myšlenka: stránky, kde se často vyskytuje slovo „klavír“ se budou nejspíš týkat klavírů a měly by tedy být vráceny při dotazu „klavír“ na prvním místě. ;)</div> | 
| − | </div> | + | |
| − | ;  | + | *„Katalog“ se vytváří automaticky podle četnosti výskytu slov ve stránce a dalších indicií. | 
| + | *Příklady:  | ||
| + | ** [http://www.seznam.cz Seznam.cz],  | ||
| + | ** [http://www.google.com Google.com],  | ||
| + | ** [http://www.duckduckgo.com DuckDuckGo.com] (neukládá informace o uživateli a jeho vyhledávání) | ||
| + | |||
| + | === Metavyhledávač === | ||
| + | *Agreguje výsledky více vyhledávačů. | ||
| + | |||
| + | |||
| + | == Funkce fulltextového vyhledávače == | ||
| + | === Vytváření indexu (databáze) === | ||
| *prochází stránky automaticky | *prochází stránky automaticky | ||
| **„robot“ pro stahování stránek, | **„robot“ pro stahování stránek, | ||
| Řádka 33: | Řádka 35: | ||
| ** podle počtu odkazů na stránku a významu stránek, které se na tuto odkazují. | ** podle počtu odkazů na stránku a významu stránek, které se na tuto odkazují. | ||
| − | + | === Zpracování dotazu === | |
| − | + | ||
| − | + | ||
| * Převod zadaných slov na fráze, | * Převod zadaných slov na fráze, | ||
| **vyřazení krátkých slov | **vyřazení krátkých slov | ||
| Řádka 50: | Řádka 50: | ||
| * Vypíše stránky s nejlepším hodnocením | * Vypíše stránky s nejlepším hodnocením | ||
| − | + | === Moduly fulltextového vyhledávače === | |
| + | [[File:vyhledavac.png]] | ||
| + | |||
| *URL server | *URL server | ||
| ** při čtení dokumentu získává URL adresy a dává je crawleru, | ** při čtení dokumentu získává URL adresy a dává je crawleru, | ||
| Řádka 73: | Řádka 75: | ||
| **udává, jak je který termín významný pro danou stránku | **udává, jak je který termín významný pro danou stránku | ||
| − | == Relevance == | + | |
| − | *Jak významná je hledaná fráze pro dokument: | + | == Relevance fráze == | 
| − | + | *Jak významná je hledaná fráze pro dokument? | |
| − | + | ; Vliv má: | |
| − | **… | + | * kolikrát se fráze v dokumentu vyskytuje? | 
| + | * je uvedena v názvu stránky? | ||
| + | * je uvedena v hlavičce v ''keywords''? (někdy se záměrně ignoruje) | ||
| + | * je uvedena v adrese? | ||
| + | * je na stránce fráze zvýrazněná? | ||
| + | * … | ||
| + | |||
| == Význam dokumentu == | == Význam dokumentu == | ||
| − | ;  | + | Při množství stránek v dnešním Internetu je třeba hodnotit stránky ještě jinými způsoby než jen podle výskytu hledaných frází. | 
| + | |||
| + | ; Page-rank | ||
| * Algoritmus představený poprvé ve vyhledávači Google. | * Algoritmus představený poprvé ve vyhledávači Google. | ||
| * Dnes implementují v nějaké formě všechny fulltextové vyhledávače. | * Dnes implementují v nějaké formě všechny fulltextové vyhledávače. | ||
| + | |||
| ; Jak významný je dokument? | ; Jak významný je dokument? | ||
| − | *Kolik velkých stránek odkazuje na dokument | + | * Kolik velkých stránek (stránek s dobrý hodnocením) odkazuje na dokument? | 
| − | * | + | * Kolik odkazů na dokument máme? | 
| − | *  | + | |
| − | *… | + | ; Hodnotí se také další vlivy: | 
| + | * Je dokument validní? | ||
| + | * Není v dokumentu nápadně mnoho výskytů stejného slova? | ||
| + | * Je dokument dobře strukturován? | ||
| + | * … | ||
| − | |||
| − | |||
| == Tipy pro vyhledávání == | == Tipy pro vyhledávání == | ||
| Řádka 103: | Řádka 116: | ||
| *<code>filetype:</code> typ souboru | *<code>filetype:</code> typ souboru | ||
| **speciálně vyhledávání obrázků | **speciálně vyhledávání obrázků | ||
| − | * | + | * Uvozovky — hledání přesné fráze — slova se musí vyskytovat v tomto pořadí: | 
|   "obchodní škola" |   "obchodní škola" | ||
| − | *umístění fráze: | + | * Konkrétní umístění fráze: | 
| − | **v titulku, v adrese, v textu stránky,… | + | ** v titulku stránky, v adrese, v textu stránky,… | 
| − | * | + | * Omezení stáří dokumentu. | 
| − | *Znaménko „minus“ znamená vyloučení. | + | * Znaménko „minus“ znamená vyloučení. | 
| + | *# Hledáme stránky, obsahující slovo ''virus'' a neobsahující přitom slovo ''internet''. | ||
| + | *# Hledáme slovo ''VOŠ'' někde jinde než na stránkách ''OAUH.cz'': | ||
|   virus –internet |   virus –internet | ||
| − | + |   VOŠ –site:www.oauh.cz | |
| − |   VOŠ –site:www.oauh.cz   | + | |
| − | *  | + | |
| + | == Související stránky == | ||
| + | * [[Historie Internetu#Vyhledávače| Vývoj vyhledávačů]] | ||
Aktuální verze z 12. 10. 2023, 07:09
| Obsah | 
Typy vyhledávačů
Katalogový vyhledávač
- Historicky starší varianta.
- Obvykle pevně dané kategorie, podle kterých se třídí.
- Odkazy zařazují obvykle lidé.
- Někdy se za umístění do katalogu platí.
- Příklad: Firmy.cz (součást Seznamu.cz)
Fulltextový vyhledávač
Myšlenka: stránky, kde se často vyskytuje slovo „klavír“ se budou nejspíš týkat klavírů a měly by tedy být vráceny při dotazu „klavír“ na prvním místě. ;)
- „Katalog“ se vytváří automaticky podle četnosti výskytu slov ve stránce a dalších indicií.
- Příklady: 
- Seznam.cz,
- Google.com,
- DuckDuckGo.com (neukládá informace o uživateli a jeho vyhledávání)
 
Metavyhledávač
- Agreguje výsledky více vyhledávačů.
Funkce fulltextového vyhledávače
Vytváření indexu (databáze)
- prochází stránky automaticky
- „robot“ pro stahování stránek,
- analýza stránek, hledání frází.
 
- o přečtených stránkách si udržuje statistiku významu frází pro danou stránku
- tabulka výskytů frází v dokumentech,
- umístění frází ve stránce/dokumentu,
- ...
 
-  hodnotí význam stránek (page-rank)
- podle počtu odkazů na stránku a významu stránek, které se na tuto odkazují.
 
Zpracování dotazu
-  Převod zadaných slov na fráze,
- vyřazení krátkých slov
- převod na synonyma
- lemmatizace (nalezení kořene slova)
- derivace
- odstranění skloňování, časování
 
- ...
 
-  Podle indexu spočítá pro každý dokument „ohodnocení“ jeho relevance vzhledem k dotazu
- pro každou frázi procházíme seznam dokumentů, které ji obsahují,
- kontrolujeme, zda dokument vyhovuje zbytku dotazu,
- u vyhovujících dokumentů zhodnotíme „relevanci“.
 
- Promítné hodnocení významu stránek
- Vypíše stránky s nejlepším hodnocením
Moduly fulltextového vyhledávače
- URL server
- při čtení dokumentu získává URL adresy a dává je crawleru,
 
- Vyhledávací robot (crawler)
- stahování nových stránek, ukládá do repository (úložiště),
 
- idexovač: analýza obsahu stránek, získává:
- odkazy na dosud neznámé stránky,
- hledané fráze, jejich umístění atd.
 
- URL resolver
- převádí všechny tvary URL adres na ID dokumentů,
- generuje page-rank.
 
- Třídič: tvorba invertovaného seznamu.
- Hodnocení stránek
- výpočet page-rank
 
- Úložiště (repository)
- Databáze URL adres
- Archiv stránek
 
- Slovník
- hledání synonym atd.
 
- Index (databáze, invertovaný seznam)
- „tabulka“
- udává, jak je který termín významný pro danou stránku
 
Relevance fráze
- Jak významná je hledaná fráze pro dokument?
- Vliv má
- kolikrát se fráze v dokumentu vyskytuje?
- je uvedena v názvu stránky?
- je uvedena v hlavičce v keywords? (někdy se záměrně ignoruje)
- je uvedena v adrese?
- je na stránce fráze zvýrazněná?
- …
Význam dokumentu
Při množství stránek v dnešním Internetu je třeba hodnotit stránky ještě jinými způsoby než jen podle výskytu hledaných frází.
- Page-rank
- Algoritmus představený poprvé ve vyhledávači Google.
- Dnes implementují v nějaké formě všechny fulltextové vyhledávače.
- Jak významný je dokument?
- Kolik velkých stránek (stránek s dobrý hodnocením) odkazuje na dokument?
- Kolik odkazů na dokument máme?
- Hodnotí se také další vlivy
- Je dokument validní?
- Není v dokumentu nápadně mnoho výskytů stejného slova?
- Je dokument dobře strukturován?
- …
Tipy pro vyhledávání
- ne předložky a spojky, jednopísmenná slova
- jen podstatná slova
- nejdůležitější slova první
- Pokročilé vyhledávání
- Vyhledat nějaké slovo → ikona „ozubené kolečko“ → pokročilé vyhlevádání
- site:podsíť, ve které se vyhledává
VOŠ site:www.oauh.cz
- filetype:typ souboru- speciálně vyhledávání obrázků
 
- Uvozovky — hledání přesné fráze — slova se musí vyskytovat v tomto pořadí:
"obchodní škola"
-  Konkrétní umístění fráze:
- v titulku stránky, v adrese, v textu stránky,…
 
- Omezení stáří dokumentu.
-  Znaménko „minus“ znamená vyloučení.
- Hledáme stránky, obsahující slovo virus a neobsahující přitom slovo internet.
- Hledáme slovo VOŠ někde jinde než na stránkách OAUH.cz:
 
virus –internet VOŠ –site:www.oauh.cz

