Cvičenie: Organizácia ukladania a získavania informácií na internete. Vlastnosti používania internetu pri hľadaní informácií pre vzdelávacie aktivity študenta. hodnotenie výsledkov vyhľadávania

Problém vyhľadávania na World Wide Web nespočíva v tom, že je tam málo informácií, ale v tom, že je ich veľa. Vyhľadávanie informácií na internete je základným kameňom efektívneho prehliadania webu. Vďaka vyhľadávacím schopnostiam je internet užitočný pre používateľa počas práce aj vo voľnom čase.
Na organizáciu vyhľadávania na internete existujú špecializované služby nazývané vyhľadávače.

Vyhľadávače.

Vyhľadávače sú softvérový a hardvérový komplex s webovým rozhraním, ktoré poskytuje možnosť vyhľadávať informácie na internete.
Väčšina vyhľadávače vyhľadávať informácie na stránkach World Wide Web, ale existujú aj systémy, ktoré dokážu vyhľadávať súbory na serveroch FTP, produkty v online obchodoch a informácie v diskusných skupinách Usenet. Na vyhľadávanie informácií pomocou vyhľadávacieho nástroja používateľ sformuluje vyhľadávací dopyt. Na žiadosť používateľa vyhľadávač vygeneruje stránku s výsledkami vyhľadávania. Takéto výsledky vyhľadávania sa môžu kombinovať odlišné typy súbory, ako sú webové stránky, obrázky, zvukové súbory. Niektoré vyhľadávače tiež získavajú údaje z databáz a adresárov zdrojov na internete.
Účelom vyhľadávača je nájsť dokumenty, ktoré obsahujú buď kľúčové slová, alebo slová, ktoré nejakým spôsobom súvisia s kľúčovými slovami. Vyhľadávač je lepší, čím viac dokumentov relevantných pre dopyt používateľa, vráti. Výsledky vyhľadávania sa môžu zhoršiť kvôli zvláštnostiam algoritmov. Napríklad pri žiadosti o domáce zvieratá poskytuje vyhľadávací server Yandex (viac o ňom nižšie) viac ako 14 000 000 odkazov na stránky obsahujúce informácie, ktoré si myslí, že potrebuje. Nie všetko je však také hladké: pri návšteve niektorých nájdených stránok sa ukáže, že informácie, ktoré hľadajú, nestačia alebo dokonca vôbec nie.
Pre maximálne efektívne vyhľadávanie potrebujete vedieť, ako fungujú vyhľadávače a správne zostaviť požiadavku na vyhľadávanie informácií.

Princípy vyhľadávačov

Vyhľadávače fungujú tak, že ukladajú informácie o mnohých webových stránkach, ktoré získajú zo stránok HTML. Hlavné komponenty vyhľadávacieho nástroja: vyhľadávací robot, indexer, vyhľadávač. Systémy zvyčajne fungujú v etapách. Najprv indexový prehľadávač získa obsah a potom prehľadá obsah webových stránok. Až potom indexátor vygeneruje prehľadávateľný index. Indexer je modul, ktorý analyzuje stránku po jej rozdelení na časti pomocou vlastných lexikálnych a morfologických algoritmov.
Práca väčšiny moderných vyhľadávačov je založená na citačnom indexe, ktorý indexátor vypočítava ako výsledok analýzy odkazov na aktuálnu stránku z iných internetových stránok. Čím je ich viac, tým vyšší je citačný index analyzovanej stránky, tým vyššie bude táto stránka zobrazená vo výsledkoch vyhľadávania a tým vyššie bude stránka prezentovaná v zozname nájdených zdrojov.

Pravidlá pre vytváranie vyhľadávacích dopytov

Ako už bolo uvedené, na internete existuje veľa domácich aj zahraničných vyhľadávačov.
Ruské vyhľadávacie servery: Yandex (www.yandex.ru); Rambler (www.rambler.ru); Aport (www.aport.ru) a Gogo (www.gogo.ru).

Zahraničné vyhľadávacie servery: Google ( www.google.com); Altavista (www.altavista.com) a Yahoo! (www.yahoo.com).
Ruské servery sú vhodnejšie na vyhľadávanie v ruštine, zahraničné servery sú vhodnejšie na vyhľadávanie v cudzom jazyku, hoci Google robí dobrú prácu pri vyhľadávaní v mnohých jazykoch. Napriek tvrdeniam mnohých majiteľov vyhľadávačov, že dopyty možno písať prakticky v jazyku, ktorý ľudia používajú na vzájomnú komunikáciu, to zďaleka neplatí. Vďaka zavedeniu nových jazykových technológií sa vyhľadávače stali oveľa lepšími v porozumení používateľovi. Vyhľadávače teraz nehľadajú len požadované slovo, ale aj jeho slovné tvary, čo umožňuje spresniť výsledky vyhľadávania. Napríklad, ak vyhľadávací dopyt obsahuje slovo smart, potom jeho výsledky budú obsahovať nielen toto slovo, ale aj jeho deriváty: smart, smart, rovnako ako myseľ a dokonca aj myseľ. Prirodzene, medzi prvými výsledkami vyhľadávania nebudú stránky s tvarmi slov, ale prvky umela inteligencia na tvári. Túto skutočnosť je užitočné vziať do úvahy pri konštrukcii vyhľadávacie dopyty.
Malo by sa pamätať na to, že vyhľadávacie nástroje nezohľadňujú pri spracovávaní požiadavky znaky písmen a nie je potrebné používať interpunkčné znamienka vo vyhľadávacích dopytoch, pretože ich vyhľadávacie servery tiež ignorujú. Pri vytváraní zložitých pokročilých dopytov, ktorých výsledky vyhľadávania sú zvyčajne oveľa bližšie k tomu, čo očakávate, sa však používajú tradičné interpunkčné znamienka. Väčšina vyhľadávačov si vie poradiť s preklepmi. Ak sa vyhľadávaciemu serveru zdá, že je v slove chyba alebo preklep, upozorní na to rovnakou frázou: Možno ste hľadali ....

Slová na dopytovanie vyhľadávacieho servera

Existuje výraz „Stroj musí fungovať, človek musí myslieť“ a práve o takejto situácii sa hovorí. Úlohou užívateľa pri zostavovaní vyhľadávacieho dopytu je zvýrazniť kľúčové slová, úlohou vyhľadávacieho servera je čo najlepšie spracovať zadaný dopyt. Zvážte príklad ilustrujúci typické chyby začínajúcich používateľov pri vyhľadávaní na internete. Na žiadosť „Záhady o hudobné nástroje Vyhľadávací nástroj nevrátil žiadne užitočné výsledky. Potom sa používateľ rozhodne opraviť požiadavku jej doplnením a napísaním: „Hádanky pre deti o hudobných nástrojoch“ - výsledky vyhľadávania sa ukázali byť ešte horšie ako predchádzajúce. Pre tento príklad nie je to zlé rozhodnutie Došlo k vyhľadávaniu kľúčového slova „hádanky“. Na internete je veľa takýchto stránok a keď prejdete na samotnú stránku a trochu prehľadáte v jej sekciách, je celkom možné nájsť informácie, ktoré vás zaujímajú. Formulujeme niekoľko pravidiel pre zostavovanie dopytov:

  • vyberte len najdôležitejšie kľúčové slová súvisiace s uvažovanou témou;
  • slov by nemalo byť príliš veľa, ale ani príliš málo;
  • v prípade neuspokojivých výsledkov vyhľadávania použite pre dopyt „mäkkšie“ podmienky alebo skúste hľadať v inom vyhľadávači, pretože mechanizmy vyhľadávačov nie sú rovnaké, preto sa výsledky môžu tiež líšiť.

pokročilé vyhľadávanie

Pre efektívnejšie vyhľadávanie na internete poskytujú vyhľadávače možnosť rozšíreného vyhľadávania, ako aj vyhľadávania pomocou jazyka dopytu. Pokročilé vyhľadávanie - možnosť vyhľadávania s mnohými rôznymi parametrami. Vyhľadávače na tento účel poskytujú samostatné stránky, na ktorých môžete takéto parametre nastaviť. Princípy rozšíreného vyhľadávania sú podobné pre väčšinu vyhľadávačov.
Zvážte pridané vlastnosti hľadajte na príkladoch vyhľadávacích nástrojov Yandex a Google, pretože Yandex je najobľúbenejší vyhľadávací nástroj na rusky hovoriacom internete a Google je najobľúbenejší vyhľadávací nástroj na svete. Pri vyhľadávaní na internete bol Yandex jedným z prvých, ktorý zohľadnil morfológiu ruského jazyka, to znamená, že použil rôzne formy slova, ako je uvedené vyššie. Po vstupe na stránku www.yandex.ru môže používateľ zadať dotaz a okamžite získať výsledky vyhľadávania, alebo môžete použiť odkaz Rozšírené vyhľadávanie pomocou ikony a prejsť na príslušnú stránku (pozri obrázok nižšie), kde môžete - naladiť parametre vyhľadávania.

Stránka rozšíreného vyhľadávania Yandex

Pozrime sa na ďalšie funkcie, ktoré možno použiť na stránke rozšíreného vyhľadávania: uveďte svoju vlastnú polohu (Moskva), uveďte, v akej forme by sa informácie mali prezentovať (typ súboru), časové obdobie, v ktorom hľadáme informácie (za deň, 2 týždne, za mesiac, Od ..Do), v akom jazyku sa majú informácie prezentovať (ruština, angličtina Viac) a tiež môžete zadať adresu URL stránky atď.
Voľba (Presne ako v dopyte) sa vyhľadávaču zobrazí, aby sa nezmenila morfológia dopytovaných slov, ale aby sa hľadala len forma slova, ktorá je špecifikovaná.

Jazyk dopytu

Dotazovací jazyk je príkazový systém, ktorý vám umožňuje meniť parametre dopytu z hlavného vyhľadávacieho reťazca pomocou špeciálnych príkazov. Zamerané na pokročilých používateľov.
Keďže dopytovací jazyk je pomerne zložitý a objemný, uvádzame len jeho hlavné konštrukcie, ktoré môžu byť používateľmi najviac žiadané. Niektoré príkazy dotazovacieho jazyka Yandex sú uvedené v tabuľke.

Operátor

Popis

Syntax

Žiadosť o príklad

Vyhľadajte dokumenty, v ktorých sa nevyhnutne nachádza vybrané slovo.

V rovnakom dopyte je prijateľné použiť viacero operátorov +.

"slovo 1 + slovo 2"

Nájdu sa dokumenty, ktoré nevyhnutne obsahujú slová "Boulevard" a "Moskva" a môžu obsahovať slovo "Sholokhov".

Vyhľadávanie cenovej ponuky.

Vyhľadajte dokumenty obsahujúce dopytované slová v danom poradí a tvare.

"slovo 1 slovo 2 ... slovo N"

Nájdu sa dokumenty obsahujúce danú cenovú ponuku.

Hľadajte podľa citátov s chýbajúcimi slovami.

Jeden operátor * zodpovedá jednému chýbajúcemu slovu.

Pozor! Používa sa len ako súčasť operátora.

"slovo 1 * slovo 2 ... slovo N"

Operátor je oddelený medzerami.

Nájdu sa dokumenty obsahujúce danú citáciu vrátane chýbajúceho slova.

Nájdu sa dokumenty obsahujúce danú citáciu vrátane chýbajúcich slov.

Úplnú štruktúru dopytovacieho jazyka Yandex nájdete na stránke Pomocníka (http://help.yandex.ru/search/?id=481939). Jazyk vyhľadávacích dopytov v službe Google sa líši od jazyka Yandex, aj keď existujú niektoré spoločné body. Zvážte niektoré zo základných príkazov tohto jazyka preskúmaním tabuľky (pozri nižšie)

Úplnú štruktúru dopytovacieho jazyka Google možno nájsť na stránke Pomocníka:

Cieľ:štúdium zásad organizácie vyhľadávania na internete a získanie praktických zručností pri zostavovaní vyhľadávacích dopytov.

2.1 Jednoduché vyhľadávacie trikyWeb-stránky

Jednoduché techniky vyhľadávania nezahŕňajú využitie výkonných vyhľadávacích možností internetu a sú založené na znalosti princípov tvorby symbolických doménových mien a intuícii.

Vyhľadajte reklamuWeb-stránky. Ak chcete získať adresu, ktorú hľadáte, môžete k názvu spoločnosti, podniku, organizácie alebo jednoduchému anglickému podstatnému menu (kľúčovému slovu) pridať doménu. com, nahraďte dopredu www. Webové stránky s názvom domény špičková úroveň. com., najčastejšie obsahujú informácie v angličtine.

Príklad 1 Vezmite názov spoločnosti SONY, pridajte doménu. com a pred www. - získajte adresu webovej stránky SONY: www. Sony. com. Podobne môžete získať:

www. cnn. com- CNN World News;

www. mtv. com- hudobné správy MTV;

www.- časopis COSMOPOLITAN.

Ak zadáte kľúčové slovo adresný riadok internet prieskumník a stlačte ctrl+ Zadajte, potom sa prehliadač pokúsi prejsť na presnú adresu URL automatickým pridaním názvu protokolu a webovej značky, napríklad http://www. a domény najvyššej úrovne. com. Ak napríklad do panela s adresou napíšete mňa a stlačíte Ctrl-Enter, potom prehliadač internet prieskumník sa pokúsi otvoriť webovú stránku s adresou http:// www. ja. com. Ak sa uzol neotvorí, potom neexistuje.

Hľadajte podľa regiónov. Pre Rusko a ostatné regióny zostáva v platnosti vyššie uvedená metóda. V tomto prípade sa ku kľúčovému slovu pridá doména najvyššej úrovne regiónu (dvojpísmenový kód krajiny), čím sa získa adresa webovej stránky. Ak chcete napríklad vyhľadať ruské servery, môžete skúsiť pridať doménu ku kľúčovému slovu. ru.

Príklad 2. známe, že majú server www. audi. com. Môžete sa pokúsiť nájsť jeho pobočku v Rusku nahradením domény. com do domény. ru- www. audi. en.

Vyhľadajte hlavné vzdelávacie inštitúcie. K názvu alebo skratke vzdelávacej inštitúcie sa pridá doména. edu (hlavne pre regióny USA a Európy), ktorý zvyčajne uvádza správnu adresu.

Príklad 3. Vezmite OXFORD University, pridajte doménu. edu a pred www. - získajte adresu webovej stránky univerzity OXFORD: www. oxford. edu. V adrese webovej stránky vzdelávacej inštitúcie sa často nenachádza žiadna doména. edu. Registrovanou doménou druhej úrovne (alebo doménovým aliasom) môže byť skrátený anglický názov vzdelávacej inštitúcie. Ak chcete vyhľadať ruskú vzdelávaciu inštitúciu, môžete použiť jej anglickú skratku, napríklad MSU (Moskva štátna univerzita), pridať doménu. en- www. msu. en- Moskovská štátna univerzita.

Často v adrese webovej stránky existuje Doménové meno Poskytovateľ internetových služieb, na počítači ktorého je táto webová stránka nainštalovaná, napr. www. kgtu. runnet. en- adresa Krasnojarskej štátnej technickej univerzity, kde ***** je názov domény poskytovateľa internetových služieb.

Mnohé krajiny majú registrovanú doménu druhej úrovne pre vzdelávacie inštitúcie. Napríklad pre Spojené kráľovstvo je to AC (akademická) doména. Každá webová stránka môže mať viacero adries aliasov, ktoré pri prístupe prevedú používateľa na rovnakú webovú stránku. Napríklad pre OXFORD University sú to adresy www. vôl. ac. UK a www. oxford. edu.

Iné vyhľadávanieWeb-stránky. Môžete manipulovať s kľúčovými slovami a doménami najvyššej úrovne a vyhľadávať tak vládne (.gov), vojenské (.mil) a iné organizácie (.org). Napríklad adresa Bieleho domu vlády USA: www. Biely dom. vlád.

2.2 Webové vyhľadávačeinternet

AT Internet k dispozícii výkonné nástroje vyhľadať akékoľvek informácie: dokumenty, obrázky, programy, webové stránky a pod. Vyhľadávanie prebieha v tzv vyhľadávače, ktoré sa tiež nazývajú vyhľadávače, vyhľadávače, vyhľadávače. Na internete je veľa vyhľadávačov. Najznámejšie systémy na vyhľadávanie informácií sú uvedené v tabuľke 2.1. Zoznam odkazov na rôzne vyhľadávacie nástroje je zverejnený na webovej stránke www. mních. nová pošta. en.

Tabuľka 2.1 – Najpopulárnejšie vyhľadávače

Názov vyhľadávacieho nástroja

Adresa

Yandex (ruština)

http://www. *****

Rambler (rusky hovoriaci)

http://www*****

Aport (rusky hovoriaci)

http://w ww. *****

Yahoo! (Angličtina)

AltaVista (angličtina)

Google (ruština)

http://www. *****

Vyhľadávací systém realizovaný ako Web stránka s bežnou adresou, ktorá obsahuje tzv vyhľadávací reťazec a tlačidlo Vyhľadávanie (Vyhľadávanie), a môže tiež obsahovať tematický zoznam zdrojov, odkazy na obľúbené stránky atď.

Ak chcete zavolať vyhľadávač, musíte zadať jeho adresu do panela s adresou internetového prehliadača. Po načítaní vyhľadávača do vyhľadávacieho panela musíte zadať žiadosť (dopyt), čo je reťazec textu (v akomkoľvek jazyku) - prístupová fráza hľadaných dokumentov na internete a kliknite na tlačidlo Vyhľadávanie. Pre efektívnejšie vyhľadávanie je potrebné, aby dopyt obsahoval slová alebo frázy, ktoré sa budú nachádzať na hľadanej webovej stránke alebo v hľadanom dokumente (treba ich „uhádnuť“). Po chvíli sa zobrazí obrazovka zoznam adriesWeb-stránky, obsahujúce odkazy na dokumenty, ktoré hľadáte, ktoré sú spravidla sprevádzané komentármi. Kliknutím na odkaz môžete prejsť na ktorýkoľvek z nájdených dokumentov.

Ak chcete prejsť na ďalšiu stranu zoznamu nájdených dokumentov, musíte kliknúť na príslušné číslo (1, 2, 3, ...) v hlavnom okne s výsledkom vyhľadávania. Zvyčajne dokumenty z prvých desiatich nájdených zodpovedajú žiadosti čo najviac.

Základom každého vyhľadávača je špeciálny program - sieťový robot alebo pavúk (pavúk), niekedy môžete vidieť mená červ (červ),crawler (popínavka). Vyhľadávací nástroj posiela na internet také „pavúky“, ktoré si prezerajú maximálny počet (ak je to možné) webových stránok prezentovaných na internete a následne zaregistrujú ich adresu (URL) a obsah vo svojej databáze. Potom, čo používateľ zadá dotaz a klikne na tlačidlo Vyhľadávanie vyhľadávač prehľadá databázu a zobrazí výsledok vyhľadávania.

Okrem toho takmer všetky vyhľadávače umožňujú zaregistrovať stránku používateľa umiestnenú na internete. Ak to chcete urobiť, na stránke veľkého vyhľadávača, ako je napríklad YAHOO!, musíte zavolať do režimu registrácie a zadať adresu URL a popis svojej stránky. Vyhľadávač potom rozšíri vaše registračné informácie do všetkých ostatných hlavných vyhľadávacích uzlov, ktoré sa následne rozšíria na ďalšie atď.. Existujú aj globálne registračné servery.

Vyhľadávajte v adresároch sú dostupné napríklad na vyhľadávacích serveroch Rambler, Yahoo!, AltaVista atď. Pre vyhľadávanie v katalógu je potrebné vyberať témy myšou, prehlbovať a zužovať okruh vyhľadávania, kým sa zoznam zobrazených odkazov nezmenší na niekoľko stránok ktoré je možné prehľadávať manuálne alebo do dostatočne veľkej skupiny, v ktorej môžete vykonávať bežné vyhľadávanie (napríklad vo vyhľadávacom nástroji Yandex: Štúdium Vysokoškolské vzdelanie Moskovská štátna univerzita).

2.3 Pravidlá pre vykonávanie dopytov vo vyhľadávačoch

Pri vykonávaní dopytov existujú určité pravidlá, ktoré sa môžu v rôznych vyhľadávačoch čiastočne líšiť, ale základné kroky sú podobné. Pravidlá pre vykonávanie dopytov nájdete vždy na webovej stránke konkrétneho vyhľadávača v sekcii Pomoc(táto časť sa môže nazývať Pomoc, Ako hľadať, Tipy na vyhľadávanie, Pravidlá vykonávania dopytov atď.). Pravidlá dopytovania zvyčajne zahŕňajú použitie dopytovací jazyk pre rozšírené vyhľadávanie.

Najjednoduchším pravidlom, ktoré existuje pre všetky vyhľadávače, je zadať ľubovoľnú frázu a kliknúť Vyhľadávanie.

V nasledujúcom odseku sa zvážia niektoré pravidlá na vykonávanie požiadaviek pomocou systému Yandex ako príkladu. Mnohé z týchto pravidiel platia aj pre iné vyhľadávače. Vzorové dopyty sú prevzaté zo stránok pomocníka vyhľadávacieho nástroja Yandex.

2.4 Príklady jednoduchých dopytov vo vyhľadávacom nástroji Yandex

Dopyt zvyčajne pozostáva z jedného alebo viacerých kľúčových slov, napríklad: firemné mikroprocesoryIntel. Pre takýto dotaz sa nájdu dokumenty, ktoré obsahujú všetky slová dotazu. Niektoré slová v dotaze sú ignorované (spojky, predložky atď.), pretože nemajú sémantickú záťaž. Napríklad na požiadanie jablká v snehu nájdu sa všetky dokumenty, ktoré obsahujú súčasne dve slová: „jablko“ a „sneh“ (poradie ich zobrazenia v zozname sa však bude líšiť). Nie je dôležité, kde sa slová v dokumente nachádzajú a v akej gramatickej forme sú. Zámienka na ignoroval. Preto vyššie uvedený dotaz môže byť napísaný takto: sneh na jablku. Výsledok vyhľadávania bude rovnaký.

Dôležitá a veľmi užitočná vlastnosť vyhľadávačov: bez ohľadu na to, v akej gramatickej forme napíšete slovo do dopytu, je v dokumentoch vo všetkých jeho podobách. Napríklad na požiadanie muž kráčal dokumenty obsahujúce text „ľudia chodia“ nájdete medzi inými. Na bežné ruské slová funguje rozpoznávanie všetkých foriem. Pri exotických slovách, neologizmoch atď. sa nevykonáva.

Operátori Yandex, ich účel a príklady použitia nájdete v bode pomoci systému.

Na vizuálne vytváranie zložitých dopytov môžete použiť funkcie rozšíreného vyhľadávania na stránke Rozšírené vyhľadávanie.

1. Oboznámte sa s teoretickými informáciami.

2. Vytvorte adresu webovej stránky svetoznámej spoločnosti (Intel, IBM, Sony atď.) a otvorte ju v internet prieskumník. Uložte nájdené webové stránky do samostatného priečinka.

3. Rovnakým spôsobom prejdite na webovú stránku Štátnej univerzity v St. Petersburgu a rovnakým spôsobom otvorte webovú stránku Fakulty aplikovanej matematiky tej istej univerzity. Uložte nájdené webové stránky do samostatného priečinka.

4. V každom vyhľadávači (tabuľka 2.1) spustite niekoľko dotazov, ktoré ovplyvňujú problémy, ktoré vás zaujímajú, a otvorte nájdené dokumenty.

5. Skúste vyhľadať tematické adresáre.

6. Pomocou rozšíreného vyhľadávania na Yandex porovnajte popularitu nasledujúcich stránok podľa počtu stránok, ktoré na ne odkazujú: Prezident a vláda Ruská federácia; Moskovská štátna univerzita a Štátna univerzita v Petrohrade; Ermitáž a Louvre. Uložte nájdené webové stránky do samostatného priečinka. Vytvorte textový súbor, kde je stanovený počet odkazov na každý z nich.

7. Nájdite informácie o tom, kedy a kde ste sa narodili. Urobte si zoznam jeho diel. Nájdite jeho fotografie v rôznych rokoch života. Uložte všetky informácie do samostatného priečinka.

8. Vyhľadajte na internete informácie o zvolenej téme seminárnej práce. Podľa výsledkov vyhľadávania vytvorte v texte Word editor tabuľku podľa vzoru (tabuľka 2.3) a vyplňte ju.

Tabuľka 2.3 – Vzorový prehľad výsledkov vyhľadávania

a/a

Charakteristika výsledkov vyhľadávania

URL nájdeného zdroja

Stručný popis zdroja

9. Pozvite učiteľa na správu o pokroku.

10. Odstráňte súbory uložené počas práce z pracovného priečinka.

2.6 Bezpečnostné otázky

1. Popíšte jednoduché spôsoby vyhľadávania informácií na internete.

2. Aké sú princípy internetových vyhľadávačov?

3. Formulujte základné pravidlá pre zostavovanie vyhľadávacích dopytov.

4. Ktoré z vyhľadávacích nástrojov, o ktorých ste uvažovali, majú schopnosť používať jazyk dopytov?

5. Ktoré z vyhľadávačov, o ktorých ste uvažovali, majú tematický katalóg zdrojov?

6. Ktoré z vyhľadávacích nástrojov, o ktorých ste uvažovali, majú schopnosť vyhľadávať rôzne kategórie informačných zdrojov?

Hľadanie informácií je úlohou, ktorú ľudstvo rieši už mnoho storočí. S narastajúcim objemom informačných zdrojov, ktoré sú potenciálne dostupné pre jednu osobu, sa vyvíjajú stále sofistikovanejšie a sofistikovanejšie vyhľadávacie nástroje a techniky na nájdenie potrebného dokumentu.

Podľa knihy K. Manninga „Introduction to Information Retrieval“ môžeme povedať, že efektívna prevádzka akéhokoľvek IPS je založená na rýchlosti a schopnostiach viacrozmerného vzorkovania potrebných údajov z veľkého poľa (vyhľadávanie informácií) pre vnútornú prácu s údajmi. To kladie určité požiadavky na organizáciu pravidiel vyhľadávania, konštrukciu používateľského a softvérového rozhrania a formu poskytovania informácií.

Implementácia vyššie uvedených požiadaviek je priradená k nasledujúcemu radu konštrukčných prvkov, takzvaným blokom [Príloha 4].

Podľa knihy Varfolomeeva A.A. „Základy informačná bezpečnosť“, výber práve takejto štruktúry systému na vyhľadávanie informácií je založený na veľmi jednoduchej logike - každá jednotka systému musí prijímať údaje, spracovať ich a odovzdať ich používateľovi v určitom poradí, pričom poskytuje logiku procesu.

Je nemožné hovoriť o systémoch na vyhľadávanie informácií bez toho, aby sme spomenuli niečo ako vyhľadávač. Ako D.N. Kolisnichenko v knihe „Vyhľadávače a propagácia webových stránok na internete“, vyhľadávač- systém s databázou tvorenou robotom obsahujúci informácie o informačných zdrojoch. Charakteristickým rysom vyhľadávačov je skutočnosť, že databázu obsahujúcu informácie o webových stránkach generuje program robota. Po prijatí výsledku, ak názov a popis dokumentu spĺňa vaše požiadavky, môžete okamžite prejsť na jeho pôvodný zdroj pomocou odkazu. Je pohodlnejšie to urobiť v novom okne, aby ste mohli ďalej analyzovať výsledky vyhľadávania. Mnohé vyhľadávače umožňujú vyhľadávanie v nájdených dokumentoch a je možné spresniť dopyt zavedením ďalších výrazov. Ak je inteligencia systému vysoká, potom je tu aj možnosť vyhľadávania podobných dokumentov. Automatizácia zisťovania podobnosti však nie je triviálna úloha a často táto funkcia nefunguje vždy správne. Niektoré vyhľadávače umožňujú triediť výsledky. Stojí za to venovať pozornosť skutočnosti, že rôzne vyhľadávače opisujú rôzny počet zdrojov informácií na internete. Preto sa nemôžete obmedziť na vyhľadávanie iba v jednom z uvedených vyhľadávačov. Existujú rôzne vyhľadávacie nástroje, ktoré netvoria vlastný index, ale sú schopné využívať možnosti iných vyhľadávačov. Toto, ako N.A. Gaydmamakin v knihe "Automatizované informačné systémy, databázy a databanky", metavyhľadávače(vyhľadávacie služby) - systémy, ktoré môžu odosielať požiadavky používateľov súčasne na niekoľko vyhľadávacích serverov, potom výsledky skombinovať a predložiť ich používateľovi vo forme dokumentu s odkazmi.

Tiež D.N. Kolisnichenko píše, že na čo najpresnejšie a najrýchlejšie nájdenie potrebných informácií v sieti používa IPS indexovanie.

Vyhľadávací index- dátová štruktúra, ktorá obsahuje informácie o dokumentoch a používa sa vo vyhľadávačoch.

Indexovanie(alebo indexovanie) vykonávané vyhľadávacím nástrojom je proces zhromažďovania, triedenia a ukladania údajov s cieľom poskytnúť rýchle a presné vyhľadávanie informácií. Tvorba indexu zahŕňa interdisciplinárne pojmy z lingvistiky, matematiky a informatiky.

Populárne vyhľadávače sa zameriavajú na fulltextové indexovanie dokumentov napísaných v prirodzených jazykoch. Do vyhľadávania sa môžu zapojiť aj multimediálne dokumenty, ako je video a zvuk a grafika.

A.Yu Kelina v knihe „Základy informačnej bezpečnosti“ píše, že metavyhľadávače používajú indexy iných vyhľadávacích služieb a neukladajú lokálny index, zatiaľ čo vyhľadávače založené na cacheovaných stránkach ukladajú index aj textové korpusy dlhú dobu. Na rozdiel od fulltextových indexov, čiastočné textové služby obmedzujú hĺbku indexovania, aby sa zmenšila veľkosť indexu.

Architektúra vyhľadávača sa líši v spôsoboch indexovania. Indexy sú nasledujúcich typov [Príloha 5]:

  • · priamy index. Dopredný index obsahuje zoznam slov pre každý dokument.
  • · Obrátený index. Ukladá zoznam výskytov každého hľadaného výrazu.

Index je len časť vyhľadávacieho nástroja, skrytá pred používateľom. Druhá časť tohto zariadenia je jazyk na vyhľadávanie informácií (IPL), o ktorom podrobne píše Varfolomeev A.A. v knihe Základy informačnej bezpečnosti. ISL je jazyk, ktorý umožňuje formulovať požiadavku do systému jednoduchou a názornou formou. Aj keď je používateľ vyzvaný na zadanie dotazov v prirodzenom jazyku, neznamená to, že systém vykoná sémantickú analýzu používateľského dotazu. Hlavným bodom je, že fráza je zvyčajne rozdelená na slová, zakázané a bežné slová sú z tohto zoznamu odstránené, niekedy sa slovná zásoba normalizuje a potom sú všetky slová spojené buď logickým AND alebo OR.

Možné sú aj varianty, ako uvádza N.A. Chursin v knihe "Populárna informatika". Takže vo väčšine systémov budú niektoré frázy rozpoznané ako kľúčové slová a nebudú rozdelené na jednotlivé slová. Ďalším prístupom je vypočítať vzdialenosť medzi dopytom a dokumentom. V súčasnosti je známych asi tucet rôznych meraní blízkosti. Práve tieto percentá zhody dokladov so žiadosťou sa vydávajú ako informácie o pozadí v zozname nájdených dokumentov.

Podľa K. Manninga má AltaVista najpokročilejší dopytovací jazyk z moderných internetových systémov na vyhľadávanie informácií. Okrem obvyklej sady AND, OR, NOT vám tento systém umožňuje použiť aj NEAR. Posledný operátor vám umožňuje organizovať kontextové vyhľadávanie. Všetky dokumenty v systéme sú rozdelené do polí, takže v požiadavke môžete určiť, v ktorej časti dokumentu chce používateľ kľúčové slovo vidieť (v odkaze, nadpise a pod.).

(Viac informácií o informáciách a jazykoch na vyhľadávanie na internete nájdete v prílohe)

Z knihy Yu.I. Kudinova "Základy modernej informatiky", môžete zistiť, že najbežnejšími modelmi prezentácie dokumentov v informačnom systéme sú rôzne variácie na tému prezentácie dokumentu ako súboru pojmov. Ako už bolo spomenuté, toto nie je celý text dokumentu, ale iba malý súbor pojmov, ktorý odráža jeho obsah. Na základe tejto myšlienky dokumentu je potrebné zvážiť rôzne jazyky na vyhľadávanie informácií.

Najbežnejším ILP je tradičný jazyk, ktorý vám umožňuje skladať boolovské výrazy z termínu množina. V tomto prípade sa používajú boolovské operátory AND, OR, NOT.

Takáto schéma je pomerne jednoduchá, a preto sa najčastejšie používa v moderných systémoch na vyhľadávanie informácií. Ale ešte pred 20 rokmi boli jeho nedostatky dobre známe.

Booleovské vyhľadávanie sa neškáluje dobre. Operátor AND môže výrazne znížiť počet dokumentov vrátených na dotaz. V tomto prípade bude všetko veľmi závisieť od toho, aké typické sú hľadané výrazy pre databázu. Operátor OR môže naopak viesť k neprimerane širokému dopytu, v ktorom sa užitočné informácie strácajú za informačným šumom. Pre úspešnú aplikáciu tohto ILP je potrebná dobrá znalosť slovnej zásoby systému a jeho tematického zamerania. Spravidla sa pre systém s takýmto IEL vytvárajú špeciálne dokumentované lexikálne databázy s komplexnými slovníkmi, ktoré sa nazývajú tezaury a obsahujú informácie o vzájomnom vzťahu slovníkových termínov.

K. Manning poukazuje na to, že modifikáciou boolovského vyhľadávania je vážené booleovské vyhľadávanie. Myšlienka takéhoto hľadania je celkom jednoduchá. Termín sa považuje za popis obsahu dokumentu s určitou presnosťou a táto presnosť je vyjadrená ako váha termínu. V tomto prípade môžu byť vážené výrazy dokumentu aj výrazy dopytu. Žiadosť môže byť formulovaná v ILP opísanom vyššie, ale výstup dokumentov bude zoradený v závislosti od stupňa podobnosti medzi žiadosťou a dokumentom. V tomto prípade je meranie blízkosti konštruované tak, že zvyčajné boolovské vyhľadávanie by bolo špeciálnym prípadom váženého boolovského vyhľadávania.

Ale na rozdiel od Varfolomeeva A.A. , JE. Ashmanov vo svojej knihe „Propagácia webových stránok vo vyhľadávačoch“ píše, že aj keď poskytovatelia internetových služieb nie sú teraz dokonalí, Osobitná pozornosť venujte pozornosť algoritmu poradie(usporiadané zarovnanie) prijatých odkazov, keďže je nemenej dôležité. Najbežnejšie používanými kritériami hodnotenia v IRS sú prítomnosť slov z dopytu v dokumente, ich počet, blízkosť k začiatku dokumentu, vzájomná blízkosť;

Prítomnosť slov z dotazu v nadpisoch a podnadpisoch dokumentov (nadpisy musia byť špeciálne naformátované);

Počet odkazov na tento dokument z iných dokumentov „rešpektovanosti“ odkazujúcich dokumentov.

Rôzne vyhľadávače používajú rôzne hodnotiace algoritmy, ale základné princípy na určenie relevantnosti sú nasledovné:

  • · Počet dopytovaných slov v textovom obsahu dokumentu (t. j. v html kóde).
  • · Značky, v ktorých sa tieto slová nachádzajú.
  • · Umiestnenie hľadaných slov v dokumente.
  • · Podiel slov, vzhľadom na ktoré sa určuje relevantnosť, na celkovom počte slov v dokumente.

Tieto zásady platia pre všetky vyhľadávače.

Databáza vytvorí podobne zoradený zoznam HTML dokumentov a vráti ho osobe, ktorá požaduje. Vyberajú si aj rôzne vyhľadávače rôznymi spôsobmi zobraziť výsledný zoznam - niektoré zobrazujú iba odkazy; iné vytlačia odkazy s niekoľkými prvými vetami obsiahnutými v dokumente alebo názvom dokumentu spolu s odkazom. Hodnotenie vo vyhľadávaní je neoddeliteľnou súčasťou získavanie informácií.

Aspekty tohto konceptu sú dobre prezentované v knihe K. Manninga „Úvod do získavania informácií“. Získavanie informácií znamená použitie určitých stratégií, metód, mechanizmov a prostriedkov. Správanie používateľa, ktorý riadi proces vyhľadávania, nie je určené len informačnou potrebou, ale aj inštrumentálnou rôznorodosťou systému – technológiami a nástrojmi, ktoré systém poskytuje.

Stratégia vyhľadávania - všeobecný plán (koncept, preferencia, nastavenie) správania sa systému alebo používateľa na vyjadrenie a uspokojenie informačných potrieb používateľa, vzhľadom na povahu cieľa a typu vyhľadávania, ako aj na "strategické" rozhodnutia systému - databázová architektúra, metódy a prostriedky vyhľadávania v konkrétnom IS. Voľba stratégie je vo všeobecnom prípade problémom optimalizácie. V praxi je to do značnej miery determinované umením dosiahnuť kompromis medzi praktickými potrebami a možnosťami dostupných prostriedkov.

Metóda vyhľadávania - súbor modelov a algoritmov na realizáciu jednotlivých technologické etapy: zostavenie vyhľadávacieho obrázka dopytu, výber dokumentov (porovnanie vyhľadávacích obrázkov dopytov a dokumentov), ​​rozšírenie dopytu, lokalizácia a vyhodnotenie vystavenia.

Dopyt hľadať obrázok - text napísaný v ILP, ktorý vyjadruje sémantický obsah žiadosti o informácie a obsahuje pokyny potrebné na čo najefektívnejšiu realizáciu vyhľadávania informácií.

Proces získavania informácií je sled krokov vedúcich cez systém k určitému výsledku a umožňujúci vyhodnotiť jeho úplnosť. Keďže používateľ zvyčajne nemá komplexné znalosti o informačnom obsahu zdroja, v ktorom vykonáva vyhľadávanie, môže vyhodnotiť primeranosť výrazu dopytu, ako aj úplnosť získaného výsledku len na základe externých odhadov alebo na základe medzivýsledky a zovšeobecnenia, porovnávajúc ich napríklad s predchádzajúcimi.

Proces vyhľadávania možno znázorniť ako tieto hlavné komponenty:

  • 1) formulovanie dopytu v prirodzenom jazyku, výber vyhľadávacích nástrojov a služieb, formalizácia dopytu v zodpovedajúcom ILP;
  • 2) vykonanie vyhľadávania v jednom alebo viacerých vyhľadávačoch;
  • 3) prehľad získaných výsledkov (referencie);
  • 4) Predbežné spracovanie získané výsledky: prezeranie obsahu odkazov, extrahovanie a ukladanie relevantných údajov;
  • 5) v prípade potreby úprava žiadosti a vykonanie opakovaného (objasňujúceho) vyhľadávania s následným spracovaním výsledkov.

Na zníženie objemu vybraných materiálov sú výsledky vyhľadávania filtrované podľa typu zdrojov (stránky, portály), tém a iných dôvodov.

Podľa použitých vyhľadávacích technológií možno IP rozdeliť do 4 kategórií:

  • 1. Tematické adresáre;
  • 2. Špecializované katalógy (online adresáre);
  • 3. Vyhľadávače (fulltextové vyhľadávanie);
  • 4. Prostriedky metasearch.

Tematické katalógy zabezpečiť spracovanie dokumentov a ich zaradenie do jednej z viacerých kategórií, ktorých zoznam je vopred určený. V skutočnosti ide o indexovanie založené na klasifikácii. Indexovanie môže byť vykonané automaticky alebo manuálne odborníkmi prehliadajúcimi obľúbené webové stránky a komponenty. Stručný opis súhrnné dokumenty (kľúčové slová, abstrakt, abstrakt).

Špecializované katalógy alebo referenčná literatúra sú tvorené podľa jednotlivých odvetví a tém, podľa noviniek, podľa miest, podľa e-mailových adries a pod.

vyhľadávače(najpokročilejšie vyhľadávacie zariadenie na internete) implementuje technológiu fulltextového vyhľadávania. Texty umiestnené na dotazovaných serveroch sú indexované. Index môže obsahovať informácie o niekoľkých miliónoch dokumentov.

Pri použití finančných prostriedkov metasearch Požiadavku vykonáva súčasne niekoľko vyhľadávacích nástrojov. Výsledok vyhľadávania sa skombinuje do spoločného zoznamu zoradeného podľa relevantnosti. Každý systém spracováva len časť sieťových uzlov, čo umožňuje rozšírenie vyhľadávacej základne.

Veľmi dôležitá je aj takzvaná „organizácia vyhľadávania“ a „implementácia vyhľadávania“, ako uvádza D.N. Kolisnichenko v knihe „Vyhľadávače a propagácia webových stránok na internete“.

Hľadaj organizáciu

Postup vyhľadávania potrebných informácií je rozdelený do deviatich hlavných etáp:

  • · Určenie oblasti poznania;
  • · Výber typu údajov a zdrojov;
  • Zbierka materiálov potrebných na naplnenie informačného modelu;
  • ・Výber toho najviac užitočná informácia;
  • · Výber metódy spracovania informácií (klasifikácia, zhlukovanie, regresná analýza atď.);
  • · Voľba algoritmu na vyhľadávanie zákonitostí;
  • Hľadajte vzory, formálne pravidlá a štrukturálne vzťahy v zhromaždené informácie;
  • · Kreatívna interpretácia získaných výsledkov;
  • · Integrácia extrahovaných „vedomostí“.

Ak chcete vykonať vyhľadávanie, rozhranie pre prácu s príslušnou databázou sa najprv načíta do počítača používateľa. Môže to byť lokálna alebo vzdialená databáza. Najprv by ste sa mali rozhodnúť pre typ vyhľadávania (jednoduché, pokročilé atď.). Potom pomocou sady polí ponúkaných na vyhľadávanie. IPS môže ponúkať jedno alebo viac vstupných polí. V druhom prípade sú to zvyčajne polia: autor, názov (názov), časové obdobie, typ dokumentu, kľúčové slová, nadpisy atď.

Implementácia vyhľadávania

Všeobecne sa akceptuje usporiadanie vyhľadávania podľa počiatočných fragmentov slova (hľadanie s pravým skrátením), napríklad namiesto slova „knižnica“ môžete zadať jeho fragment „knižnica*“. V tomto prípade sa nájdu dokumenty, ktoré obsahujú nielen slovo „knižnica“, ale aj „knižnica“, „knihovňa“, „knihovňa“ atď. V každom prípade si používateľ musí predstaviť, čo presne chce nájsť, keďže v navrhovanej možnosti ho sa nájde oveľa väčší počet dokumentov, ako keď je dané slovo špecifikované úplne (bez skrátenia). V takom prípade je možné vykonať spresňujúce vyhľadávanie v poli prijatých informácií a v dôsledku toho získať relevantnejšie údaje.

IRS sú tiež charakterizované časom vykonania vyhľadávania, rozhraním poskytovaným používateľovi a typom zobrazených výsledkov. Pri výbere IPS sa venuje pozornosť takým parametrom, ako je pokrytie a hĺbka. Pod pokrytie sa vzťahuje na objem databázy vyhľadávacieho nástroja meraný tromi ukazovateľmi: celkový objem indexovaných informácií, počet jedinečných serverov a počet jedinečných dokumentov. Pod hĺbka rozumie sa - či je limit na počet stránok alebo na hĺbku vnorenia adresárov na jednom serveri.

Tiež niektoré aspekty získavania informácií sú zahrnuté v knihe V.A. Gvozdeva „Základy automatizovaného budovania informačné systémy» . Ako je napísané v knihe, každý vyhľadávací nástroj má svoje vlastné algoritmy na triedenie výsledkov vyhľadávania. Čím je požadovaný dokument bližšie k hornej časti zoznamu získaného ako výsledok vyhľadávania, tým vyššia je jeho relevantnosť a tým lepšie funguje vyhľadávací nástroj. Všetky umožňujú pomocou kľúčových slov, predmetových nadpisov a dokonca aj jednotlivých písmen rýchlo nájsť na webe napríklad všetky alebo takmer všetky texty, kde sa tieto slová vyskytujú. V tomto prípade je používateľ informovaný o adresách stránok, na ktorých sú nájdené výsledky neustále prítomné. Žiadna z nich však nemá oproti ostatným prevratné výhody. Na spoľahlivé vyhľadávanie zložitých otázok odborníci odporúčajú používať rôzne IPS v sérii alebo paralelne (súčasne).

Z knihy D.N. Kadeev" Informačné technológie a elektronickej komunikácie“ sa môžete dozvedieť o takom koncepte ako „fulltextový vyhľadávač“. Indexuje všetky slová textu viditeľné pre používateľa. Prítomnosť morfológie umožňuje nájsť požadované slová vo všetkých deklináciách alebo konjugáciách. Niektoré stroje sú schopné vyhľadávať frázy alebo slová v danej vzdialenosti, čo je často dôležité na získanie primeraného výsledku. Okrem toho v jazyk HTML existujú značky, ktoré dokáže spracovať aj vyhľadávač (názvy, odkazy, popisky obrázkov a pod.). Zároveň musíte vedieť, že čím menší počet kľúčových slov v týchto značkách obsahuje, tým častejšie sa môžu vyskytovať v textoch stránok webu, a teda tým vyššia je ich relevantnosť. Optimálna frekvencia takýchto slov nie je väčšia ako 5%. Kľúčových slov by nemalo byť príliš veľa, väčšinou by mali pozostávať z jedného alebo dvoch slov, ktoré tvoria najčastejšie používané výrazy. Čím sú kľúčové slová relevantnejšie, tým je dokument konkurencieschopnejší z hľadiska vyhľadávačov.

Používateľ dostane úplnosť a presnosť odpovede v závislosti od presnosti ním formulovanej požiadavky. Výsledkom vyhľadávania je mu zvyčajne poskytnutých oveľa viac informácií, ako potrebuje, pričom niektoré nemusia vôbec súvisieť s vygenerovanou požiadavkou. Je ľahké vidieť, že veľa závisí nielen od dobre formulovaného dopytu, ale aj od schopností vyhľadávačov, ktoré sú veľmi odlišné. Celkom zreteľne sa zároveň prejavuje fakt, že v získaných dátach je možné minúť hlavné, potrebné informácie. Jednoduché dotazy vo forme samostatných pomerne bežných výrazov vedú k extrakcii tisícov (státisícov) dokumentov, z ktorých drvivú väčšinu používateľ nepotrebuje ( informačný šum).

Dôležitým aspektom je aj schopnosť IPS podporovať viacjazyčnosť, teda schopnosť spracovávať požiadavky v rôznych jazykoch. Vyhľadávanie vo fulltextových databázach sa zvyčajne vykonáva aj pomocou morfologických analyzátorov (zvyčajne ruštiny a angličtiny), ktoré vám umožňujú automaticky nájsť existujúce slovné formy podľa fragmentu slova, slova, frázy, aj keď sú v dopyte nejaké preklepy. slová.

Taktiež nemožno nespomenúť takú vlastnosť IPS ako s nástroje na vyhľadávanie a štruktúrovanie , niekedy tzv vyhľadávače . Ako je. Ashmanov vo svojej knihe Propagácia webových stránok vo vyhľadávačoch sa vyhľadávacie nástroje používajú na to, aby pomohli ľuďom nájsť informácie, ktoré potrebujú. Vyhľadávacie nástroje, ako sú agenti, pavúky, prehľadávače a roboty, sa používajú na zhromažďovanie informácií o dokumentoch umiestnených na internete. to špeciálne programy, ktoré vyhľadávajú stránky na webe, extrahujú hypertextové odkazy na týchto stránkach a automaticky indexujú nájdené informácie na vytvorenie databázy. Každý vyhľadávací nástroj má svoj vlastný súbor pravidiel, ktoré určujú, ako sa dokumenty nachádzajú a spracúvajú. Niektorí sledujú každý odkaz na každej stránke, ktorú nájdu, a potom postupne skúmajú každý odkaz na každej z nových stránok atď. Niektorí ľudia ignorujú odkazy, ktoré vedú k grafickým a zvukovým súborom, animačným súborom; ostatní sú poučení, aby si najprv pozreli najobľúbenejšie stránky. Klasifikácia vyhľadávacích mechanizmov je najlepšie prezentovaná v knihe Varfolomeeva A.A. "Základy informačnej bezpečnosti" :

  • · Agenti- najinteligentnejší z vyhľadávacích nástrojov. Môžu robiť viac než len vyhľadávať: môžu dokonca vykonávať transakcie vo vašom mene. Už teraz môžu vyhľadávať konkrétne stránky a vracať zoznamy stránok zoradené podľa ich návštevnosti. Agenti môžu spracovávať obsah dokumentov, vyhľadávať a indexovať iné typy zdrojov, nielen stránky. Môžu byť tiež naprogramované tak, aby extrahovali informácie z už existujúcich databáz. Akékoľvek informácie agenti indexujú, odovzdajú ich späť do databázy vyhľadávacieho nástroja.
  • Všeobecné vyhľadávanie informácií na webe vykonávajú programy známe ako pavúkov. Pavúky hlásia obsah nájdeného dokumentu, indexujú ho a extrahujú výsledné informácie. Prezerajú si aj názvy, niektoré odkazy a zaindexované informácie posielajú do databázy vyhľadávača.
  • · Crawlery pozrite sa na hlavičky a vráťte iba prvý odkaz.
  • · roboty môžu byť naprogramované tak, aby sledovali rôzne odkazy rôznych hĺbok vnorenia, vykonávali indexovanie a dokonca kontrolovali odkazy v dokumente. Vzhľadom na svoju povahu sa môžu zaseknúť v cykloch, takže na sledovanie odkazov vyžadujú značné webové zdroje, existujú však metódy navrhnuté tak, aby zabránili robotom vyhľadávať stránky, ktorých majitelia si neželajú, aby boli indexované.

Na záver môžeme povedať, že IPS v sieti, so všetkou ich vonkajšou rozmanitosťou, ich klasifikáciou, ktorá je popísaná v knihe L.G. Gagarina "Automatizované informačné systémy":

Systémy vyhľadávania klasifikačných informácií

V klasifikácii IPS sa používa hierarchická (stromová) organizácia informácií, ktorá sa nazýva CLASSIFIER. Sekcie klasifikátora sa nazývajú RUBRIC. Knižničným analógom klasifikácie IPS je systematický katalóg. Klasifikátor vyvíja a vylepšuje tím autorov. Potom ho používa ďalší tím špecialistov s názvom SYSTEMATIZÁTORI. Systematizátori, ktorí poznajú klasifikátor, čítajú dokumenty a priraďujú im klasifikačné indexy, ktoré označujú, ktorým sekciám klasifikátora tieto dokumenty zodpovedajú.

Predmet IPS (Web-ring)

Z pohľadu používateľa je predmet IPS najjednoduchší. Vyhľadajte názov požadovaného predmetu vášho záujmu (predmet môže byť aj niečo nepodstatné, napríklad indická hudba) a s názvom sú spojené zoznamy relevantných internetových zdrojov. To by bolo obzvlášť výhodné, ak je úplný zoznam položiek malý.

Slovník IPS

Kultúrne problémy spojené s používaním klasifikačných IPS viedli k vytvoreniu slovníkového typu IPS so zovšeobecneným anglickým názvom vyhľadávače. Hlavnou myšlienkou slovníka IPS je vytvorenie slovníka slov nachádzajúcich sa v internetových dokumentoch, v ktorom bude pre každé slovo uložený zoznam dokumentov, z ktorých je dané slovo prevzaté.

Na základe informácií z knihy A.Yu. Kelina "Základy informačnej bezpečnosti", môžete zistiť, že existujú dva hlavné algoritmy na fungovanie slovníka IPS: pomocou kľúčových slov a pomocou deskriptorov ( Deskriptor - lexikálna jednotka (slovo, fráza) jazyka na vyhľadávanie informácií, ktorá slúži na opísanie hlavného sémantického obsahu dokumentu alebo na formulovanie dotazu pri vyhľadávaní dokumentu (informácie) v systéme na vyhľadávanie informácií). V prvom prípade sa na vyhodnotenie obsahu dokumentu použijú iba slová, ktoré sa v ňom vyskytujú a na požiadanie IS porovná slová z dotazu so slovami dokumentu, pričom jeho relevantnosť určí číslom, umiestnením , váhu slov z dopytu v dokumente. Z historických dôvodov IPS používajú tento algoritmus v rôznych modifikáciách.

1 VŠEOBECNÉ ZÁSADY ORGANIZÁCIE VYHĽADÁVANIA INFORMÁCIÍ NA INTERNETE

1.1 Vyhľadávanie informácií na internete: stratégia a metodika

Vyhľadávanie informácií je jednou z najbežnejších a zároveň najťažších úloh, ktorým musí každý používateľ na webe čeliť. Príčinu ťažkostí, ktoré vznikajú pri získavaní informácií na internete, určujú dva hlavné faktory. Po prvé, počet zdrojov na webe je extrémne veľký. Po druhé, množstvo informácií na webe je nielen kolosálne, ale aj mimoriadne dynamické. Za pol minúty, ktorú strávime čítaním prvých riadkov tejto časti, sa vo virtuálnom vesmíre objaví asi stovka nových alebo zmenených dokumentov, desiatky sa presunú na nové adresy a jednotky navždy prestanú existovať.

Nevyhnutnosť a dôležitosť problému získavania informácií viedla k vytvoreniu celého odvetvia v samotnom internete, ktorého úlohou je práve pomáhať používateľovi pri jeho navigácii v kybernetickom priestore. Toto odvetvie tvoria špeciálne vyhľadávacie služby alebo služby. Bežne ich možno rozdeliť na adresáre (adresáre) a vyhľadávače (vyhľadávače).

Tieto odrody sú vo vzhľade veľmi podobné, pretože každý adresár má zvyčajne svoj vlastný vyhľadávací nástroj a každý vyhľadávací nástroj má svoj vlastný adresár. Princípy ich práce sú však založené na úplne iných prístupoch a technológiách. Každý z týchto nástrojov má určité výhody a hlavný rozdiel medzi nimi spočíva v účasti / neúčasti osoby. Vyhľadávače spúšťajú na webe softvérové ​​„pavúky“, ktoré cestujú zo stránky na stránku a indexujú celý text každej stránky. Adresáre sú na druhej strane tvorené ľudskými redaktormi, ktorí čítajú stránky, vyraďujú nevhodné a kategorizujú uzly podľa tém. Okrem toho sa každý typ vyhľadávacích služieb používa na riešenie určitého typu problému. Správny výber nástroja do značnej miery určuje stratégiu vyhľadávacej činnosti a v konečnom dôsledku aj výsledok vyhľadávania.

Pri vyhľadávaní informácií na internete by ste si mali vždy zapamätať niekoľko základných bodov. Po prvé, žiadne navigačné prostriedky – katalógy alebo vyhľadávače – nepokrývajú celú súčasnú informačnú škálu internetu. Podľa niektorých odhadov dokonca aj takí uznávaní lídri vo vyhľadávaní na webe ako Google neodrážajú viac ako tretinu celkového obsahu webu. Dôvodom je neustály kolosálny nárast objemu informácií na internete, ktorý napriek všetkému úsiliu navigačných služieb obsahuje obrovské množstvo prázdnych miest.

Okrem rýchleho rastu a zmeny umiestnenia dokumentov má väčšina vyhľadávačov interné obmedzenia na zobrazovanie materiálov z jednej stránky a na objem indexovanej časti stránky. Robotické programy často nezasahujú hlbšie do servera za určitý adresár, čo tiež znižuje počet odrazených materiálov.

Mnohé veľké stránky majú zároveň svoj vlastný vyhľadávací systém, ktorý odráža celé ich informačné pole. Po identifikácii takýchto serverov pomocou adresárov ich môžete podrobnejšie preskúmať pomocou miestneho vyhľadávača. Adresáre a vyhľadávače by sa preto mali používať vo vzájomnom spojení, aby sa dosiahli čo najúplnejšie výsledky.

Na vyhľadávaciu činnosť existuje aj množstvo všeobecných požiadaviek, ktorých dodržiavanie zvyšuje efektivitu a šetrí čas strávený vyhľadávaním údajov.

1. Ak chcete hľadať materiály na extrémne úzku konkrétnu tému, mali by ste začať s katalógmi.

2. Ak chcete získať kompletnejšie výsledky pre komplexný dopyt, odporúča sa hľadať v každom vyhľadávači samostatne. Vyhľadávače majú veľkú rozmanitosť v odraze dokumentov a ich dôsledné používanie značne rozširuje pokrytie materiálu.

3. Pri hľadaní dokumentov o konkrétnej krajine alebo v konkrétnom jazyku by sa malo uprednostniť národné/regionálne vyhľadávacie nástroje.

4. Žiadosť je potrebné sformulovať čo najpresnejšie, s využitím všetkých možností mechanizmu zostavenia požiadavky. Čas strávený podrobnou prípravou rešeršného predpisu sa vyplatí pri analýze výsledkov vyhľadávania. Pri presnej tvorbe dotazov bude percento informačného šumu oveľa nižšie.

Pri systematickom využívaní vyhľadávacích nástrojov je potrebné neustále sledovať novinky súvisiace s vyhľadávacou službou. Vo svete okolo nás vo všeobecnosti a ešte viac v digitálnom svete nie je nič večné. Každý vyhľadávač prechádza obdobiami vzniku, prosperity a úpadku. Nebojte sa opustiť svoj obľúbený, no zastaraný vyhľadávač a prejsť na novšie, výkonnejšie vyhľadávacie nástroje.

1.2 Vyhľadávanie pomocou adresárov

1.2.1 Princíp fungovania, výhody a nevýhody adresárov

Adresáre sú priekopníkmi webovej navigácie. Katalóg je údaj štruktúrovaný podľa tém vo forme hierarchických štruktúr. Po načítaní katalógu sa na obrazovke zobrazí najvšeobecnejší zoznam oblastí ľudskej činnosti: UMENIE, VZDELÁVANIE, PODNIKANIE, VEDA, HRY, ŠPORT atď. Katalógy majú hierarchickú štruktúru, to znamená, že používateľ, ktorý vstúpi do ktorejkoľvek sekcie katalógu, neustále vidí čoraz podrobnejšie informácie. Väčšina adresárov je vytvorená pridaním webových stránok ich lokality do existujúceho zoznamu odkazov autorov.

Vyhľadávacie adresáre sa vytvárajú manuálne, t.j. informácie do nich zadávajú ľudia. Osobne hodnotia vysoko kvalifikovaní redaktori informačný priestor WWW vyberú to, čo si myslia, že je vo verejnom záujme, a zaradia si to. Vďaka „ľudskému“ faktoru sú informácie v adresároch usporiadané celkom prehľadne, čo v určitých prípadoch umožňuje dosiahnuť požadovaný výsledok rýchlejšie ako pomocou vyhľadávačov. Hlavný problém vyhľadávanie adresárov je extrémne nízky pomer pokrytia zdrojmi WWW. Do adresárov sa dostanú len tie najlepšie stránky. Nájsť dostatočne konkrétne informácie v katalógu je preto často veľmi náročné.

Okrem hlavných sekcií má veľa adresárov aj ďalšie, v ktorých sú stránky klasifikované podľa iného základu: región, krajina; abeceda; popularita.

Zvláštnosťou katalógov je, že sú efektívnejšie pri hľadaní zbierok informácií na určitú všeobecnú tému, napríklad „odborové hnutie“, „redakcie novín na Urale“, a nie pri hľadaní odpovede na konkrétnu otázka!

Adresáre môžu byť:

· univerzálne, ktoré vám umožňujú vyhľadávať rôzne témy. Informácie sú zoskupené do sekcií. Každá sekcia má niekoľko podsekcií. Napríklad www.ru, referal.ru, www.freeedom.ru.


Windows, každá aplikácia pre DOS mala svoju vlastnú používateľskú príručku, a preto bolo potrebné študovať každú aplikáciu samostatne. 2 ZÁKLADNÉ TECHNIKY VYHĽADÁVANIA INFORMÁCIÍ NA INTERNETE 2.1 Základné požiadavky na vyhľadávanie minimálne nákladyčas a maximálna rýchlosť Vyhľadávanie. ...

Informácie pomocou vybraných tematických sekcií (predmetových adresárov) vo vyhľadávačoch. Tento spôsob vyhľadávania informácií na internete sa realizuje formou knižničného katalógu. Ak potrebujete napríklad nájsť informácie o odpisoch dlhodobého majetku, mali by ste si pozrieť časť „Účtovníctvo“. V ňom vyberte sekciu "Stavebný majetok". A v sekcii "Dlhodobý majetok" - ...

Pomocou začiarkavacích políčok na tejto stránke. Systém má tiež schopnosť sledovať odkazy. KAPITOLA 2. ÚČTOVNÍCTVO ZÚČTOVANIA A AKTUÁLNYCH ZÁVÄZKOV S KUPUJÚCIMI A ZÁKAZNÍKAMI Pri vyhľadávaní informácií na tému „Účtovanie aktuálnych záväzkov a vyrovnaní s kupujúcimi a zákazníkmi“ vyhľadávače ako http://www.altavista.com, http:/ /www. http://...

Vzdelávacie zdroje www.spb. osi.ru/ic/distančné Dištančné vzdelávanie na internete www.examen.ru Skúšky a testy www.kbsu.ru/~book/ Učebnica informatiky Mega. km.ru Encyklopédie a slovníky Hľadanie informácií na internete: úskalia Problémy, ktoré neležia na povrchu, sa často prejavia až "spätne", po dokončení určitej fázy pátracích prác a ...


Výrobné náklady sú jedným z dôležitých ekonomických ukazovateľov ekonomickej činnosti podnikov.

Výrobné náklady sú jedným z dôležitých ekonomických ukazovateľov ekonomickej činnosti podnikov. Vypočítava sa v peňažnom vyjadrení a zohľadňuje všetky náklady podniku spojené s výrobným procesom a predajom jeho výrobkov. To znamená, že nákladová cena ukazuje, koľko stojí produkt vyrobený spoločnosťou.

Okrem stanovenia jednotkových nákladov hlavného produktu je potrebné vypočítať náklady na výrobu pomocných jednotiek, polotovarov hlavnej výroby, výrobkov všetkých oddelení a dielní podniku.

Kalkulácia nákladov alebo kalkulácia vám umožňuje určiť ekonomickú životaschopnosť výroby.

Analýzou práce divízií podniku na základe nákladov na jednotku výroby je možné posúdiť ziskovosť ich práce za analyzované obdobie.

Ak sú výrobné náklady (práca, služby) pomocných oddelení podniku na správnej úrovni v porovnaní s nákladmi tejto sekcie, ich činnosť sa považuje za efektívnu.

S nárastom nákladov je potrebné revidovať stanovené predajné ceny. Ak sa predajná cena nemôže zmeniť, ale zároveň sa zvýšia výrobné náklady podniku, je potrebné zlepšiť organizáciu výroby, zlepšiť technológie, vykonávať efektívnu a hospodárnu politiku zásobovania potrebnými surovinami, materiálmi atď.

Všetky druhy hotových výrobkov, ktoré sú predmetom predaja, ako aj služby a práce vykonávané na základe objednávok tretích spotrebiteľov sú nákladovými jednotkami.

Pri výrobkoch je predmetom kalkulácie kus (súprava, montáž, diel, kópia).

Pre produkty môžu byť objektom výpočtu tieto jednotky:

hmotnosť - gramy, kilogramy, tony;

objemové - kubické metre (centimetre, decimetre);

rovinné - metre štvorcové (centimetre, decimetre);

lineárne - metre (centimetre, decimetre).

Ak technologický postup zabezpečuje balenie hotových výrobkov, predmetom výpočtu môže byť nádoba, sud, fľaša, obal atď.

Pri zohľadnení druhov výrobkov, špecifík prác a služieb, ich zložitosti, druhu, charakteru technologického procesu a organizácie výroby v priemyselných podnikoch, rôzne metódy kalkulácia produktu.

Ide o tieto metódy:

normatívne;

proces za procesom;

· objednané;

· dopredu.

Organizácia vyhľadávania informácií na internete. Systémy na vyhľadávanie informácií.

Vyhľadávanie informácií na internete sa vykonáva dvoma hlavnými spôsobmi - pomocou adresárov (nazývajú sa aj adresáre) a pomocou vyhľadávačov.

Adresáre poskytujú kontextové vyhľadávanie pre štruktúrované prehliadanie, zatiaľ čo vyhľadávacie nástroje, ako ich názov napovedá, neposkytujú kontext, ale umožňujú vám nájsť konkrétne slová alebo frázy.

Adresáre sú ako obsah knihy a vyhľadávače sú ako index.

Vyhľadávače často kombinujú vyhľadávač aj adresáre.

To je jasne vidieť na príklade prvej stránky Yandex, kde pod vyhľadávací reťazec obsahuje zoznam adresárov, ktoré umožňujú používateľovi spresniť dotaz, keď sa do každého z nich dostane hlbšie.

Všetky vyhľadávače pracujú na rovnakom algoritme a sú založené na rovnakých princípoch. Rozdiely medzi nimi vznikajú len na úrovni technickej implementácie týchto princípov v práci.

Príklady vyhľadávačov:

ü AltaVista (http://www.altavista.com)

ü Yahoo (http://www.yahoo.com)

ü FTPSearch (http://ftpsearch.lycos.com)

ü „DISCO Finder“ spoločnosť „DISco“ (http://www.disco.ru)

ü Yandex (http://www.yandex.ru)

ü Google (http://www.google.ru)

ü Rambler (http://www.rambler.ru)

ü Mail (http://www.mail.ru)

ü MSN Russia (http://ru.msn.com) a ďalšie.

Všetky vyhľadávače sú založené na troch základných operátoroch. Sú to logické operátory „AND“, „ALEBO“ a „NIE“. Fungujú nasledovne.

1. Logické „A“. Ak je medzi dvoma slovami v dopyte operátor „AND“, ako výsledok vyhľadávania sa nájdu iba tie dokumenty, ktoré obsahujú obe slová. Takže napríklad dotaz pes A mačka nájde dokument s vetou „pes prenasledoval mačku“, ale neuvidíme dokumenty pozostávajúce z textu „mačka odpočívala“ alebo „krmivo pre psov“.

2. Logické "ALEBO". Ak je medzi slovami operátor OR, výsledkom vyhľadávania budú dokumenty, ktoré obsahujú aspoň jedno z týchto slov.

Ak nevytvoríme špeciálne obmedzujúce klauzuly, potom sa nájdu aj materiály, v ktorých sú obe tieto slová prítomné.

3. Logické „NIE“. Ak predchádzajúce dva príkazy popisovali slová, ktoré chcete zahrnúť do dotazu, potom operátor NOT vylúči slová z dotazu. Používatelia, ktorí sa prvýkrát stretávajú s operátormi dopytov, často vyjadrujú prekvapenie: nie je jednoduchšie do dopytu nezaradiť zbytočné slovo? V skutočnosti, aby sme pochopili dôležitosť logického operátora NOT, má zmysel si uvedomiť, že náš dopyt nevytvára na internete nič nové. Len vylovíme to, čo potrebujeme z existujúceho obrovského, ale stále konečného poľa. V tomto prípade je potrebné odrezať informačné odpadky. Odrezali sme to pomocou operátora „NOT“. Žiaľ, nie je na nás, aby sme rozhodli, či tento odpad uvidíme vo výsledkoch vyhľadávania. Takže napríklad pri vyžiadaní informácií o hrebeni strechy sa vždy objavia informačné odpadky vo forme dokumentov o malom hrbatom koníkovi, krasokorčuľovaní, hokeji, koňoch a pod. Bez logického „NIE“ sa nezaobídete.

2. Globálna sieť. Internetové informačné služby: Email, telekonferencie, Celosvetový web.

Internet je globálna počítačová sieť, ktorá hostí rôzne služby alebo služby.

Počítačová sieť môže vykonávať dve funkcie:

Byť prostriedkom komunikácie medzi svojimi používateľmi, ktorí sú od seba vzdialení (túto funkciu budeme nazývať komunikácia);

Byť prostriedkom prístupu k spoločnému informačné zdroje(túto funkciu budeme nazývať informačná).

Služby (služby alebo služby) siete

Najbežnejšie funkčné služby na internete sú:

Email

E-mail bol prvou službou na internete a dodnes je najpoužívanejšou službou na internete. E-mail je určený na výmenu poštových správ medzi predplatiteľmi internetu. Pomocou e-mailu môžete odosielať a prijímať správy, odpovedať na prijaté listy, odosielať kópie listu viacerým príjemcom naraz, preposlať prijatý list na inú adresu atď.

Telekonferencie

Ďalší typ služby informačnej siete s názvom „telekonferencie“ pripomína predplatné elektronických novín, v ktorých sa objavujú informácie o konkrétnej téme – správy, poznámky, odpovede na otázky, odpovede na predchádzajúce publikácie atď. Autormi týchto veľmi rôznorodých a ultrarýchlych informácií sú samotní netizeni, ktorých spájajú spoločné záujmy. Telekonferencie sú dizajnom a spôsobom práce veľmi podobné e-mailu, len s tým rozdielom, že váš list si môže prečítať obrovské množstvo ľudí a vy sa zase môžete zaujímať o to, čo vám píšu úplne neznámi ľudia.

World Wide Web (World Wide Web alebo WWW)

WWW je sieť dokumentov, ktoré sú navzájom prepojené hypertextovými odkazmi.

Preto sa používaniu rôznych pojmov pridelili rôzne významy: sieť je systém vzájomne prepojených počítačov, tj. technický systém, a web (Web) je systém vzájomne prepojených dokumentov, teda informačný systém.

Samozrejme, „pavučina“ dokumentov existuje na báze počítačovej siete.

Každý jednotlivý dokument, ktorý má svoju vlastnú adresu, sa nazýva webová stránka.

Každá webová stránka môže obsahovať veľa odkazov na iné stránky, ktoré sú uložené v tom istom počítači alebo na iných počítačoch na webe. Na obr. 3 schematicky znázorňuje prekrytie siete dokumentov v počítačovej sieti. Plné čiary označujú webové servery a prepojenia medzi nimi, bodkované čiary - webové dokumenty a ich prepojenia.

Priame diskusné fóra - IRC (Internet Relay Chat). V doslovnom preklade – „chat“ v reálnom čase (chatové konferencie). Komunikácia medzi účastníkmi prebieha online v písomnej forme. Podobne ako pri telekonferencii sú účastníci chatovej konferencie rozdelení do tematických skupín.

Internetové telefonovanie

Ide o hlasovú komunikáciu cez web v on-line režime. Toto je nová, rastúca služba. Jeho hlavnou výhodou oproti telefónu je nízka cena. Kvalita je stále nižšia telefonickú komunikáciu(časové oneskorenia, skreslenie zvuku) je však nepochybné, že časom sa tento nedostatok podarí prekonať.

3. Miestne počítačové siete: základné pojmy, účel.

Počítačová sieť je súbor počítačov prepojených kanálmi na prenos údajov.

Sieť je skupina pripojených počítačov a iných zariadení. A koncept prepojených počítačov a zdieľanie zdrojov sa nazýva sieťovanie. Počítače v sieti môžu zdieľať:

ü údaje;

ü tlačiarne;

ü faxy;

ü modemy;

ü iné zariadenia.

Tento zoznam sa neustále aktualizuje, pretože sa objavujú nové spôsoby. zdieľanie zdrojov.

Existuje niekoľko základných sieťových topológií, t.j. fyzické umiestnenie počítačov, káblov a iných komponentov:

Na vybudovanie siete Ethernet budete potrebovať nasledujúce vybavenie:

1. Sieťové karty – jedna pre každý počítač.

2. Switch - zariadenie, ku ktorému sú pripojené všetky káble sieťové karty počítačov.

3. Káble.

Hlavné aplikácie lokálnych sietí

1. Automatizácia činností administratívneho riadenia, organizácia „elektronických kancelárií“, v ktorých sa namiesto papierového pracovného toku používa e-mail;

2. Automatizácia výroby - automatizácia technologických procesov, Informačná podpora operatívne riadenie výroby, plánovanie a ekonomické riadenie výroby;

3. Automatizácia vedeckého výskumu a vývoja;

4. Automatizácia vzdelávania, školenia a rekvalifikácie personálu;

5. Automatizácia inštitucionálnych činností.