Praktická práca: "Organizácia vyhľadávania informácií na internete". Dáta uložené na magnetických diskoch. Pravidlá vykonávania dotazov

Pamäť počítača obsahuje informácie uložené ako dátový tok. Informácie môžu byť logicky usporiadané do súborov so záznamami v súboroch a jednotlivými položkami v záznamoch. Keď sú súbory organizované týmto spôsobom v databáze, každý záznam obsahuje identifikačnú značku alebo kľúč. Môže to byť číslo kódu, meno alebo dátum.

Pri hľadaní záznamu počítač priamo alebo postupne, v závislosti od spôsobu uloženia údajov, volá prvky údajov a kontroluje, či obsahujú požadovaný kľúč. Ak sú údaje uložené na páske, potom sú súbory usporiadané postupne; ak sú dáta uložené na disku alebo na pevnom disku, je možné k dátam pristupovať priamo aj sekvenčne.

Program na vyhľadávanie základných informácií. Keď kľúč otvorí záznam, počítač prehľadá pamäť a zobrazí záznam.

Dáta uložené na magnetických diskoch

V stopách magnetického disku sú uložené nielen dáta, ale aj dátové adresy, čo umožňuje počítaču priamy prístup k informáciám. Vo výzve na obrázku nižšie sú dátové adresy napísané v oblasti počtu a obsah kľúčových prvkov v oblasti kľúča.

Vyhľadávací program zapne sa po zadaní kľúča. V súboroch s priamou organizáciou vyhľadávací program zistí adresu údajov z kľúča, získa informácie a objedná operačný systémčítať dáta.

Obrazovka vyhľadávania informácií umožňuje operátorovi získať informácie jednoduchým výberom položky z ponuky bez použitia kľúča.

HDD pozostáva z niekoľkých okrúhlych dosiek zostavených na rovnakej osi. Valec je tvorený dráhami, z ktorých každá zaberá rovnaké miesto na každej platni. Valce sú očíslované zvonku dovnútra a dráhy valcov sú očíslované zhora nadol. Adresa jedného dátového prvku by teda bola cylinder xx, stopa yy.

Ako prebieha vyhľadávanie

1. Sekvenčné vyhľadávanie.

Počítač skenuje údaje v prísnom poradí. Čím väčšie množstvo údajov, tým nižšia je účinnosť tejto metódy.

2. Priame vyhľadávanie.

Umiestnenie požadovaných údajov sa zistí pomocou kľúča. Preto musia byť údaje uložené v kľúčovej oblasti.

3. Dvojité vyhľadávanie.

Údaje musia byť usporiadané v rovnakom poradí ako kľúče. Vyhľadávanie začína kontrolou prostredných údajov, aby ste zistili, či sú požadované údaje pod horným tlačidlom alebo spodným tlačidlom. Tým sa vyhľadávanie zúži na polovicu.


Výrobné náklady sú jedným z dôležitých ekonomických ukazovateľov ekonomickej činnosti podnikov.

Výrobné náklady sú jedným z dôležitých ekonomických ukazovateľov ekonomickej činnosti podnikov. Vypočítava sa v peňažnom vyjadrení a zohľadňuje všetky náklady podniku spojené s výrobným procesom a predajom jeho výrobkov. To znamená, že nákladová cena ukazuje, koľko stojí produkt vyrobený spoločnosťou.

Okrem stanovenia jednotkových nákladov hlavného produktu je potrebné vypočítať náklady na výrobu pomocných jednotiek, polotovarov hlavnej výroby, výrobkov všetkých oddelení a dielní podniku.

Kalkulácia nákladov alebo kalkulácia vám umožňuje určiť ekonomickú životaschopnosť výroby.

Analýzou práce divízií podniku na základe nákladov na jednotku výroby je možné posúdiť ziskovosť ich práce za analyzované obdobie.

Ak sú výrobné náklady (práca, služby) pomocných oddelení podniku na správnej úrovni v porovnaní s nákladmi tejto sekcie, ich činnosť sa považuje za efektívnu.

S nárastom nákladov je potrebné revidovať stanovené predajné ceny. Ak sa predajná cena nemôže zmeniť, ale zároveň sa zvýšia výrobné náklady podniku, je potrebné zlepšiť organizáciu výroby, zlepšiť technológie, vykonávať efektívnu a hospodárnu politiku zásobovania potrebnými surovinami, materiálmi atď.

Všetky druhy hotových výrobkov, ktoré sú predmetom predaja, ako aj služby a práce vykonávané na základe objednávok tretích spotrebiteľov sú nákladovými jednotkami.

Pri výrobkoch je predmetom kalkulácie kus (súprava, montáž, diel, kópia).

Pre produkty môžu byť objektom výpočtu tieto jednotky:

hmotnosť - gramy, kilogramy, tony;

objemové - kubické metre (centimetre, decimetre);

rovinné - metre štvorcové (centimetre, decimetre);

lineárne - metre (centimetre, decimetre).

Ak technologický postup zabezpečuje balenie hotových výrobkov, predmetom výpočtu môže byť nádoba, sud, fľaša, obal atď.

Pri zohľadnení druhov výrobkov, špecifík prác a služieb, ich zložitosti, druhu, charakteru technologického procesu a organizácie výroby v priemyselných podnikoch, rôzne metódy kalkulácia produktu.

Ide o tieto metódy:

normatívne;

proces za procesom;

· objednané;

· dopredu.

Organizácia vyhľadávania informácií na internete. Systémy na vyhľadávanie informácií.

Vyhľadávanie informácií na internete sa vykonáva dvoma hlavnými spôsobmi - pomocou adresárov (nazývajú sa aj adresáre) a pomocou vyhľadávačov.

Adresáre poskytujú kontextové vyhľadávanie pre štruktúrované prehliadanie, zatiaľ čo vyhľadávacie nástroje, ako ich názov napovedá, neposkytujú kontext, ale umožňujú vám nájsť konkrétne slová alebo frázy.

Adresáre sú ako obsah knihy a vyhľadávače sú ako index.

Vyhľadávače často kombinujú vyhľadávač aj adresáre.

To je jasne vidieť na príklade prvej stránky Yandex, kde je pod vyhľadávacím panelom umiestnený zoznam adresárov, ktoré umožňujú používateľovi spresniť dopyt, keď sa do každého z nich dostane hlbšie.

Všetky vyhľadávače pracujú na rovnakom algoritme a sú založené na rovnakých princípoch. Rozdiely medzi nimi vznikajú len na úrovni technickej implementácie týchto princípov v práci.

Príklady vyhľadávačov:

ü AltaVista (http://www.altavista.com)

ü Yahoo (http://www.yahoo.com)

ü FTPSearch (http://ftpsearch.lycos.com)

ü „DISCO Finder“ spoločnosť „DISco“ (http://www.disco.ru)

ü Yandex (http://www.yandex.ru)

ü Google (http://www.google.ru)

ü Rambler (http://www.rambler.ru)

ü Mail (http://www.mail.ru)

ü MSN Russia (http://ru.msn.com) a ďalšie.

Všetky vyhľadávače sú založené na troch základných operátoroch. Sú to logické operátory „AND“, „ALEBO“ a „NIE“. Fungujú nasledovne.

1. Logické „A“. Ak je medzi dvoma slovami v dopyte operátor „AND“, ako výsledok vyhľadávania sa nájdu iba tie dokumenty, ktoré obsahujú obe slová. Napríklad dotaz pes A mačka nájde dokument s vetou „pes prenasledoval mačku“, ale neuvidíme dokumenty pozostávajúce z textu „mačka odpočívala“ alebo „krmivo pre psov“.

2. Logické "ALEBO". Ak je medzi slovami operátor OR, výsledkom vyhľadávania budú dokumenty, ktoré obsahujú aspoň jedno z týchto slov.

Ak nevytvoríme špeciálne obmedzujúce klauzuly, potom sa nájdu aj materiály, v ktorých sú obe tieto slová prítomné.

3. Logické „NIE“. Ak predchádzajúce dva príkazy popisovali slová, ktoré chcete zahrnúť do dotazu, potom operátor NOT vylúči slová z dotazu. Používatelia, ktorí sa prvýkrát stretávajú s operátormi dopytu, často vyjadrujú prekvapenie: nie je jednoduchšie do dopytu nezaradiť zbytočné slovo? V skutočnosti, aby sme pochopili dôležitosť logického operátora NOT, má zmysel si uvedomiť, že náš dopyt nevytvára na internete nič nové. Len vylovíme to, čo potrebujeme z existujúceho obrovského, ale stále konečného poľa. V tomto prípade je potrebné odrezať informačné odpadky. Odrezali sme to pomocou operátora „NOT“. Žiaľ, nie je na nás, aby sme rozhodli, či tento odpad uvidíme vo výsledkoch vyhľadávania. Takže napríklad pri vyžiadaní informácií o hrebeni strechy sa vždy objavia informačné odpadky vo forme dokumentov o malom hrbatom koníkovi, krasokorčuľovaní, hokeji, koňoch a pod. Bez logického „NIE“ sa nezaobídete.

2. Globálna sieť. Internetové informačné služby: e-mail, telekonferencie, World Wide Web.

Internet je globálna počítačová sieť, ktorá hostí rôzne služby alebo služby.

Počítačová sieť môže vykonávať dve funkcie:

Byť prostriedkom komunikácie medzi svojimi používateľmi, ktorí sú od seba vzdialení (túto funkciu budeme nazývať komunikácia);

Byť prostriedkom prístupu k bežným informačným zdrojom (túto funkciu budeme nazývať informačná).

Služby (služby alebo služby) siete

Najbežnejšie funkčné služby na internete sú:

Email

E-mail bol prvou službou na internete a dodnes je najpoužívanejšou službou na internete. E-mail je určený na výmenu poštových správ medzi predplatiteľmi internetu. Pomocou e-mailu môžete odosielať a prijímať správy, odpovedať na prijaté listy, odosielať kópie listu viacerým príjemcom naraz, preposlať prijatý list na inú adresu atď.

Telekonferencie

Ďalší typ služby informačnej siete s názvom „telekonferencie“ pripomína predplatné elektronických novín, v ktorých sa objavujú informácie o konkrétnej téme – správy, poznámky, odpovede na otázky, odpovede na predchádzajúce publikácie atď. Autormi týchto veľmi rôznorodých a ultrarýchlych informácií sú samotní netizeni, ktorých spájajú spoločné záujmy. Telekonferencie sú dizajnom a spôsobom práce veľmi podobné e-mailu, len s tým rozdielom, že váš list si môže prečítať obrovské množstvo ľudí a vy sa zase môžete zaujímať o to, čo vám píšu úplne neznámi ľudia.

World Wide Web (World Wide Web alebo WWW)

WWW je sieť dokumentov, ktoré sú navzájom prepojené hypertextovými odkazmi.

Preto sa používaniu rôznych pojmov pridelili rôzne významy: sieť je systém vzájomne prepojených počítačov, tj. technický systém, a web (Web) je systém vzájomne prepojených dokumentov, teda informačný systém.

Samozrejme, „pavučina“ dokumentov existuje na báze počítačovej siete.

Každý jednotlivý dokument, ktorý má svoju vlastnú adresu, sa nazýva webová stránka.

Každá webová stránka môže obsahovať veľa odkazov na iné stránky, ktoré sú uložené v tom istom počítači alebo na iných počítačoch na webe. Na obr. 3 schematicky znázorňuje prekrytie siete dokumentov v počítačovej sieti. Plné čiary označujú webové servery a prepojenia medzi nimi, bodkované čiary - webové dokumenty a ich prepojenia.

Priame diskusné fóra - IRC (Internet Relay Chat). V doslovnom preklade – „chat“ v reálnom čase (chatové konferencie). Komunikácia medzi účastníkmi prebieha online v písomnej forme. Podobne ako pri telekonferencii sú účastníci chatovej konferencie rozdelení do tematických skupín.

Internetové telefonovanie

Ide o hlasovú komunikáciu cez web v on-line režime. Toto je nová, rastúca služba. Jeho hlavnou výhodou oproti telefónu je nízka cena. Kvalita je stále nižšia telefonickú komunikáciu(časové oneskorenia, skreslenie zvuku) je však nepochybné, že časom sa tento nedostatok podarí prekonať.

3. Lokálne siete: základné pojmy, účel.

Počítačová sieť je súbor počítačov prepojených kanálmi na prenos údajov.

Sieť je skupina pripojených počítačov a iných zariadení. A koncept prepojených počítačov a zdieľanie zdrojov sa nazýva sieťovanie. Počítače v sieti môžu zdieľať:

ü údaje;

ü tlačiarne;

ü faxy;

ü modemy;

ü iné zariadenia.

Tento zoznam sa neustále aktualizuje, pretože sa objavujú nové spôsoby. zdieľanie zdrojov.

Existuje niekoľko základných sieťových topológií, t.j. fyzické umiestnenie počítačov, káblov a iných komponentov:

Na vybudovanie siete Ethernet budete potrebovať nasledujúce vybavenie:

1. Sieťové karty – jedna pre každý počítač.

2. Switch - zariadenie, ku ktorému sú pripojené všetky káble sieťové karty počítačov.

3. Káble.

Hlavné aplikácie lokálnych sietí

1. Automatizácia činností administratívneho riadenia, organizácia „elektronických kancelárií“, v ktorých sa namiesto papierového pracovného toku používa e-mail;

2. Automatizácia výroby - automatizácia technologických procesov, Informačná podpora operatívne riadenie výroby, plánovanie a ekonomické riadenie výroby;

3. Automatizácia vedeckého výskumu a vývoja;

4. Automatizácia vzdelávania, školenia a rekvalifikácie personálu;

5. Automatizácia inštitucionálnych činností.

MINISTERSTVO ŠKOLSTVA A VEDY RUSKA

Štátna vzdelávacia inštitúcia vyššieho odborného vzdelávania

„RUSKÁ

ŠTÁTNA HUMANITÁRNA UNIVERZITA»

Pobočka Ruskej štátnej univerzity pre humanitné vedy v Petrohrade.

Petrohrad 2011

Úvod 3

1. Internet ako moderný zdroj informácií 4

2. Špecifickosť informácií vo výchovno-vzdelávacej činnosti žiaka 6

3. Vlastnosti využívania internetu pri vyhľadávaní informácií pre vzdelávacie aktivity žiaka 8

Záver 13

Zoznam prameňov a literatúry 14

Úvod

Dnes sa študent bez PC nezaobíde. Komunikácia s počítačom sa začína už v škole, kde sa žiaci učia základy výpočtovej techniky, oboznamujú sa so vzdelávacími webovými stránkami internetu. Spravidla pri nástupe na vysokú školu už veľa uchádzačov dobre pozná počítač a väčšina z nich ho má doma.

Na uľahčenie procesu učenia sa študenti často uchyľujú k pomoci internetu tým, že si sťahujú eseje a eseje. Tento postoj k triedam môže zatiaľ prechádzať. Štúdium na univerzite však zahŕňa serióznejší prístup, vyžaduje si rozvoj rôznych špecifických vied. V tomto zmysle už internet nie je spoľahlivým zdrojom informácií a v istom zmysle dokonca škodlivý.

Moderný internet má mnoho sociálnych a kultúrnych aspektov, je to univerzálne informačné prostredie. V tomto smere je aktuálna problematika internetu ako zdroja informácií vo výchovno-vzdelávacej činnosti žiaka.

Úlohy práce sú:

    Charakterizovať internet ako moderný zdroj informácií.

    Odhaliť špecifiká informácií vo výchovno-vzdelávacej činnosti žiaka.

    Zvážte vlastnosti používania internetu pri hľadaní informácií pre vzdelávacie aktivity študenta.

1. Internet ako moderný zdroj informácií

Podľa wikipedia.org: Internet (vyslovuje sa [internet]; anglicky Internet) je celosvetový systém vzájomne prepojených počítačových sietí založených na použití protokolu IP a smerovaní dátových paketov. Internet tvorí globálny informačný priestor, slúži ako fyzická základňa pre World Wide Web a mnohé ďalšie systémy na prenos údajov (protokoly). Často označovaný ako „World Wide Web“ a „globálny web“. V každodennom živote sa niekedy hovorí „internet“ 1 .

V súčasnosti, keď sa slovo „internet“ používa v každodennom živote, najčastejšie sa ním rozumie World Wide Web a informácie na ňom dostupné, a nie samotná fyzická sieť.

Internet sa dnes stáva jedným z hlavných zdrojov informácií vďaka obrovskému množstvu dát zverejňovaných v sieti a možnosti jednoduchého prístupu k nim. Vyhľadávanie na webe zároveň získava čoraz praktickejšiu hodnotu, keďže s rýchlym nárastom množstva dostupných údajov je postup pri hľadaní potrebných informácií čoraz komplikovanejší 2 .

Sieť má obrovské množstvo informačných zdrojov. Podľa niektorých odhadov počet dokumentov presiahol 65 miliónov a naďalej rýchlo rastie 3 . Takýto objem informácií si vyžaduje správnu organizáciu procesu vyhľadávania a použitie špeciálnych technologických nástrojov, ako sú vyhľadávače. Obyčajné vyhľadávanie podľa kľúčového slova zvyčajne prináša od desiatok tisíc do niekoľkých miliónov referencií, je zrejmé, že práca s takým množstvom dokumentov je prakticky nemožná, teda obsahuje nepodstatné informácie.

Okrem problému vyhľadávania je tu aj problém spoľahlivosti informácií na internete. Ľahký prístup k údajom a ich zverejnenie uľahčuje šírenie chybných a často zámerne nepravdivých informácií 4 .

Tieto dva problémy: vyhľadávanie a spoľahlivosť určujú špecifiká internetu ako zdroja informácií.

2. Špecifickosť informácií vo výchovno-vzdelávacej činnosti žiaka

Podľa wikipedia.org: Termín informácia pochádza z latinského slova information, čo znamená „informácia, objasnenie, prezentácia“ 5 .

V súčasnosti sa veda snaží nájsť spoločné vlastnosti a vzorce, ktoré sú vlastné pojmu „informácia“, no zatiaľ tento pojem zostáva do značnej miery intuitívny a dostáva rôzne sémantické obsahy v rôznych oblastiach ľudskej činnosti.

V každodennom živote sú informácie akékoľvek údaje alebo informácie, ktoré niekoho zaujímajú, napríklad správa o akýchkoľvek udalostiach, o niečích aktivitách atď. „Informovať“ v tomto zmysle znamená „komunikovať niečo predtým neznáme“.

Informácie - informácie o objektoch a javoch prostredia, ich parametroch, vlastnostiach a stave, ktoré znižujú mieru neistoty o nich, neúplnosť poznania 6 .

Jedna a tá istá informačná správa (článok v novinách, oznámenie, list, telegram, odkaz, príbeh, kresba, rozhlasové vysielanie atď.) môže obsahovať rôzne množstvo informácií pre rôznych ľudí v závislosti od ich nahromadených vedomostí, na úrovni porozumenia táto správa a záujem o ňu 7 .

Na základe uvedeného môžeme konštatovať, že informácie vo vzdelávacej činnosti študenta by mali mať množstvo špecifických vlastností.

1. Informácie musia zodpovedať stupňu pripravenosti študenta, úrovni jeho vedomostí. Príliš vysoká úroveň zložitosti znižuje zrozumiteľnosť a znižuje motiváciu študentov. Príliš nízka úroveň – znižuje informačný obsah a negatívne ovplyvňuje efektivitu procesu učenia.

2. Informácie používané študentom musia byť aktuálne, t.j. zodpovedajú modernej úrovni vedeckého poznania a rozvoja spoločnosti.

3. Informácie používané študentom musia byť spoľahlivé.

4. Informácie by mali byť dostupné z hľadiska ich katalogizácie a vyhľadávania.

3. Vlastnosti využívania internetu pri vyhľadávaní informácií pre vzdelávacie aktivity žiaka

Moderný študent, vyzbrojený osobným počítačom, dobre vie, čo a kde je na internete. Celkom majstrovsky vyťahuje na internete všetko, čo potrebuje na vytvorenie ďalšej povinnej tvorby: esej, esej, projekt kurzu, diplom atď. A po malej revízii, ktorá často spočíva len v uvedení priezviska a čísla skupiny, po vytlačení na tlačiarni odovzdá „svoju prácu“ učiteľovi 8 .

Zároveň sa mnohonásobne zvyšuje jeho lenivosť a tento prístup znižuje pravdepodobnosť úspechu v budúcej kariére. Stojí za zmienku, že praktiky podvádzania, ktoré sú v podstate plagiátom, sú v Rusku oveľa bežnejšie ako na Západe, čo znižuje šance získať prestížne zamestnanie v konkurencii absolventov západných univerzít.

Ak chcete dosiahnuť úspech v konkurenčnom boji, musíte sa naučiť spracovať obrovské množstvo informácií, vedieť si prezerať ukážky písomných prác, všímať si v nich silné a slabé stránky, snažiť sa „rozobrať“ text niekoho iného, ​​aby ste zvýraznili to najvýznamnejšie. jej súčasťou. Na základe výslednej kostry by sa mal žiak naučiť vytvárať požadované dielo. V skutočnosti sa táto práca vykonávala v knižniciach s knihami ešte predtým, ako nastal informačný boom internetu 9 . Dôležitá je tu aj práca učiteľa, ktorý by mal žiaka kompetentne usmerniť, nezakazovať používanie internetu, ale upozorňovať na možné úskalia a dávať návody, ako ho používať. Napríklad na zúženie okruhu vyhľadávania môže učiteľ poradiť určité informačné zdroje, čím zabezpečí prispôsobenie školiaceho materiálu príprave študenta, navyše pomôže odfiltrovať nepravdivé a nesprávne informácie.

V modernej informačnej spoločnosti narastá úloha učiteľa. Napríklad učitelia „starej školy“ môžu roky čítať tie isté prednášky, vôbec ich nezaujímajú najnovšie úspechy v danom odvetví, oblasti činnosti. Navyše, študent s akýmkoľvek mobilným zariadením pripojeným na internet môže zmiasť každého učiteľa. Učiteľ už nie je vnímaný ako jediný zdroj vedomostí. Študent s internetom môže kedykoľvek učiteľa opraviť, kritizovať a položiť neriešiteľnú otázku. Učiteľ musí byť na to pripravený, taká je výzva modernej spoločnosti modernému vzdelávaciemu systému. Učiteľ by sa nemal hnevať, vyhýbať sa odpovedi alebo si vymýšľať odpoveď za pochodu. Ak bol predtým vzťah učiteľ – študent založený na princípe senior – junior, teraz by mal byť bližšie k princípu internetu: peer-to-peer.

Existuje ešte jedno nebezpečenstvo, ktoré v sebe drží mobilitu internetu, a to nedostatok potreby si čokoľvek pamätať. Za čo? Ak sa môžete vždy opýtať Yandex. Aby študent nespadol do tejto pasce, musí splniť všetky úlohy zradcu, nebyť lenivý, zapisovať, memorovať, učiť. Práve batožina vedomostí v ľudskej pamäti tvorí jej všeobecnú erudíciu a schopnosť riešiť aplikované problémy v danej tematickej oblasti. Extrémnou mierou tohto efektu mobility je, že študent, ktorý sa stretol s neznámym pojmom, si povie: „Význam tohto pojmu si môžem kedykoľvek vyhľadať na internete. Teraz nemám čas, uvidím neskôr“ – takto vznikajú medzery vo vzdelávaní. Pred érou internetu by si študent myslel inak: „Význam tohto pojmu si viem vyhľadať v slovníku (učebnici, encyklopédii, ...). Teraz nemám čas, ale budem si musieť vyhľadať význam tohto pojmu a zapamätať si ho, pretože nemôžem stále chodiť so slovníkom.“

Z hľadiska sebavzdelávania sa študent, a vlastne celá spoločnosť stretáva s problémom informačnej krízy 10 . Informačná kríza spočíva v protirečivej jednote „informačného hladu“ a „informačnej explózie“, teda v nedostatku informácií v podmienkach ich nadprodukcie 11 . Množstvo informácií o určitej oblasti ľudskej činnosti presahuje kapacitu ľudského mozgu 12 . Preto narastá potreba informačnej systematizácie a filtrovania informačného šumu. Študent by mal používať dôveryhodné zdroje odporúčané učiteľom, uvedené v referenčných zoznamoch učebníc.

Rýchlosť rastu informácií je kvantifikovateľná. Knihovník R. Barton a fyzik R. Kebler z USA zaviedli pojem „polčas rozpadu“ vedeckých článkov analogicky s polčasom rozpadu rádioaktívnych látok. Polčas rozpadu publikácie je čas, počas ktorého bola publikovaná polovica aktuálne používanej literatúry o konkrétnom odvetví alebo téme 13 . Ak je napríklad polčas rozpadu publikácie vo fyzike 4,6 roka, potom to znamená, že 50 % všetkých v súčasnosti používaných (citovaných) publikácií v tejto oblasti nemá viac ako 4,6 roka. Aj keď takáto definícia poskytuje číselný odhad starnutia informácií, k takémuto hodnoteniu je potrebné pristupovať opatrne av konečnom dôsledku si každý špecialista sám určí hĺbku a mieru predpisovania, ktoré v každom konkrétnom prípade potrebuje 14 . Pre študenta miera relevantnosti informácií pomôže určiť školiteľa.

Ďalšou črtou informácií na internete je ich rozptýlenie v súbore zdrojov – Bradfordov zákon 15 . Zjednodušene sa to dá formulovať takto: 1/3 vedeckých článkov na konkrétnu tému bude publikovaná v malom počte zdrojov priamo súvisiacich s touto témou. Ďalšia tretina bude publikovaná vo viacerých zdrojoch súvisiacich s touto témou. A posledná tretina bude publikovaná v zdrojoch, ktoré s témou nemajú nič spoločné a pomer počtu zdrojov v týchto oblastiach podľa Bradforda je rovnaký. Vzhľadom na tento vzorec je potrebné poznamenať, že dosiahnutie úplného informačného obsahu o konkrétnej téme je nemožné, ak sa výskumník obmedzí na rozsah zdrojov o tejto problematike bez toho, aby sa uchýlil k špeciálnej informačnej službe a bibliografickým službám. Vo väčšine prípadov bude študentovi stačiť prvá tretina, avšak pri hlbšej práci, ako sú semestrálne práce v odborných odboroch, diplomová práca, sa študent potrebuje obrátiť na pomoc v takýchto elektronických katalógoch.

Napriek tomu, že sloboda prístupu používateľov internetu k informačným zdrojom nie je obmedzená štátnymi hranicami, ale jazykové hranice zostávajú. Prevládajúcim jazykom internetu je angličtina. Druhým najpopulárnejším jazykom je čínština a tretím španielčina. Ruský jazyk je na 9. mieste 16 . V tomto smere sa študent ovládajúci cudzie jazyky, predovšetkým angličtinu, dostáva k oveľa viac informácií. Ak hovoríme o delení informácií na internete, stojí za zmienku, že informácie o rôznych oblastiach ľudskej činnosti nie sú z hľadiska objemu prezentované rovnomerne. Internet má viac technických informácií týkajúcich sa programovania, informačných technológií, počítačových zariadení a menej informácií týkajúcich sa humanitných vied. Dá sa to vysvetliť tým, že technickí špecialisti sú povahou svojej činnosti nejako prepojení s informačnými technológiami a internetom, a preto je počet nimi publikovaných materiálov vyšší.

Záver

Ak zhrnieme uvažované aspekty internetu ako zdroja informácií vo vzdelávacích aktivitách študenta, je možné vyčleniť hlavné kľúčové vlastnosti a odporúčania.

    Žiak musí vedieť používať internet a zároveň sa neustále zdokonaľovať v používaní internetu.

    Študent by si mal na základe informácií na internete overiť mieru ich spoľahlivosti a relevantnosti.

    Na vyhľadávanie informácií k danej téme je vhodné využívať špecializované elektronické bibliografické katalógy.

    Pre zvýšenie efektivity používania internetu by sa mal študent zdokonaliť v angličtine, ako najbežnejšom jazyku na internete.

    V reakcii na výzvy informačnej spoločnosti musí byť študent schopný spracovať veľké množstvo údajov a extrahovať z nich kľúčové informácie a odfiltrovanie nadbytočných a nepotrebných údajov.

    Internet poskytuje nielen obrovské možnosti pre informácie, ale aj plné nebezpečenstva v podobe cheat sheetu, ktorý často robí medvediu službu v procese učenia.

Treba si uvedomiť, že podľa bodov 2 a 3 musí študent pracovať v priamom kontakte so svojím školiteľom.

Zoznam prameňov a literatúry

Literatúra

    Blumenau, V. I. Informačná a informačná služba. / D. I. Blumenau. - L .: Nauka, 1989. - 192 s.

    Galeeva, I. S. Internet ako nástroj bibliografického vyhľadávania / I. S. Galeeva; vedecký vyd. M. I. Vershinin. - Petrohrad: Profesia, 2007. - 248 s.

    Efimov, A. N. Informačná explózia: skutočné a imaginárne problémy / A. N. Efimov. – M.: Nauka, 1985. – 160 s.

    Vyhľadávanie informácií na internete: učebnica. príspevok / V. I. Averčenkov, V. V. Miroshnikov, S. M. Roshchin a ďalší; Bryan. štát tech. un-t. - Bryansk, 2001. - 28 s.

    Kuzin, F. A. Kandidátska dizertačná práca: metodika písania, pravidlá návrhu a postup obhajoby: prac. Manuál pre postgraduálnych študentov a uchádzačov. Stupne / F. A. Kuzin. – . - M.: Os-89, 1999. - 208 s.

    Kuznecov I. N. Internet vo vzdelávacích a vedecká práca: Praktická príručka. - 2. vyd. - M .: Vydavateľská a obchodná spoločnosť "Dashkov and Co", 2005. - 192 s.

    Kuznetsov I. N. Učebnica o informačnej a analytickej práci. M.: Yauza, 2001. - 320 s.

    Mikhailov, O. A. Novinka v internetovom vyhľadávaní na základe zdrojov z roku 2000 / O. A. Mikhailov; Ros. štát arch. sci.-tech. dokumentáciu. - M.: Max Press, 2001. - 171 s.

    Parshukova G. B. Metódy vyhľadávania odborných informácií: učebnica-metóda. Príspevok / G. B. Paršuková. - Petrohrad: Profesia, 2009. - 224 s.

    Solomenchuk VG Internet: Krátky kurz. Petrohrad: Piter, 2001 - 322 s.

Internetové zdroje

    URL: internet

    URL: http://ru.wikipedia.org/wiki/Information

1 adresa URL: http://en.wikipedia.org/wiki/internet

Práca na kurze

Na tému: „Organizácia ukladania a získavania informácií na internete“


Úvod

Internet ako informačný prostriedok v Rusku zatiaľ nemôže konkurovať tradičným médiám, no má v tomto smere veľkú perspektívu a v budúcnosti bude môcť pôsobiť na úrovni iných informačných zdrojov.

V súčasnosti viac-menej pravidelne používa viac ako 500 miliónov ľudí

Internet a do dvoch rokov ich počet podľa odborníkov presiahne 1 miliardu, teda viac ako 16 % svetovej populácie. Samozrejme, takéto kolosálne publikum nemohlo zostať nevyzvané - internet sa už dlho zmenil na obrovskú informačnú platformu.

Na celom svete a teraz aj u nás sa funkčná web stránka stáva znakom stabilnej, profesionálnej práce spoločnosti. Internet už dávno nie je len komunikačným prostriedkom, ale aj priestorom pre serióznu komerčnú činnosť. Takmer každá zahraničná spoločnosť má na webe svoje vlastné zastúpenie, virtuálne sídlo. Celkový obrat firiem obchodujúcich na internete dosahuje miliardy dolárov. Aj v Rusku čoraz viac spoločností využíva internet na propagáciu svojich produktov a služieb. Je ľahké sa o tom presvedčiť, keď si prezriete reklamné vydania. Popri bežných telefónnych a faxových číslach je stále viac e-mailových adries a webových stránok. Čoskoro bude absencia internetovej adresy fungovať rovnako ťažko ako absencia faxu. Kto teraz zaujme jeho miesto, bude mať v budúcnosti veľký úžitok. Toto je efektívnosť a relevantnosť. Tradičné médiá, napriek všetkej svojej viditeľnosti a známosti, už nie sú schopné poskytovať primeranú požadovanú úroveň odozvy moderný človek. Preto sa čoraz viac ľudí obracia na internet, aby získalo najnovšie informácie: o službách a cenách, počasí, výmenných kurzoch, proste novinky. Informácie na webovej lokalite môžete meniť niekoľkokrát za deň. AT tlačené publikácie Inzerciu je potrebné objednať aspoň týždeň vopred, prípadne aj viac. A na internete je všetko rýchle: nový tovar alebo služby, nová zľava alebo nový dodávateľ – zajtra sa o tom zákazníci dozvedia. Netreba čakať na ďalšie vydanie printovej inzercie. Informácie na stránke budú vždy aktuálne, najaktuálnejšie. To je to, čo sa cení, to je to, čo priťahuje milióny používateľov na internet.


1. Ukladajte údaje online internet

1.1 Hypertextové dokumenty, typy súborov

Hypertextový dokument je dokument obsahujúci takzvané odkazy na iný dokument. To všetko je implementované prostredníctvom HyperText Transfer Protocol (HTTP).

Informácie vo webových dokumentoch možno vyhľadávať podľa kľúčových slov. To znamená, že každý webový prehliadač obsahuje určité odkazy, prostredníctvom ktorých sa vytvárajú takzvané hypertextové odkazy, ktoré umožňujú miliónom používateľov internetu vyhľadávať informácie po celom svete.

Hypertextové dokumenty sú vytvorené na základe HTML (HyperText Markup Language). Tento jazyk je veľmi jednoduchý, jeho riadiace kódy, ktoré v skutočnosti zostavuje prehliadač na zobrazenie na obrazovke, pozostávajú z textu ASCII. Odkazy, zoznamy, nadpisy, obrázky a formuláre sa nazývajú prvky HTML, ktoré vám umožňujú prejsť na iný dokument kliknutím myši.

Existujú dva spôsoby vytvárania hypertextových dokumentov. Môžete použiť niektorý z WYSIWYG HTML editorov (napríklad Netscape Composer, ktorého základy sú popísané v časti "Počítačové spracovanie textu", Microsoft FrontPage, HotDog atď.), ktoré nevyžadujú špeciálne znalosti o vnútornej štruktúre vytvoreného dokumentu. Táto metóda umožňuje vytvárať dokumenty pre WWW bez znalosti jazyka HTML. HTML editory automatizujú vytváranie hypertextových dokumentov a odľahčujú rutinnú prácu. Ich možnosti sú však obmedzené, značne zväčšujú veľkosť výsledného súboru a výsledok získaný s ich pomocou nie vždy spĺňa očakávania vývojára. Ale, samozrejme, táto metóda je nevyhnutná pre začiatočníkov pri príprave hypertextových dokumentov.

Alternatívou je vytvoriť a označiť dokument pomocou bežného textového editora (napríklad emacs alebo NotePad). Pri tejto metóde sa príkazy HTML ručne vkladajú do textu. Vytvorením dokumentov týmto spôsobom presne viete, čo robíte.

Ako už bolo uvedené, HTML dokument obsahuje symbolické informácie. Jedna jeho časť je vlastný text, t.j. údaje, ktoré tvoria obsah dokumentu. Iné - značky(značkové značky), tiež nazývané značkovacie príznaky, sú špeciálne konštrukcie jazyka HTML používané na označenie dokumentu a ovládanie jeho zobrazenia. Práve tagy jazyka HTML určujú, v akej forme bude text prezentovaný, ktoré z jeho komponentov budú zohrávať úlohu hypertextových odkazov, ktoré grafické alebo multimediálne objekty majú byť v dokumente obsiahnuté. Grafické a zvukové informácie obsiahnuté v dokumente HTML sú uložené v samostatné súbory. Prehliadače HTML (prehliadače) interpretujú značky značiek a primerane usporiadajú text a grafiku na obrazovke. Pre súbory obsahujúce dokumenty HTML sú akceptované prípony .htm alebo .html.

Veľké písmená a malými písmenami pri písaní tagov sa nelíšia . Vo väčšine prípadov sa značky používajú v pároch. Dvojica pozostáva z otváracích (štartovacích) a uzatváracích (koncových) značiek. Otvoriť syntax značky:

<имя_тега [атрибуты]>

Zátvorky použité v popise syntaxe znamenajú, že prvok môže byť vynechaný. Názov záverečnej značky sa líši od názvu úvodnej značky iba tým, že pred ním je lomka:

Atribúty značiek sú zapísané v nasledujúcom formáte:

meno [= "hodnota"]

Úvodzovky pri zadávaní hodnoty argumentu sú voliteľné a možno ich vynechať. Pre niektoré atribúty nemusí byť zadaná hodnota. Záverečná značka nemá žiadne atribúty.

Akcia akéhokoľvek spárovaného tagu začína v mieste, kde sa stretol otvárací tag, a končí, keď sa stretne s príslušným uzatváracím tagom. Často sa nazýva dvojica počiatočných a koncových značiek kontajner, a časť textu, ohraničená úvodnou a záverečnou značkou, je prvok .

Postupnosť znakov, ktoré tvoria text, môže pozostávať z medzier, tabulátorov, skokových znakov Nový riadok, znaky konca riadku, písmená, interpunkčné znamienka, čísla a špeciálne znaky (napríklad +, #, $, @), s výnimkou nasledujúce štyri znaky, ktoré majú v HTML špeciálny význam:< (меньше), >(väčšie ako), & (ampersand) a " (dvojité úvodzovky). Ak chcete do textu zahrnúť niektorý z týchto znakov, musíte ho zakódovať pomocou špeciálnej postupnosti znakov.

Medzi špeciálne znaky možno zaradiť aj pevné medzery. Použitie tohto znaku je jedným zo spôsobov, ako zväčšiť medzeru medzi niektorými slovami v texte. Na tieto účely nemožno použiť obyčajné medzery, pretože skupinu po sebe idúcich medzier prehliadač interpretuje ako jednu.

1.2 Grafické súbory, ich typy a vlastnosti

V súčasnosti sa používanie plnofarebnej kvalitnej grafiky v realistických farbách na počítačoch triedy PC javí ako úplne všedné. Aj keď nie tak dávno to bola výsada publikačných systémov, ktoré boli zvyčajne postavené na platformách Macintosh alebo grafických staniciach Silicon Graphics. Používatelia PC boli v krajnom prípade spokojní s grafikou s farbou, maximálnou hĺbkou 8 bitov/pixel (256 farieb) pri dosť slabom rozlíšení 320X200 alebo 16 farieb pri rozlíšení 640X480.

Teraz, s vývojom architektúr video adaptérov a znížením nákladov na video pamäť na rôznych mikroobvodoch, systémy založené na PC, ktoré úspešne pracujú s realistickými (TrueColor) obrazmi s hĺbkou 24 bitov / pixel (viac ako 16 miliónov farieb) sú celkom dostupné pre bežného používateľa.

Z dôvodu technologického pokroku vznikla potreba prechodu na platformu PC a prispôsobenia rôznych formátov kódovanie a ukladanie grafické informácie z iných platforiem (napríklad Macintosh, kde sa takýto vývoj vyvíja už druhé desaťročie), alebo vývoj vlastných, zameraných na PC grafických formátov, plne berúc do úvahy všetky vlastnosti architektúry ich video adaptérov.

Navyše, v posledných 5 rokoch sa v dôsledku bleskového šírenia internetu a najmä technológií World Wide Web začal objavovať iný druh problému - vývoj obrazových formátov dostatočne kompaktných na prenos cez internet. sieť s minimálnym oneskorením a nezávislá na hardvéri, keďže sieť je pripojená k počítačom rôznych architektúr.

V tejto súvislosti by som rád v krátkosti zhodnotil niekoľko bežných grafických formátov a stručne opísal ich možnosti. Všetky tieto informácie sú zhrnuté v nasledujúcej tabuľke:

Formátovať Max. hlboký farby Max. počet farieb

Max. veľkosť obrazu,

Kódovanie viacerých obrázkov
BMP 24 16"777"216 65535 x 65535 RLE* -
gif 8 256 65535 x 65535 LZW +
JPEG 24 16"777"216 65535 x 65535 JPEG -
PCX 24 16"777"216 65535 x 65535 RLE -
PNG 48 281"474"976"710"656 Deflácia (LZ77) -
TIFF 24 16"777"216 celkom 4"294"967"295 LZW, RLE a ďalšie* +

Okrem toho je potrebné poznamenať, že najkompaktnejšie formáty sú JPEG, GIF, PNG, ktoré sú navyše nezávislé od platformy. Formát BMP je štandardný formát Windows, ale nie je široko používaný kvôli nadmerným veľkostiam súborov, najmä pri ukladaní grafiky s farebnou hĺbkou 24 bitov / pixel. Čo sa týka formátu TIFF, treba poznamenať, že podobne ako JPEG, GIF je čiastočne nezávislý na platforme, ale je príliš veľký na použitie na webe a čo je horšie, príliš náročný na interpretáciu. Okrem toho akékoľvek softvérové ​​produkty vrátane prehliadačov grafické súbory, obsahujúci kód na kódovanie / dekódovanie údajov pomocou algoritmu LZW, musí byť distribuovaný na základe príslušnej licenčnej zmluvy od spoločnosti Unisys Corp., vlastníka algoritmu, čo ďalej zvyšuje cenu týchto produktov.

Ďalšie úvahy by som rád obrátil na multiplatformové formáty prijaté na internete ako de facto štandard: JPEG, GIF, PNG.

Chcem hneď poznamenať, že formátu PNG (Portable Network Graphic) sa nebude venovať veľká pozornosť, hoci si to možno zaslúži. Je to dôsledok skutočnosti, že tento formát sa objavil nie tak dávno a napriek všetkým svojim výhodám ešte nezískal všeobecné uznanie.

Takže v skutočnosti osoba alebo spoločnosť, ktorá má v úmysle umiestniť veľké množstvo obrázkov na svoje disky a prípadne ich sprístupniť na použitie na internete, stojí pred dilemou: čo si vybrať GIF alebo JPEG.

Formát GIF vyvinutý spoločnosťou CompuServe a pôvodne navrhnutý špeciálne ako formát na výmenu obrázkov v sieti je formát s pomerne vysokým stupňom kompresie obrázkov. Okrem toho má GIF ďalšie funkcie, vďaka ktorým je jeho použitie na webe atraktívne. Prvým je možnosť zmeniť poradie, v ktorom sa obrazové riadky zobrazujú na obrazovke, a vyplniť medzery medzi nimi časovými informáciami. Vizuálne to vyzerá tak, že pri sťahovaní zo siete (čo sa často deje katastrofálne nízkou rýchlosťou) sa obraz na obrazovke javí ako „v nízkej kvalite“ a potom, keď sa načítajú ďalšie informácie, obnoví chýbajúce čiary obrazu. Používateľ tak môže ešte pred ukončením procesu sťahovania získať predstavu o obsahu obrázka a prerušiť sťahovanie. nevyžiadaný súbor veľká veľkosť. Druhou možnosťou je uložiť viac ako jeden obrázok do jedného súboru, čo umožňuje elementárnu animáciu snímok po snímke. Ďalšou charakteristickou črtou GIF je, že jedna z farieb môže byť vyhlásená za „priehľadnú“ a potom, keď sa obrázok zobrazí, tie jeho časti, ktoré sú natreté touto farbou, sa na obrazovke nezobrazia a pozadie, na ktorom je obrázok je prekryté bude pod nimi viditeľné. Najväčšou nevýhodou GIF je, že dokáže uložiť maximálne 256 farieb, čo je v dnešnej dobe čoraz menej prijateľné. Používatelia GIF zároveň trpia rovnakými problémami ako TIFF: GIF tiež používa kompresiu LZW, a preto je možné každý obrázok distribuovať iba s príslušnou licenčnou zmluvou.

Formát JPEG je formát TrueColor, čo znamená, že dokáže ukladať obrázky s farebnou hĺbkou 24 bitov na pixel. Táto farebná hĺbka je dostatočná na takmer presnú reprodukciu obrázkov akejkoľvek zložitosti. Hlbšie zobrazenie farieb (napr. 32 bitov/pixel) sa pri pohľade na moderných monitoroch a pri tlači na väčšine dostupných tlačiarní v skutočnosti ukáže takmer na nerozoznanie. Takáto farebná hĺbka môže byť užitočná len pri publikovaní. JPEG má vo všeobecnosti vyšší stupeň kompresie obrázkov ako GIF (viac o tomto aspekte v kapitole Najlepšie postupy pre JPEG), ale nemá možnosť uložiť viacero obrázkov do jedného súboru. Nedávno bola vyvinutá modifikácia formátu JPEG s názvom Progressive JPEG, čo možno do ruštiny preložiť približne ako „postupný JPEG“, ktorý je určený na rovnaké úlohy ako prekladané zobrazenie obrázkov GIF. To robilo formát jpeg ešte atraktívnejšie ako sieťový štandard. JPEG má však aj svoje nevýhody. Na rozdiel od GIF, ktorý dokáže efektívne komprimovať obrázky takmer akéhokoľvek obsahu, JPEG je zameraný predovšetkým na realistické obrázky, teda fotografické obrázky, pričom kvalita kompresie sa výrazne zhoršuje pri spracovaní obrázkov s ostro ohraničenými čiarami a farebnými okrajmi.

Preto je stále nemožné urobiť konečný výber v prospech jedného alebo druhého formátu. Formát JPEG sa mi však zdá zaujímavejší z hľadiska pôvodného kompresného algoritmu a veľkých možností rozvoja do budúcnosti. Aj formát JPEG treba považovať za jednoznačne flexibilnejší: umožňuje vám vybrať si medzi dobrou kvalitou obrazu alebo dobrým kompresným pomerom a nájsť prijateľný kompromis pre každý konkrétny prípad. Preto je celý ďalší výskum venovaný tomuto formátu.

1.3 Vyhľadávače a pravidlá vyhľadávania informácií

Výhodou internetu je, že sa na ňom dajú nájsť takmer všetky informácie, aj keď nevieme, kde presne sa nachádzajú. Ak je adresa stránky s materiálom, o ktorý máme záujem, neznáma a neexistujú ani stránky s vhodnými odkazmi, musíme materiály hľadať po celom internete. Na tento účel sa používajú internetové vyhľadávače - špeciálne webové stránky, ktoré vám umožňujú nájsť požadovaný dokument.

Existujú dva hlavné spôsoby vyhľadávania na internete. V prvom prípade hľadáte webové stránky súvisiace s konkrétnou témou. Vyhľadávanie prebieha výberom tematickej kategórie a jej postupným zužovaním. Takéto vyhľadávače sú tzv vyhľadávanie adresárov.Sú praktické, keď sa potrebujete zorientovať v téme, ktorá je pre vás nová, alebo sa dostať k známym „klasickým“ zdrojom k danej téme. Druhá metóda vyhľadávania sa používa, keď je téma úzka, špecifická alebo vzácna, sú potrebné málo známe zdroje. V tomto prípade si musíte predstaviť, aké kľúčové slová by sa mali nachádzať v dokumente na tému, ktorá vás zaujíma. Tieto slová by sa mali vyberať tak, aby sa pravdepodobne nachádzali v správnych dokumentoch, ktoré nesúvisia so zvolenou témou. Systémy, ktoré umožňujú takéto vyhľadávanie vykonať, sa nazývajú vyhľadávacie indexy. Vyhľadávacie adresáre sa líšia od vyhľadávacích indexov nielen spôsobom, akým sa vyhľadávajú, ale aj spôsobom ich vytvárania. Každý internetový vyhľadávač sa skladá z dvoch častí. Špecializovaná webová stránka, ktorá je dostupná každému a ktorá vám umožňuje vykonávať vyhľadávanie, je založená na veľkej, neustále aktualizovanej a aktualizovanej databáze, ktorá obsahuje informácie o internetových zdrojoch.

Spôsob dopĺňania tejto databázy závisí od typu vyhľadávača, vyhľadávacích adresárov, najdôležitejšia je presnosť výberu. Každý nájdený zdroj by mal byť užitočný. Téma stránky sa určuje alebo kontroluje manuálne. Z tohto dôvodu je objem vyhľadávacích adresárov relatívne malý. Keď sa objem blíži k miliónu strán, objem ručnej práce je taký veľký, že sa ďalší rast katalógu zastaví.

Indexy vyhľadávania sú na druhej strane zamerané na šírku pokrytia. S definíciou slov dostupných na webovej stránke to automatizácia celkom dobre zvládne, údaje indexu vyhľadávania môžu pokryť mnoho miliónov webových stránok. Je však ťažšie hľadať v indexe ako v adresári, pretože rovnaké kľúčové slová sa môžu objaviť na webových stránkach s rôznymi témami.

Systémy na vyhľadávanie informácií sú umiestnené na internete na verejných serveroch. Základom vyhľadávačov sú takzvané vyhľadávače, čiže automatické indexy. Špeciálne programy robotov (tiež známe ako pavúky) v automatický režim pravidelne skúmať internet na základe určitých algoritmov a indexovať nájdené dokumenty. Vytvorené indexové databázy používajú vyhľadávače na to, aby používateľovi poskytli prístup k informáciám zverejneným na webových uzloch. Používateľ v rámci príslušného rozhrania sformuluje požiadavku, ktorú systém spracuje, po čom sa výsledky spracovania požiadavky zobrazia v okne prehliadača. Mechanizmy spracovania dopytov sa neustále zdokonaľujú a moderné vyhľadávače nepretriedia len obrovské množstvo dokumentov. – Vyhľadávanie je založené na originálnych a veľmi zložitých algoritmoch a jeho výsledky sú analyzované a triedené tak, aby informácie prezentované používateľovi čo najviac zodpovedali jeho očakávaniam.
V súčasnosti je vo vývoji vyhľadávačov tendencia kombinovať automatické indexové vyhľadávače a ručne zostavované katalógy internetových zdrojov. Zdroje týchto systémov sa úspešne dopĺňajú a je celkom logické kombinovať ich schopnosti.

Štúdie schopností vyhľadávacích nástrojov, dokonca aj tých najvýkonnejších, ako sú AltaVista alebo HotBot, však ukazujú, že skutočná úplnosť pokrytia zdrojov World Wide Web samostatným takýmto systémom nepresahuje 30%. Preto by ste sa nemali obmedzovať na používanie žiadneho z nich. Ak nemôžete nájsť informácie, ktoré hľadáte pomocou jedného systému, skúste iný.

Každý vyhľadávací systém má svoje vlastné charakteristiky a kvalita výsledku závisí od predmetu vyhľadávania a presnosti formulácie dopytu. Preto, keď začnete hľadať informácie, musíte v prvom rade jasne pochopiť, čo presne a kde chcete nájsť. Zahraničné systémy udivujú napríklad množstvom indexovaných dokumentov. Vyhľadávať v oblasti odborných vedomostí, najmä informácie o cudzí jazyk, systémy ako AltaVista, HotBot alebo Northern sú najvhodnejšie.

Na vyhľadávanie informácií v ruštine, najmä v ruskej časti internetu, sa však lepšie hodia ruské vyhľadávače. Po prvé, sú špecificky zamerané na zdroje webu v ruskom jazyku a spravidla sa vyznačujú väčšou úplnosťou pokrytia a hĺbkou štúdia týchto zdrojov. Po druhé, ruské systémy fungujú s prihliadnutím na morfológiu ruského jazyka, to znamená, že do vyhľadávania sú zahrnuté všetky formy hľadaných slov. Ruské systémy lepšie zohľadňujú takú historickú črtu ruských internetových zdrojov, ako je koexistencia niekoľkých kódovaní v cyrilike.

2. Prehľad a charakteristika webových vyhľadávačov internet

2.1 Rambler

Na vyhľadávanie informácií v ruskom jazyku na internete je lepšie použiť ruské vyhľadávače. V tomto experimente a v nasledujúcich ďalších budeme hľadať informácie pomocou niekoľkých systémov určených na vyhľadávanie rusky hovoriacej časti internetu. Ako uvidíte, zásadne sa nelíšia od svetových vyhľadávačov. Keďže sme už zvážili niekoľko systémov a poznáte všeobecné princípy vyhľadávania informácií na internete, v ďalších experimentoch sa nebudeme zaoberať všetkými jemnosťami. Keďže tieto systémy s vami komunikujú v ruštine, budete ich môcť študovať sami s využitím vedomostí, ktoré ste získali z predchádzajúcich experimentov.

Hľadajme pomocou systému Rambler. Ako uvidíte, tento systém má pohodlný systém na vyhľadávanie a vydávanie nájdených informácií.

Môžete hľadať ako World Wide Web, a v diskusných skupinách, ako aj v katalógu tohto systému a v produktoch. Okrem jednoduchej požiadavky je možné pracovať s podrobnými požiadavkami. Vykonáme však jednoduchý dotaz, ako v prípade iných ruských vyhľadávačov.

Zadajte slová do vstupného poľa dotazu vyhľadávanie na internete. Chceme nájsť dokumenty, ktoré súčasne obsahujú slovo „hľadať“ a slovo „internet“.

Kliknite na tlačidlo Nájsť!. Dostali sme zoznam nájdených stránok.

Zoznam nájdených stránok je pohodlne usporiadaný. Odkazy na stránky, ktoré zodpovedajú kritériám vyhľadávania, sú uvedené ako prvé. Dokumenty maximálne vyhovujú požiadavke, v ktorej sa hľadané slová často opakujú a nie sú ďaleko od seba. Okrem toho sú zistené kľúčové slová zvýraznené v krátkom fragmente textu nájdeného dokumentu.

V systéme Rambler môžete vidieť slová, ktoré sa najčastejšie používajú v používateľských dopytoch. Okrem toho Rambler vedie zoznam najpopulárnejších ruských internetových stránok. Keďže všetky informácie v systéme sú prezentované v ruštine, dúfame, že sa v budúcnosti budete môcť samostatne zoznámiť s možnosťami tohto vyhľadávača.

2.2 Yandex

Vyhľadávací nástroj Yandex sa nachádza na adrese www.yandex.ru. Oficiálne bol uvedený do prevádzky 23. septembra 1997.

Čo je Yandex? Tu je návod, ako tvorcovia systému odpovedajú na túto otázku. Yandex je fulltextový systém na vyhľadávanie informácií (IPS), ktorý zohľadňuje morfológiu ruštiny a Angličtina. Systém Yandex je určený na vyhľadávanie informácií v elektronických textoch rôznych štruktúr a rôzne cesty reprezentácie (formáty). Yandex (vyslovuje sa „yandex“) znamená „jazykový index“ alebo v anglickom pravopise Yandex-YetAnotherINDEX. Yandex môžete tiež považovať za čiastočný preklad slova Index z angličtiny do ruštiny („I“ znamená „ja“).

Na základe vyhľadávača Systémy Yandex. Ru je systémové jadro spoločné pre všetky produkty s predponou Yandex (Yandex. Site, Yandex. Lib, Yandex. Dict, Yandex.CD). Prvé produkty série Yandex (Yandex. Site, Yandex. Dict) boli predstavené širokej verejnosti 18. októbra 1996 na výstave Netcom'96. Vyhľadávač pre "ruský internet". bol prirodzeným pokračovaním línie Yandex. Ako už bolo spomenuté, dobrá otázka obsahuje polovicu odpovede. Hľadanie a nájdenie toho, čo potrebujete v hromade textov na internete, je zručnosť nielen pre vyhľadávač, ale aj pre používateľa, ktorý zadáva požiadavku. Yandex nevyžaduje, aby používateľ poznal špeciálne príkazy vyhľadávania. stačí zadať otázku („kde nájsť lacné počítače“ alebo „potrebujem telefóny v Moskve a Moskovskom regióne“) a dostanete výsledok – zoznam stránok, kde sa tieto slová vyskytujú. Bez ohľadu na formu, v ktorej ste slovo použili v dotaze, vyhľadávanie zohľadňuje všetky jeho formy podľa pravidiel ruského jazyka. Napríklad, ak je dopyt ísť, potom vyhľadávanie nájde odkazy na dokumenty obsahujúce slová „ísť“, „ide“, „kráčal“, „kráčal“ atď.

Yandex pracuje nielen s jazykovými dopytmi, ale umožňuje vám vyhľadávať iba na určitých serveroch ALEBO vylúčiť z vyhľadávania zjavne nepotrebné servery. Teraz môžete vyhľadávať obrázky podľa ich popisov a názvov súborov. Objekty ako skripty, applety a štýly sa tiež stali vyhľadávateľnými (hľadajte podľa názvu). Pohodlná obsluha s novými funkciami sa ponúka na stránke rozšíreného vyhľadávania, kde je zložitý jazyk dopytov zredukovaný na vypĺňanie polí vo formulári. Okrem štandardného triedenia výsledkov – podľa relevantnosti (teda podľa miery vyhovenia žiadosti), môžete dokumenty triediť podľa dátumu aktualizácie. Zaujímavou vlastnosťou systému je možnosť vyhľadávania v Yandex kdekoľvek na internete. Ak to chcete urobiť, musíte si zo stránky http://bar.uandex.ru stiahnuť program s názvom Yandex. Bar a nastavte ho. Potom sa v okne prehliadača zobrazí nový panel. Je navrhnutý tak, aby zadal požiadavku na vyhľadávanie (bez nutnosti otvárania stránky Yandex) a vykonával množstvo ďalších funkcií.

Autor: vzhľad Yandex je typický portál na domovskej stránke kde nájdete odkazy na materiály na takmer akúkoľvek tému. Ale to nie je jeho jediná tvár, pre „serióznych“ používateľov, ktorí nechcú strácať čas sťahovaním informácií, ktoré sú momentálne zbytočné, je tu ďalší Yandex. Jeho stránka zaujme svojim skromným dizajnom a rýchlosťou načítania. Adresa tejto podstaty vyhľadávača je www.ya.ru.

2.3 Yahoo

Databázy: Spravuje vyhľadávaciu službu pre internetové zdroje, správy, mapy, reklamné informácie, športové informácie, podnikanie, telefónne čísla, osobné WWW stránky a e-mailové adresy (samostatná databáza).

Vyhľadávanie: Všetky stránky Yahoo ponúkajú nielen jednoduché vyhľadávacie pole, ale aj možnosti tohto vyhľadávania, ako aj vyhľadávanie Usenetu alebo e-mailovej adresy. Vyhľadávanie môže byť obmedzené na zadanie určitého časového obdobia. Podporované sú aj logické operátory (and, or) a sekvenčné vyhľadávanie. Všimnite si, že ak hľadáte Yahoo! nevedie k pozitívnemu výsledku, potom sa proces vyhľadávania automaticky prepne na Alta Vista, ktorá pokračuje vo vyhľadávaní a v prípade pozitívnych výsledkov automaticky vráti nájdené informácie do Yahoo!.

Ak Yahoo! nemôže sa dostatočne rýchlo pripojiť k Alta Vista, v tomto prípade Yahoo! poskytne stránku s odkazmi so sadou nástrojov na vyhľadávanie. Po výbere jedného z týchto odkazov sa kľúčové slová odošlú do vyhľadávacieho nástroja podľa vášho výberu.

Nástrojom, ktorý uľahčuje vyhľadávanie, je prítomnosť „tip search“ (TS) – vyhľadávanie pomocou „hint“: Yahoo! Ide o podriadený adresár, čo znamená, že systém nemá toľko stránok ako vyhľadávače, avšak nastavenie najbežnejších kľúčových slov vám umožní nájsť potrebnú tému na stránke vysokej úrovne (prvá stránka, ktorá sa zobrazí v popredí používateľa pri návšteve stránky) pre organizáciu alebo spoločnosť.

Výsledky: Odkazy sa zobrazujú podľa poradia daných slov podľa poradia vyhľadávania spolu s ich popisným textom a podhierarchiami.

Adresa: http://www.yahoo.com/

2.4 Altavista

AltaVista (www. AltaVista.com) je jedným z najstarších vyhľadávačov na internete. Prvý webový index zaviedla spoločnosť v roku 1995. Jadro vyhľadávača vďačí za svoj zrod zvláštnej funkcii výskumného laboratória DigitalEquipmentCorp. Z nejakého dôvodu si zamestnanci tohto laboratória uchovávali všetku svoju elektronickú korešpondenciu za posledných 10 rokov. Aby táto kopa informácií nezaberala len miesto na disku, ale priniesla aspoň nejaký úžitok, vznikol program na indexovanie dokumentov a hľadanie správnych slov v kope zažltnutých e-mailov. Ukázalo sa, že systém bol taký úspešný, že neskôr úspešne migroval do oblasti World Wide Web.

Index AltaVista obsahuje dokumenty vo viac ako 25 jazykoch. Lokalizované verzie webovej stránky AltaVista sa nachádzajú v doménach 20 krajín. Oblasť vyhľadávania môže obsahovať dokumenty vo všetkých podporovaných jazykoch alebo iba dokumenty v konkrétnom jazyku a na vyhradenej stránke môžete rozpoznať viacero jazykov, aby ste mohli vyhľadávať vo všetkých vybraných jazykoch súčasne.


Závery a ponuky

V súčasnosti internet využíva takmer všetky známe komunikačné linky z nízkej rýchlosti telefónne linky na vysokorýchlostné digitálne satelitné kanály. Operačné systémy používané na internete sú tiež rôznorodé. Väčšina počítačov na internete používa Unix alebo VMS. Široké zastúpenie majú aj dedikované sieťové smerovače ako NetBlazer alebo Cisco, ktorých OS pripomína Unix OS.

Internet v skutočnosti pozostáva z mnohých lokálnych a globálnych sietí patriacich rôznym spoločnostiam a podnikom, ktoré sú vzájomne prepojené rôznymi komunikačnými linkami. Internet si možno predstaviť ako mozaiku malých sietí rôznych veľkostí, ktoré spolu aktívne interagujú, posielajú súbory, správy atď.

Príkladom topológie internetu je sieť X-Atom, ktorá pozostáva z niekoľkých podsietí a zároveň je fragmentom celosvetového internetu.

Dnes je na svete viac ako 130 miliónov počítačov a viac ako 80 % z nich je pripojených v rôznych informačných a výpočtových sieťach od malých lokálnych sietí v kanceláriách až po globálne siete, ako je internet. Celosvetový trend prepájania počítačov v sieti je spôsobený niekoľkými dôležitými dôvodmi, ako je zrýchlenie prenosu informačných správ, možnosť rýchlej výmeny informácií medzi používateľmi, príjem a prenos správ (faxy, e-mailové listy atď.). .) bez opustenia pracoviska, možnosť okamžite prijímať akékoľvek informácie odkiaľkoľvek na svete, ako aj výmena informácií medzi počítačmi rôznych výrobcov fungujúcich pod rôznym softvérom.

Také obrovské možnosti, že počítačová sieť a nový potenciálny vzostup, ktorý informačný komplex zažíva, ako aj výrazné zrýchlenie výrobného procesu, nám nedávajú právo to neprijať na vývoj a neaplikovať ich v praxi.

Preto je potrebné vypracovať zásadné riešenie problematiky organizácie IVS (informačnej a počítačovej siete) na báze existujúceho počítačového parku a softvérového balíka, ktorý zodpovedá moderným vedecko-technickým požiadavkám, berúc do úvahy rastúce potreby a možnosť ďalšieho postupného rozvoja siete v súvislosti so vznikom nových technických a softvérových riešení.

Internet sa naďalej rozvíja s neutíchajúcou intenzitou, čím sa v skutočnosti vymazávajú obmedzenia týkajúce sa šírenia a prijímania informácií vo svete. V tomto oceáne informácií ich však nie je ľahké nájsť požadovaný dokument. Malo by sa tiež pamätať na to, že nové servery sa v sieti objavujú spolu s dlhoročnými servermi.

Okrem „všeobecných“ serverov existujú špecializované stránky v určitej oblasti, napríklad pre fyziku vysokých energií – http://xxx.lanl.gov.

Pri importe súborov článkov treba myslieť aj na to, že sa často ukladajú vo formáte PostScript (s príponou, PS'', EPS'') určenom na tlač na laserovej tlačiarni, takže v tomto prípade po prijatí na prezeranie a tlač na matricu resp atramentová tlačiareň mali by ste použiť špeciálny program, napríklad GhostView.

Niet pochýb o tom, že používanie internetu vo vedeckej práci vám umožňuje získať najhorúcejšie informácie a zostať v kontakte s kolegami vo svete.

Špekuluje sa, že internet nahradí a nahradí knihy. Teraz tomu bráni viacero faktorov. Po prvé, nedostatok pohodlia pri čítaní kníh z monitora počítača. A hoci prenosné elektronické čítačky už existujú, ich rozlíšenie obrazovky zjavne nestačí. Po druhé, autorské práva na elektronické publikácie nie sú úplne rozvinuté.

Internet v budúcnosti výrazne nahradí tradičné médiá vďaka svojej flexibilite, responzívnosti a interaktivite.

Mnoho ľudí dnes nečakane objavuje existenciu globálnych sietí, ktoré spájajú počítače po celom svete do jedného informačného priestoru nazývaného internet. Čo to je, nie je ľahké definovať. Z technického hľadiska je internet združením nadnárodných počítačových sietí fungujúcich na rôznych protokoloch, spájajúcich všetky druhy počítačov, fyzicky prenášajúcich dáta cez všetky dostupné typy liniek – od krútenej dvojlinky a telefónnych káblov až po optické vlákna a satelitné kanály. Väčšina počítačov na internete je prepojená pomocou protokolu TCP/IP. Dá sa povedať, že internet je sieť sietí, do ktorých je zapletená celá zemeguľa.


1. Informatika / Kurnosov A.P., Kulev S.V., Ulezko A.V. atď.; Ed. A.P. Kurnosova.-M: KolosS, 2005. - 72 s. (Učebnice a učebné pomôcky pre študentov vysokých škôl)

2. Workshop z informatiky: Proc. príspevok / Ed. Kurnošová A.P. - Voronež: VGAU, 2004. -239 s.

3. Informatika. Učebnica. - 3. vydanie, prepracované / Ed. N.V. Makarova. - M.: Financie a štatistika, 2002. - 256 s.

4. Informatika. Základný kurz / Simonovich S.V. a iné - Petrohrad: Peter, 2006. - 639 s.: chor.

5. Krupnik A.B. Vyhľadávanie na internete: návod. - 2. vyd. - Petrohrad: Peter, 2004. - 572 s.

6. Orlov A.A. Požadované programy pre internet - Petrohrad: Peter, 2006. - 127 s.

7. Solonitsyn Yu.A., Kholmogorov V. Internet. Encyklopédia. – 3. z. - Petrohrad: Peter, 2003. - 592 s.

8. Reznikov F.A. Rýchlo a jednoducho zvládneme prácu na internete. - M .: Najlepšie knihy, 2002. - 284 s.

9. Počítačové siete a nástroje informačnej bezpečnosti: Proc. príspevok / Kamalyan A.K., Kulev S.A., Nazarenko K.N. atď. - Voronež: VGAU, 2003. - 119 s.

10. Olifer V.G., Olifer N.A. Počítačové siete. Princípy, technológie, protokoly. - Petrohrad: Peter, 2002. - 672 s.: chor.

11. Internet: Encyklopédia / Ed. L. Melikhovej. - 2. vyd. - Petrohrad; M.; Charkov; Minsk; Peter, 2000. - 527 s.

12. Mushtovaty I.F. Návod na prácu na internete / Pod všeobecným. vyd. M.I. Monastyrsky. - 2. vyd., dod. a prepracované - Rostov n/a: Phoenix, 2002.-312 s.

13. Popov V. Workshop o internetových technológiách: Výcvikový kurz/ V. Popov.-Petrohrad; M.; Charkov; Minsk: Piter, 2002. - 476 s.: chor.

14. Počítačové siete a nástroje informačnej bezpečnosti: Návod/ Kamalyan A.K., Kulev S.A., Nazarenko K.N. atď. - Voronež: VGAU, 2003. - 119 s.

15. Zaika A.A. Počítačové siete - M: Olma-Press, 2005. -448 s.

16. Počítačové siete: Školiaci kurz - 2. vyd. (+ CD-ROM). - Microsoft Press, ruské vydanie, 1998.

17. Základy modernej výpočtovej techniky. Ed. Homonenko A.D. - Korunová tlač, Petrohrad 1998.

18. Osobné počítače v sieťach TCP/IP. Craig Hunt; preklad. Z angličtiny. – BHV-Kyjev, 1997.

19. Federálny zákon Ruská federácia„O informáciách, informatizácii a ochrane informácií“ z 20. februára 1995 č. 24-FZ.

20. Comer D. Princípy internetu: TRANS. z angličtiny / D. Comer. - SPB.; M.; Charkov; Minsk: Piter, 2002.-379 s.

Úvod. - štyri

1. Systém vyhľadávania informácií. - 5

1.1. Dokumentárny IPS. - 6

1.2. Skutočný IPS. - osem

2. Vyhľadávač globálnej siete"Internet". - 9

2.1. Ako fungujú vyhľadávače. - 9

2.2. vyhľadávacia technológia. - štrnásť

3. Vyhľadávače globálnej siete "Internet". - osemnásť

3.1. Ako hľadať na internete - 18

3.2. vyhľadávanie adresárov. - 21

3.3. Ukazovatele vyhľadávania. - 23

4. Porovnávacie charakteristiky dvoch vyhľadávačov

systémy založené na Rambler.ru a Yandex.ru. - 29

4.1. Rambler.ru - 29

4.2. Yandex.ru. - 35

Záver. - 40

Literatúra. - 42

Aplikácia. - 43

Úvod


Internet výrazne zjednodušil život modernej spoločnosti, globalizoval ju, zvýšil možnosti niektorých ľudí a znížil možnosti iných. Dnes je oveľa pohodlnejšie a výhodnejšie využívať poštové služby cez internet (napríklad list z Tobolska do Londýna vám príde za 5 sekúnd).

Podľa mojich pozorovaní sa internet stal zdrojom podnikania, zdrojom svetovej kultúry, zdrojom vzdelávania, masmédiom.

Dnes môže každý používateľ internetu získať prístup ku všetkým svetovým burzám a múzeám za pár sekúnd. Každý používateľ môže získať vzdelanie prostredníctvom internetu, zoznámiť sa s poprednými svetovými elektronickými novinami.

Informácie sa stali virtuálnym zlatom našej doby a kto ich dokáže získať rýchlejšie, dosiahne rýchlejšie a väčšie úspechy. Či už ste obchodník, ktorý hľadá nový trh, alebo študent, ktorý hľadá materiál na semestrálnu prácu, obaja potrebujú informácie a internet im ich môže poskytnúť, ak majú vedomosti, aby si ich mohli vziať.

Výhody internetu pre občanov Zeme by som musel dlho vypisovať, ale obávam sa, že by som to skoro neskončil.

Chcem poznamenať hlavnú vec na internete, niektoré z jeho „základného kameňa“, sú to informácie a ich hlavné vlastnosti:

1) Široká dostupnosť

2) Rýchlosť

Neskúsení používatelia majú mýtus, že internet má všetko. V skutočnosti moja skúsenosť na internete dokázala, že to tak nie je. Materiály na zverejnenie na webe pripravujú žijúci ľudia, a preto tam nájdete len to, čo považujú za potrebné (v zmysle užitočného či prospešného pre seba) zverejniť. Rieku však napájajú potoky a vďaka ich kreativite už dnes na internete vznikli asi dve miliardy webových stránok. V dôsledku toho sa katalogizácia zdrojov dostupných na webe stala veľkým problémom. Napriek tomu, že sú do nej zapojené tisíce organizácií, problém sa nielenže nepribližuje k vyriešeniu, ale je čoraz akútnejší. Percento katalogizovaných (alebo indexovaných) zdrojov neustále klesá. Za posledné dva roky bol tento pokles katastrofálny. Ak sa teda v roku 2000 percento indexovaných zdrojov priblížilo k 40 %, potom len v jednom nasledujúcom roku kleslo na 25 %. Záver je jednoduchý: Webový priestor sa zapĺňa rýchlejšie, ako je systematizovaný. Internetoví špecialisti bohužiaľ nemajú dôvod veriť, že v blízkej budúcnosti sa môže čokoľvek zmeniť k lepšiemu. Z toho vyplýva, že hľadanie informácií na World Wide Web možno považovať za najťažšiu úlohu na internete.

V súvislosti s vyššie uvedeným je kvalitatívne vyhľadávanie informácií na internete jednou z najpálčivejších tém našej doby, tento problém ma postihol viackrát.

Téma mojej semestrálnej práce ma zaujala svojou originalitou a novotou a chcem sa ju pokúsiť odhaliť. Mojou úlohou bude kvalitatívna organizácia vyhľadávania informácií na internete.

1. Systém vyhľadávania informácií


Pred dosiahnutím konkrétnych vyhľadávacích mechanizmov v globálnej sieti "Internet" je potrebné rozobrať teoretický základ také otázky ako „čo sú informácie?“, „Informačné procesy?“, „Systém na vyhľadávanie informácií a jeho typy?“.

Neexistuje jednoznačná odpoveď, čo je informácia, môžeme uviesť iba niektoré vlastnosti, ktoré charakterizujú tento pojem:

" Informácie - ide o informácie, ktoré sú predmetom uchovávania; je to obsah správy, signálu, pamäte, ako aj informácie obsiahnuté v správe, signále, pamäti.

Procesy prenosu, uchovávania a spracovania informácií vždy zohrávali dôležitú úlohu v živote spoločnosti. Ľudia si vymieňajú ústne správy, poznámky, správy. Navzájom si odovzdávajú požiadavky, objednávky, správy o vykonanej práci, súpisy majetku; zverejniť reklamy a vedecké články; uchovávať staré listy a dokumenty; dlho uvažujú o prijatých správach alebo sa hneď ponáhľajú plniť pokyny svojich nadriadených. Toto všetko - informačných procesov. Informácie sú vždy spojené s materiálnym nosičom a jeho prenos - s nákladmi na energiu. Tie isté informácie však môžu byť uložené v inej hmotnej podobe (na papieri, vo forme foto negatívu, na magnetickej páske, ...) a prenášané s rôznymi nákladmi na energiu (poštou, telefonicky, kuriérom, atď.). atď.), navyše dôsledky – vrátane materiálnych – prenášaných informácií sú úplne nezávislé od fyzických nákladov na ich prenos. Napríklad ľahké stlačenie tlačidla spustí ťažkú ​​divadelnú oponu alebo vyhodí do vzduchu veľkú budovu, červený semafor zastaví vlak a nečakané zlé správy môžu spôsobiť infarkt. Informačné procesy preto nie sú redukovateľné na fyzikálne a informácie spolu s hmotou a energiou patria k základným podstatám sveta okolo nás. V 20. storočí s rozvojom technológie sa objavili nové zariadenia: komunikácie, automatizačné zariadenia a od 40. rokov. - počítačová technológia. Ukázalo sa, že nie je možné opísať efektivitu ich práce pomocou fyzikálnych konceptov a že podstatné charakteristiky takýchto zariadení je potrebné opísať úplne inak. V dôsledku toho po prvýkrát vznikol presný pojem informácie a matematická teória informácie. Ukázalo sa, že komunikačné prostriedky, bez ohľadu na to, aké fyzické procesy používajú, sú prostriedkami na prenos informácií. Spájanie pojmov „informácie“ a „manažment“ viedlo N. Wienera v 40. rokoch. k vytvoreniu kybernetiky, ktorá najmä po prvý raz poukázala na zhodnosť informačných procesov v technike, spoločnosti a živých organizmoch.

Využitie pojmu informácie malo významný vplyv na rozvoj modernej biológie, najmä jej sekcií ako neurofyziológia a genetika. A napokon v súvislosti s rozvojom výpočtovej techniky, ktorá podnietila informatizáciu celej spoločnosti, vznikol komplex vied o rôznych aspektoch práce s informáciami - informatika.

" Systém na vyhľadávanie informácií je systém, kde je uložené informačné pole, z ktorého sa podľa požiadaviek používateľov vydávajú potrebné informácie.

Vyhľadávanie informácií na žiadosť používateľa prebieha buď automaticky, alebo manuálne (ako v knižniciach, keď čitateľ kontaktuje pracovníka referenčného fondu s požiadavkou a ten využíva katalógový systém). V druhom prípade sa používajú počítače vybavené špeciálnymi softvérovými nástrojmi, ktoré analyzujú procesy žiadostí, vyhľadávanie a vydávanie potrebných dokumentov. Systémy na vyhľadávanie informácií (IPS) teda implementujú vzťah otázka-odpoveď, ktorý približuje úlohy, pred ktorými stoja tvorcovia takýchto systémov, s úlohami, ktoré riešia tvorcovia systémov človek-stroj.

Systémy na vyhľadávanie informácií sú rozdelené do dvoch typov:

1. Dokumentárny IPS.

2. Faktický IZS.

1.1 Dokumentárny IPS


V takomto IPS sú všetky uložené dokumenty nejakým špeciálnym spôsobom indexované. Každý dokument (článok, správa, protokol atď.) má priradený individuálny kód, ktorý tvorí vyhľadávací obrázok dokumentu. Vyhľadávanie nie je založené na samotných dokumentoch, ale na ich vyhľadávacích obrázkoch, ktoré obsahujú informáciu (adresu) o umiestnení dokumentu. Takto hľadá knihy čitateľ vo veľkých knižniciach (v malých knižniciach si zvyčajne knihovník knihy hľadá sám). Na žiadosť čitateľa najskôr nájdu kartu v katalógu a potom pomocou kódu, ktorý je na nej uvedený, sa nájde aj samotná kniha.

Rozdiely v dokumentografickom IPS sú určené tým, ako je usporiadaný vyhľadávací obrázok dokumentu. V najjednoduchšom prípade je to jednoducho jej individuálny názov (napríklad názov, autor, rok vydania knihy). V zložitejších prípadoch neexistuje žiadna individuálna zhoda medzi vyhľadávaným obrázkom dokumentu a samotným dokumentom. Je celkom možné, že vyhľadávaný obrázok dokumentu zodpovedá niekoľkým rôznym dokumentom a naopak, jeden a ten istý dokument zodpovedá nie jednému, ale viacerým vyhľadávacím obrázkom.


Takúto nejednoznačnosť majú napríklad vyhľadávacie obrázky dokumentov v deskriptorových systémoch. "Deskriptor je slovo alebo fráza, ktorá úzko súvisí s obsahom dokumentu. Súbor deskriptorov definuje skupinu dokumentov s podobným obsahom." V poslednej dobe časopisy publikujúce vedecké články vyžadujú od svojich autorov, aby poskytli zoznam kľúčových slov pre každý článok, ktoré fungujú ako deskriptory. Ak napríklad opíšete článok, ktorý čítate, pomocou kľúčových slov, potom jeden z možných zoznamov bude nasledujúci: vyhľadávanie informácií, systém vyhľadávania informácií, deskriptor, tezaurus, obrázok vyhľadávania v dokumente.

Podľa množiny týchto kľúčových slov (súbor deskriptorov) možno tento článok nájsť medzi všetkými článkami v knihe, ak do ľubovoľného IPS typu deskriptora zadáte jeho obsah článku po článku.

Všeobecná bloková schéma IPS typu deskriptora je znázornená na obrázku 1. Tento obvod má dva vstupy. Jeden po druhom sa dopĺňa informačné pole dokumentov uložených v systéme a druhý prijíma požiadavky používateľov.

1.2 Faktický IPS

Na rozdiel od IPS s grafikou dokumentov tento typ IPS neukladá dokumenty, ale fakty súvisiace s akoukoľvek oblasťou. Uložené fakty je možné získať z rôzne dokumenty. Napríklad dejiny 18. storočia je potrebné prepracovať na základe faktov, ktoré sú prepojené systémom rôznych vzťahov. Takáto sieť v IPS sa nazýva tezaurus predmetnej oblasti. Dotazy na faktografické IPS používajú tezaurus na nájdenie odpovedí na otázky. Vyhľadávanie sa vykonáva metódou vyhľadávania, podľa modelu široko používaného v znalostných bázach systémov umelej inteligencie.

Napríklad po prepracovaní histórie osemnásteho storočia je potrebné zhromaždiť všetky informácie o Kataríne II.

Informačné systémy faktografického typu sa organizáciou a fungovaním postupne približujú k rozvinutým databázam a poznatkom.

2. Vyhľadávací systém globálnej siete "Internet".


Nechcem sa dostať do voľnej prírody vnútornú prácu vyhľadávač (na elektronickej úrovni), pretože nespĺňa to ciele mojej práce a toto je podľa mňa práca programátorov najvyššej úrovne, o ktorú sa teraz snažím.

Chcem to rozobrať a dať na police, ako som pochopil technológiu získavania informácií a samotný mechanizmus získavania informácií.

2.1 Technológia vyhľadávania na internete


Samotná technológia vyhľadávania je na obrázku 2 zrozumiteľnejšia.

1) Na začiatok používateľ vyrieši taký problém, ktorý chce nájsť, a kde sa môže nachádzať.

2) Potom vstúpi na internet v bežnom okne Internet Explorer (Prehliadač) (obr. 3). Ak používateľ pozná názov stránky, na ktorej sa nachádzajú informácie, ktoré ho zaujímajú, tak jednoducho nahlási svoje meno a zadá ho.

Príklad. Používateľ chce poznať distribúciu filmu pre dnešok a navštívi stránku film.ru (obr. 3).

Toto je najprimitívnejší spôsob vyhľadávania informácií na internete a toto vyhľadávanie môže skončiť.

informácie o filme, ktorý už dávno nie je v kinách, napríklad nájdite film „Brother-2“ len v okne



Vyhľadávanie sa vykonáva automaticky na základe počtu slov nájdených na serveri. Do jeho počítača sa prenesie prvá skupina nájdených odkazov s najlepšími výsledkami z hľadiska počtu výskytov hľadaných slov.

Často sa spolu s odkazom môžu zobraziť stručné informácie o dokumente. Ak medzi nájdenými dokumentmi nie sú žiadne potrebné dokumenty, môžete zobraziť nasledujúcu skupinu - celkový počet Dokumenty sa zvyčajne počítajú na tisíce. Ak chcete prejsť na server, kde sa nachádzajú nájdené informácie, stačí kliknúť na odkaz vo výsledku vyhľadávania.

Toto je najprimitívnejší spôsob vyhľadávania informácií na internete a toto vyhľadávanie môže skončiť.

Existujú aj intra-site (lokálne) vyhľadávače.

Príklad. Na tom istom film.ru je možnosť prezerania

informácie o filme, ktorý je dávno mimo kín, do

Napríklad nájdite film "Brother-2", dosť v okne

do vyhľadávania zadajte slovo Brother-2. (Obr.-3)

3) Ak používateľ nepozná názov stránky, na ktorej môže nájsť informácie, ktoré ho zaujímajú, potom sa uchýli k pomoci nejakého vyhľadávača. Sieť má značný počet systémy pomoci. Po zadaní zadaného servera dostane na obrazovke formulár žiadosti, do ktorého musí zadať informácie na vyhľadávanie. Zvyčajne vo formulári je možné obmedziť oblasť vyhľadávania (napríklad podľa témy). Môže zadať požadovaný výraz, definovať rozsah vyhľadávania a pokúsiť sa získať odpoveď.

Vyhľadávanie sa vykonáva automaticky na základe počtu slov nájdených na serveri. Do jeho počítača sa prenesie prvá skupina nájdených odkazov s najlepšími výsledkami z hľadiska počtu výskytov hľadaných slov. Často sa spolu s odkazom môžu zobraziť stručné informácie o dokumente. Ak medzi nájdenými dokumentmi nie sú žiadne požadované dokumenty, potom je možné zobraziť nasledujúcu skupinu - celkový počet dokumentov sa zvyčajne pohybuje v tisícoch. Ak chcete prejsť na server, kde sa nachádzajú nájdené informácie, stačí kliknúť na odkaz vo výsledku vyhľadávania.

Pri hľadaní dvojice kľúčových slov sa zvyčajne vrátia desiatky tisíc odkazov na dokumenty obsahujúce tieto výrazy. Takýto objem výsledkov vám zriedka umožňuje efektívne nájsť „perlu“ medzi materiálmi, ktoré nesúvisia s témou vyhľadávania. Čo sa dá poradiť?

Po prvé, používateľ musí zúžiť oblasť vyhľadávania. Skúste zistiť, na serveroch ktorého profilu, v ktorej krajine atď. s najväčšou pravdepodobnosťou nájdete zaujímavé materiály. Zamyslite sa nad tým, aké ďalšie kľúčové slová môžu charakterizovať vyhľadávané objekty, použite viacero kľúčových slov.

Ak hľadaný objekt špecifikuje niekoľko výrazov, vyhľadávací nástroj vyhľadá výskyt každého slova v dokumente nezávisle. To znamená, že ako výsledok vyhľadávania môžete získať dokument, ktorý obsahuje iba jedno slovo, ale niekoľkokrát. Preto pri definovaní pojmov, pre ktoré sa vyhľadávanie vykonáva, je možné a potrebné použiť logické operácie.

Napríklad zadanie slovo_1&slovo_2 vás prinúti hľadať tie stránky, na ktorých je použitý prvý aj druhý výraz.

Po druhé, je potrebné vykonať vyhľadávanie na všetkých známych vyhľadávačoch. Každý z nich používa svoju vlastnú, trochu inú technológiu vyhľadávania. Preto úplne podobné vyhľadávania môžu viesť k odlišným výsledkom. Väčšina vyhľadávačov je zadarmo, takže vám nič nebráni v tom, aby ste hľadali toľko, koľko potrebujete.

Po tretie, veľmi často môže priniesť výsledky vyhľadávanie dokumentov na základe možných odkazov na ne.

Používateľ by sa mal pokúsiť určiť, ktoré známe dokumenty môžu obsahovať odkazy na jeho témy. A to už prostredníctvom hypertextových odkazov v dokumentoch k požadovanému zdroju. Často je tento spôsob účinný. Pokúste sa nájsť organizácie (servery WWW), ktoré majú profil podobný téme vyhľadávania. Niekedy sa prostredníctvom odkazov v dokumentoch týchto serverov dostanete k potrebným materiálom.

Po štvrté, skúste nájsť konferenciu na podobnú tému, t.j. stačí ísť na nejaký CHAT. Napríklad na www.anekdotov.net.ru. Často otázka „hodená“ do telekonferencie poskytuje dostatok podkladov.

A na záver sa nezabudnite opýtať svojich priateľov. Môžu navrhnúť neočakávané riešenia.

V každom prípade sa musíte naladiť na skutočnosť, že hľadanie môže trvať pomerne dlho a vyžadovať od neho značné úsilie.

Príklad. Používateľ zadá vyhľadávací nástroj Yandex.ru a do vyhľadávacieho okna zadá slovo Brat-2, potom sa vyhľadá všetko, čo môže byť nejako spojené s týmto slovom. Yandex vám odporučí, aby ste sa obrátili na mnohé stránky vrátane film.ru a priamo na stránku o samotnom filme. (obr.-4)

2.2 Ako fungujú vyhľadávače

Vyhľadávací nástroj zvyčajne hľadá požadované informácie v troch fázach:

I) Fáza: Robot (agent, pavúk alebo prehľadávač) sa pohybuje po webe a zhromažďuje informácie.

II) Etapa: Všetky informácie zozbierané robotmi vstupujú do databázy vo forme odkazov – indexované.

III) Fáza: Spustí sa vyhľadávač, ktorý používatelia používajú ako rozhranie na interakciu s databázou. tie. došlo k problému s databázou hypertextových odkazov a potom nasleduje obyčajné vymenovanie potrebných odkazov používateľom.

Tieto fázy sú jasne vyjadrené v práci vývojového diagramu (obr. 2)

Prvé dva sú prípravné a pre používateľa neviditeľné.

Pozrime sa podrobnejšie na fázy vyhľadávania informácií

Vyhľadávač:

I) Etapa. Vyhľadávač zhromažďuje informácie z World Wide Web. Na toto použitie špeciálne programy, ako v prehliadači. Sú schopní skopírovať danú webovú stránku na vyhľadávací indexový server, naskenovať ju, nájsť všetky hypertextové odkazy, ktoré obsahuje, sledovať adresy URL, ktoré obsahujú, skopírovať tam nájdené zdroje, znova vyhľadať hypertextové odkazy, ktoré obsahujú atď. . Ide o špeciálne programy, ako sú agenti, pavúky, prehľadávače a roboty, ktoré vyhľadávajú stránky na webe, extrahujú hypertextové odkazy na týchto stránkach a automaticky indexujú nájdené informácie na vytvorenie databázy. Každý vyhľadávací nástroj má svoj vlastný súbor pravidiel, ktoré určujú, ako sa dokumenty zbierajú. Niektorí sledujú každý odkaz na každej stránke, ktorú nájdu, a potom postupne skúmajú každý odkaz na každej z nových stránok atď. Niektorí ľudia ignorujú odkazy, ktoré vedú k grafickým a zvukovým súborom, animačným súborom; ostatní sú poučení, aby si najprv pozreli najobľúbenejšie stránky.

Agenti - najinteligentnejší z vyhľadávacích nástrojov. Môžu robiť viac než len hľadať: môžu zanechať správu o vašej návšteve na stránke. Už teraz môžu vyhľadávať konkrétne stránky a vracať zoznamy stránok zoradené podľa ich návštevnosti. Agenti môžu spracovávať obsah dokumentov, vyhľadávať a indexovať iné typy zdrojov, nielen stránky. Môžu byť tiež naprogramované tak, aby extrahovali informácie z už existujúcich databáz. Akékoľvek informácie agenti indexujú, odovzdajú ich späť do databázy vyhľadávacieho nástroja.

Všeobecné vyhľadávanie informácií na webe vykonávajú programy známe ako pavúky. Pavúky nahlásiť obsah nájdeného dokumentu, indexovať ho a extrahovať súhrnné informácie. Prezerajú si aj názvy, niektoré odkazy a zaindexované informácie posielajú do databázy vyhľadávača.

Crawlery pozrite sa na hlavičky a vráťte iba prvý odkaz.

Roboty je možné naprogramovať tak, aby sledovali rôzne odkazy rôznych hĺbok vnorenia, vykonávali indexovanie a dokonca kontrolovali odkazy v dokumente. Vzhľadom na svoju povahu sa môžu zaseknúť v cykloch, takže na sledovanie odkazov potrebujú značné webové zdroje. Existujú však metódy navrhnuté tak, aby zabránili robotom vyhľadávať stránky, ktorých majitelia si neželajú, aby boli indexované.

Roboty načítať a indexovať rôzne druhy informácie. Niektoré napríklad indexujú každé jedno slovo v dokumente stretnutia, zatiaľ čo iné indexujú iba 100 najdôležitejších slov v každom, indexujú veľkosť dokumentu a počet slov, nadpis, nadpisy a podnadpisy atď.

Typ zostaveného indexu určuje, aký druh vyhľadávania môže vyhľadávací nástroj vykonávať a ako budú výsledné informácie interpretované.

Ľudia, ktorí chcú poskytovať informácie širokej verejnosti alebo ktorí chcú zvýšiť návštevnosť svojej stránky, vložia stručné úryvky o tom, čo táto stránka je, priamo do indexu a vyplnia špeciálny formulár pre sekciu, o ktorej si myslia, že sa na ňu bude odkazovať. vyhľadávací robot a stiahnuť túto stránku do databázy a poskytnúť ju nejakému používateľovi.

Keď chce niekto nájsť informácie dostupné na internete, navštívi stránku vyhľadávacieho nástroja a vyplní formulár s podrobnými informáciami, ktoré potrebuje. Tu môžete použiť kľúčové slová, dátumy a ďalšie kritériá. Kritériá vo vyhľadávacom formulári sa musia zhodovať s kritériami, ktoré používajú roboty pri indexovaní informácií, ktoré nájdu pri navigácii na webe.

Indexované informácie sa odosielajú do databázy vyhľadávacieho nástroja rovnakým spôsobom, ako je opísané vyššie.

II) Etapa: Po skopírovaní vyhľadaných webových zdrojov na server vyhľadávacieho nástroja začína druhá fáza práce - indexovanie. Pri indexovaní sa vytvárajú špeciálne databázy, pomocou ktorých je možné zistiť, kde a kedy sa konkrétne slovo na internete vyskytlo. Indexovaná databáza je druh slovníka. Je to potrebné, aby vyhľadávač mohol veľmi rýchlo reagovať na požiadavky používateľov.

Databáza vyhľadá predmet požiadavky na základe informácií uvedených vo vyplnenom formulári a vypíše príslušné dokumenty pripravené databázou. Na určenie poradia, v ktorom sa bude zoznam dokumentov zobrazovať, databáza používa algoritmus hodnotenia. V ideálnom prípade budú dokumenty, ktoré sú najviac relevantné pre dopyt používateľa, umiestnené na prvom mieste v zozname.

"Operácia triedenia získaných výsledkov sa nazýva klasifikácia."

Rôzne vyhľadávače používajú rôzne hodnotiace algoritmy, ale základné princípy na určenie relevantnosti sú nasledovné:

Počet dopytovaných slov v textovom obsahu dokumentu (t. j. v html kóde).

Značky, v ktorých sa tieto slová nachádzajú.

Umiestnenie hľadaných slov v dokumente.

Podiel slov, vzhľadom na ktoré sa určuje relevantnosť, na celkovom počte slov v dokumente.

Tieto zásady platia pre všetky vyhľadávače. A tie nižšie používajú niektorí, ale dosť známi (ako AltaVista, HotBot).

Čas – ako dlho je stránka v databáze vyhľadávača. Na prvý pohľad to vyzerá ako dosť nezmyselný princíp. Ale ak sa nad tým zamyslíte, koľko stránok existuje na internete, ktoré fungujú maximálne mesiac! Ak stránka existuje už dlho, znamená to, že majiteľ je v tejto téme veľmi skúsený a používateľ je vhodnejší na stránku, ktorá už pár rokov vysiela do sveta o pravidlách správania sa pri stole. rokov ako ten, ktorý sa objavil pred týždňom s rovnakou témou.

Citačný index – na koľko odkazov táto strana vedie z iných stránok zaregistrovaných v databáze vyhľadávača. Databáza vygeneruje podobne zoradený zoznam HTML dokumentov a vráti ho používateľovi, ktorý zadal požiadavku. Vyberajú si aj rôzne vyhľadávače rôznymi spôsobmi zobraziť výsledný zoznam - niektoré zobrazujú iba odkazy; iné vytlačia odkazy s niekoľkými prvými vetami obsiahnutými v dokumente alebo názvom dokumentu spolu s odkazom.

III) Etapa. Požiadavka používateľa je spracovaná a výsledky vyhľadávania sa mu vrátia vo forme zoznamu hypertextových odkazov. Potom prichádza na rad používateľská úloha prepracovať prepojenia, ktoré poskytuje databáza. Keď klikne na odkaz na jeden z dokumentov, o ktorý má záujem, tento dokument si vyžiada server, na ktorom sa nachádza, ak ho informácie používateľa na tejto stránke neuspokoja, klikne na iný odkaz. Táto fáza môže byť oneskorená a môže byť pre používateľa najťažšia.


3. Vyhľadávače

Na internete je množstvo vyhľadávačov (vyhľadávačov), majú rôzne typy, každý má svoje výhody a nevýhody. Používateľa vždy prekonajú také otázky: ako hľadať na internete, ktoré auto je lepšie. Pokúsim sa teda odpovedať na tieto otázky.

3.1 Ako vyhľadávať na webe

Pri vyhľadávaní na internete sú dôležité dve zložky – úplnosť (nič sa nestratí) a presnosť (nenájde sa nič navyše). Zvyčajne sa to všetko nazýva jedným slovom - relevantnosť, to znamená zhoda odpovede na otázku.

1. Pokrytie a hĺbka. Pokrytie sa vzťahuje na objem databázy vyhľadávacieho nástroja: ktorý sa meria tromi ukazovateľmi - celkovým množstvom indexovaných informácií, počtom jedinečných serverov a počtom jedinečných dokumentov. Hĺbka znamená, či existuje obmedzenie

počet stránok alebo hĺbka vnorenia adresárov na jednom serveri.

Ako skontrolovať: Niektoré stroje píšu štatistiky robotov na svojich webových stránkach. Môžete si to však skontrolovať sami - musíte si nastaviť niekoľko vyhľadávacích dopytov pozostávajúcich z jedného slova (aby sa vylúčil vplyv jazyka dopytu vrátane rôznych interpretácií priestoru) a zároveň sa pozrieť na štatistiku výsledkov vydaných spoločnosťou stroj - zvyčajne na začiatku zoznamu je uvedené, koľko všetkých dokumentov sa našlo. Okrem toho, že slová by mali byť z rôznych oblastí, je dobré vziať aj slová rôznej „váhy“ – zriedkavé, „stredné“ a „ťažké“ (časté), a porovnávať počet nájdených. Najmä ťažké slová testujú úplný text (indexovanie všetkých slov v dokumente) vyhľadávacieho nástroja.

Je ťažšie skontrolovať hĺbku chôdze robota - na to musíte vziať niektoré stránky, napríklad s rozvetvenou štruktúrou archívu, a skontrolovať, či sú dokumenty indexované, ku ktorým sa dostanete napríklad iba 6 kliknutiami .

2. Rýchlosť prehľadávania a relevantnosť odkazov.

Rýchlosť prechodu webu ukazuje, ako rýchlo sa indexuje novo pridaný zdroj a ako rýchlo sa aktualizujú informácie v databáze. Dôležitým ukazovateľom kvality vyhľadávača (jeho robota) je nielen „zabavenie“ nových území: ale aj

stav sledovania už pokrytý. Servery miznú a objavujú sa, stránky na nich sa aktualizujú. Odkazy, ktoré vyhľadávač uvádza v zozname nájdených položiek, musia po prvé existovať a po druhé ich obsah musí zodpovedať požiadavke.

Ako skontrolovať: Objektívne informácie možno získať analýzou protokolov servera – robot vyhľadávača je zvyčajne reprezentovaný názvom svojho stroja (alebo podobným), takže môžete vidieť, ako často server navštevuje, koľko stránok si prezerá atď. Bohužiaľ, zvyčajne je na štúdium k dispozícii iba denník vašej stránky, takže zostáva experimentálna metóda.

Ak chcete určiť rýchlosť prehľadávania, musíte niekde vytvoriť stránku s textom, pridať ju do vyhľadávačov a zistiť, ako rýchlo sa začne zobrazovať. Alebo zmeňte existujúcu stránku. Ak chcete zistiť relevantnosť odkazov - skontrolujte dokumenty aspoň na prvej strane zoznamu nájdeného niekoľkými dopytmi. Hlásenie „Nenájdené“ znamená, že dokument už neexistuje.

3. Kvalita vyhľadávania(subjektívny ukazovateľ).

Každý vyhľadávací nástroj má svoj vlastný algoritmus na triedenie výsledkov vyhľadávania. Čím bližšie k hornej časti zoznamu je požadovaný dokument, tým lepšie funguje relevantnosť.

Ako skontrolovať: Len cez experiment. Na porovnanie sa odporúča zadať požiadavky rôznych dĺžok. Môžete tiež použiť jazyk dopytu, zatiaľ čo tí, ktorí sa zdráhajú čítať popis, môžu použiť stránku s rozšíreným dopytom ("rozšírené vyhľadávanie" v Aport a Yandex, "podrobný dopyt" v Rambleri - možnosti prekladu do ruštiny "rozšírené vyhľadávanie").

Okrem relevantnosti existujú aj dôležité užívateľské charakteristiky.

1. Rýchlosť vyhľadávania. Ak vyhľadávač reaguje pomaly, je neefektívne s ním pracovať. Je potrebné dodať, že rýchlosť, ktorú používateľ vidí, závisí nielen od samotného vyhľadávača, ale aj od internetových kanálov.

Ako skontrolovať: Experimentálne – treba hľadať dopyty rôznej dĺžky, rôznej „ťažkosti“ slov a v rôznych časoch dňa (zaťaženie servera je počas dňa výrazne nerovnomerné, vrchol je asi tri až štyri hodiny poobede).

2. Možnosti vyhľadávania (práca s jazykom dokumentu, jazykom dotazu).Ďalším bodom porovnania je, čo presne a ako vyhľadávač prispieva do indexu. Fulltextový vyhľadávač indexuje všetky slová v texte viditeľnom pre používateľa. Prítomnosť morfológie umožňuje nájsť požadované slová vo všetkých deklináciách alebo konjugáciách. Okrem toho v jazyku HTML existujú značky, ktoré dokáže spracovať aj vyhľadávač (názvy, odkazy, popisky obrázkov atď.). Takmer všetky stroje majú dotazovací jazyk vo forme štandardných logických operátorov (AND, OR, NOT). Niektorí ľudia sú schopní vyhľadávať frázy alebo slová v danej vzdialenosti – to je často dôležité na dosiahnutie rozumného výsledku. Ďalšia funkcia je vyhľadávanie v zónach dokumentu – nadpisy, odkazy, kľúčové slová (META KEYWORDS) atď. Ďalšou vlastnosťou dopytovacieho jazyka je dopyt v prirodzenom jazyku, ktorý nevyžaduje znalosť operátorov.

Ako skontrolovať: Zvyčajne sú tieto informácie zverejnené na serveri vyhľadávača (v Pomocníkovi "e). Odporúča sa však skontrolovať skutočné požiadavky, pretože niekedy sa to, čo chcete, vydáva za platné.

3. Dodatočné vybavenie. Toto sú ďalšie funkcie, ktoré vyhľadávač poskytuje používateľom. To zahŕňa všetky druhy možností vyhľadávania (špecializované stránky, vyhľadávanie podobných dokumentov, obmedzenie oblasti vyhľadávania) a zoznam nájdených serverov a vyhľadávanie podľa dátumov a serverov a pohodlné rozhranie vyhľadávacieho nástroja a možnosť jeho prispôsobenia.

Ako skontrolovať: Informácie môžu byť čiastočne zverejnené na serveri vyhľadávača, ale najlepšie je vyskúšať si tieto funkcie sami.

Vyhľadávače sa skladajú z vyhľadávanie v adresároch a vyhľadávacích indexoch, veľa vyhľadávacích indexov obsahuje aj adresáre. Zvážme ich.

3.1 Vyhľadávanie v adresároch

Každá kniha začína obsahom a končí abecedným indexom. Napriek tomu, že sa v knihe nachádzajú na rôznych miestach a vyzerajú úplne inak, majú rovnakú úlohu: pomôcť nájsť v knihe práve tú časť, ktorá je momentálne potrebná. Obsah je príkladom katalogizácie.

Keď si človek vyberie tému, ktorá je pre neho zaujímavá, nájde na nej číslo strany, kde je táto téma odhalená. Príkladom indexovania je abecedný index (v angličtine je index index). Osoba nájde požadovaný výraz v indexe a dostane číslo strany, na ktorej sa vyskytuje.

Adresáre sa líšia od vyhľadávačov. Adresáre sú kolekciou stránok zhromaždených v tematických nadpisoch. Tieto nadpisy môžu byť zase rozdelené na podnadpisy, ktoré môžu mať aj menšie podadresáre atď.

Adresáre z pohľadu používateľa – rovnaké vyhľadávače. Ale teraz sa tieto katalógy nenapĺňajú „robotmi“, ako na značkách, ale najviac živými ľuďmi. To je pre používateľov veľmi dobré, pretože poskytuje relevantnejšie výsledky v porovnaní s vyhľadávacími nástrojmi. Čiastočne index vyhľadávania obsahuje aj katalóg, je prezentovaný vo forme obsahov (hyperlinkov) na najpopulárnejšie témy.

Pri katalogizácii zdroja si ho skúsený editor dôkladne prezrie, určí, do ktorej oblasti znalostí zdroj patrí, nastaví jeho kategóriu v tejto oblasti a zakatalogizuje zdroj. Najväčším internetovým adresárom je Yahoo (www.yahoo.com). Zamestnáva viac ako 150 kvalifikovaných redaktorov. Je to veľká organizácia, ale jej úsilie stačí len na udržanie katalógu s približne 1 miliónom zdrojov. Ďalšie rozširovanie je obmedzené potrebou


v ruskej časti internetu v tabuľke 1. [Príloha]

3.3 Vyhľadávacie indexy

Vyhľadávacie indexy sú automatizované systémy. Sú schopní fungovať bez ľudského zásahu, a preto sú ich znalosti o skutočných zdrojoch webu oveľa (niekoľko rádov) väčšie ako v prípade adresárov. Počet indexovaných webových stránok možno merať v stovkách miliónov.

Práca indexu vyhľadávania prebieha v troch etapách, ktoré sú uvedené v odseku 2.2.

Konkrétne odporúčania pre výber indexu vyhľadávania veľmi rýchlo starnú. Situácia na internete sa nám mení priamo pred očami. Neprejde ani šesť mesiacov, aby sa vo vyhľadávačoch niečo nezmenilo. Systém, ktorý bol včera najlepší, nemusí byť najlepší dnes a zajtra veľmi zlý. Popularita je zároveň ošemetná vec. Je ťažké zarobiť, ale potom to žije dlho. V dôsledku toho sa veľmi často stretávame so situáciou, kedy najobľúbenejšie zďaleka nie je najlepší systém. Pomôžeme čitateľovi naučiť sa, ako nezávisle kontrolovať rôzne vyhľadávacie nástroje a vybrať tie, ktoré poskytujú najlepšie výsledky pre prácu. Pri kontrole nie je veľkosť indexu vyhľadávania kritická. Nepotrebujeme predsa milióny odkazov, ale len dva-tri, no najlepšie tie najlepšie. Preto je dôležité nielen to, koľko webových stránok vyhľadávač indexoval, ale aj kedy to urobil naposledy, ako často neskôr kontroloval relevantnosť odkazov a ako správne zobrazuje výsledky vyhľadávania.

Porovnávací prieskum vyhľadávačov.

Nie je potrebné podrobne hovoriť o tom, ako používať vyhľadávacie adresáre. Keďže stačí prejsť na stránku, vybrať kategóriu, ktorá vás zaujíma, vybrať v nej sekciu atď., kým sa neotvorí zoznam konkrétnych odkazov.

Je oveľa zaujímavejšie zvážiť metódy používania ukazovateľov vyhľadávania, najmä preto, že tieto metódy sa líšia pre rôzne ukazovatele. Predtým, ako pristúpim k štúdiu konkrétneho systému, je potrebné zvážiť všeobecné pojmy, ktoré sa vzťahujú rovnako na všetky vyhľadávacie indexy, ako príklad zvážim také populárne a podľa môjho názoru najpohodlnejšie vyhľadávacie indexy ako Yandex a Rambler. .

A začnem pohľadom na hlavné typy vyhľadávania. V zásade existujú len štyri typy vyhľadávania.

Všetky vyhľadávacie indexy implementujú niekoľko vyhľadávacích algoritmov. Patria sem: jednoduché vyhľadávanie, rozšírené vyhľadávanie, kontextové vyhľadávanie a špeciálne vyhľadávanie.

Jednoduché vyhľadávanie. Pri jednoduchom vyhľadávaní sa do poľa dotazu zadá jedno alebo viac slov, ktoré môžu charakterizovať obsah dokumentu. Ak je toto slovo jedno, potom sa ako odpoveď spravidla uvádza taký veľký počet odkazov, s ktorými nie je jasné, čo robiť. Ak zadáte viacero slov, výsledok závisí od spôsobu zadávania týchto slov a to zase závisí od konkrétneho používaného systému. Jednoduché techniky vyhľadávania v rôznych vyhľadávacích nástrojoch sú spravidla odlišné a pred ich použitím je vhodné prečítať si pokyny. Jednoduché vyhľadávanie v Rambleri je prezentované na

obr.-8. Keď zadáte frázu: V dome Oblonského je všetko pomiešané, indexy vyhľadávania poskytnú tieto výsledky: Rambler 9 (dokumenty)

Yandex 2400 (dokumenty)

Pokročilé vyhľadávanie. Rozšírené vyhľadávanie vždy zahŕňa dopyt zo skupiny slov. Pri rozšírenom vyhľadávaní je vo väčšine prípadov povolené spájať kľúčové slová s logickými operátormi AND (AND), OR (OR), NOT (NOT) a inými. Hlavnou výhodou pokročilého vyhľadávania je to, že podľa pravidiel pre písanie kľúčových slov a logických operátorov rôznych systémov buď rovnaké alebo veľmi podobné. Preto, keď si raz osvojíte techniky pokročilého vyhľadávania, môžete ich použiť kdekoľvek. Je len potrebné najprv prepnúť systém do požadovaného režimu (Obr. 9.)

Keď zadáte frázu: V dome Oblonského je všetko zmiešané, pri rozšírenom vyhľadávaní indexy vyhľadávania poskytnú tieto výsledky: Rambler 9 (dokumenty)

Yandex 2400 (dokumenty)

Obr-8 Jednoduché vyhľadávanie v Rambleri


Obr-9 Prepnutie systému do režimu rozšíreného vyhľadávania.

Kontextové vyhľadávanie. Ide o veľmi užitočný typ vyhľadávania, ktorý, žiaľ, nie je implementovaný vo všetkých indexoch vyhľadávania. Zvlášť treba oceniť systémy, ktoré to podporujú. Kontextové vyhľadávanie vyžaduje presnú zhodu frázy alebo skupiny slov, ako napríklad „Všetko

pomiešali v dome Oblonských. Vo väčšine vyhľadávacích nástrojov, ktoré obsahujú túto metódu, by mala byť kľúčová fráza uzavretá v úvodzovkách: „Všetko bolo pomiešané v dome Oblonského.“ (Obr. 10).

Keď zadáte frázu: „V dome Oblonského je všetko zmiešané“, indexy vyhľadávania poskytnú nasledujúce výsledky:

Rambler 0 (dokumenty)

Yandex 8 (dokumenty)

Obr-10. Kontextové vyhľadávanie v RAMDLER.RU


Špeciálne vyhľadávanie.Ďalšie informácie sa vyhľadávajú pomocou špeciálnych vyhľadávacích príkazov. Takéto príkazy vám napríklad umožňujú určiť, ako často existujú hypertextové odkazy smerujúce na zdroj na webe, môžete ich použiť na nájdenie kľúčových slov,

zahrnuté v nadpisoch webových stránok atď. Špeciálne vyhľadávacie príkazy v rôznych vyhľadávacích nástrojoch sú spravidla odlišné.

Tiež je potrebné zvážiť všeobecné pravidlá hľadať záznamy príkazov.


Všeobecné pravidlá pre písanie vyhľadávacích príkazov:

Slová oddelené medzerami

Povedzme, že používateľ potrebuje nájsť webovú stránku, ktorá hovorí niečo o operačnom systéme. Microsoft Windows. Do vyhľadávacieho poľa je logické zadať slová Microsoft Windows a čakať na výsledok. Výsledok však môže odradiť. Niektoré vyhľadávače rozumejú takejto položke ako Microsoft A Windows – poskytnú to, čo používateľ hľadá. Iní môžu túto položku chápať ako Microsoft ALEBO Windows – potom budú prehľadané všetky webové stránky, ktoré obsahujú prvé slovo, druhé slovo alebo oboje. Používateľa, samozrejme, zaujímajú len tie stránky, na ktorých sa obe slová vyskytujú spolu, no doslova sa zahrabú medzi ostatné stránky, ktoré nepotrebuje.

Keď začínate s neznámym systémom, mali by ste začať tým, že skontrolujete, ako pracuje so skupinami kľúčových slov. Najprv sa zadá jedno slovo: Microsoft. Uvidíte, koľko výsledkov systém poskytne.

Rambler 28184 (dokumenty)

Yandex 1048379 (dokumenty)

Potom sa zadá druhé slovo: Windows. Množstvo sa znova skontroluje. Obidve slová sú zadané: Microsoft Windows.

Keď zadáte frázu: Microsoft, indexy vyhľadávania vrátia nasledujúce výsledky:

Rambler 6641 (dokumenty)

Yandex 259276 (dokumenty)

Ak je počet nájdených webových stránok väčší ako v prvom a druhom prípade, potom systém usúdi, že kľúčové slová súvisia vzťahom OR (množiny sú kombinované). Ak je výsledok menší ako v každom z prvých pokusov, potom systém použije vzťah AND (množiny sa pretínajú). V oboch prípadoch sa budete musieť zoznámiť informácie o pozadí naučiť sa, ako dosiahnuť opačný výsledok. Napríklad všetky hlavné ruské vyhľadávacie nástroje štandardne vkladajú operátor And medzi slová, hoci systém Yandex má svoje vlastné charakteristiky (pozri tabuľku 2). Predpokladá sa, že tieto dve slová by nemali byť súčasne prítomné v dokumente, ale v jednej vete. Ak stačí, že sú v dokumente uvedené, pred každým slovom musí byť znamienko<+>. Zároveň vzniká inverzný problém: ako zabezpečiť, aby sa hľadali dokumenty obsahujúce jedno z daných kľúčových slov, teda ako nastaviť vzťah OR?

Rambler: Microsoft OR Windows; (50986 dokumentov)

"Yandex": Microsoft | okná; (2034641 dokumentov)

Úloha veľkých písmen

Vo väčšine vyhľadávačov sa „chlieb“ nerovná „CHLIEB“, ale „CHLIEB“*„chlieb“. Všeobecným pravidlom je, že ak klient zadal malé písmená, vyhľadajú sa malé aj veľké písmená, ale ak klient použil veľké písmená, potom sa presne zhodujú iba veľké písmená. Klasickým príkladom je Červená čiapočka. Ak sa zadajú týmto spôsobom s použitím veľkých písmen, potom sa budú hľadať iba dokumenty, v ktorých

kombinácia Červená čiapočka. Ak sú však kľúčové slová napísané červenými čiapočkami, nájde sa viac dokumentov. Cez výberové sito prejdú všetky dokumenty obsahujúce kombinácie Červená čiapočka, Červená čiapočka, Červená čiapočka a Červená čiapočka. Nezneužívajte preto použitie veľkých písmen v dopyte a používajte ich až vtedy, keď je výsledok absolútna istota.

Niektoré vyhľadávače sú však iné. Takže napríklad v systéme Rambler sa pri indexovaní všetky veľké písmená násilne „zmenšujú“ na malé. To znamená, že v tomto systéme je zbytočné používať v dotaze veľké písmená.

Keď zadáte frázu: Červená čiapočka, indexy vyhľadávania poskytnú nasledujúce výsledky:

Rambler 2921 (dokumenty)

Yandex 16458 (dokumenty)

Úloha vyhradených slov

Vyhradené slová sú slová, na ktoré sa pri vybavovaní žiadosti neprihliada. Počas indexovania webových stránok ich program vyhodí z textu, čím sa výrazne zníži veľkosť ukazovateľov a skráti sa čas vyhľadávania. Zvyčajne na vyhradené slová

neinformatívne slová zahŕňajú: predložky, spojky, zámená, členy a iné slová malého rozsahu. Ak teda napríklad v systéme Yandex vyhľadáte frázu „Všetko je pomiešané v dome Oblonských“, vyhľadajú sa aj dokumenty obsahujúce Čo je pomiešané v dome Oblonských? - a kde sa to pomiešalo? V dome Oblonských? Niektoré systémy môžu vyhradiť slová, ktoré sa vyskytujú výnimočne často, a preto nie sú informatívne. Ak je systém zameraný napríklad na vyhľadávanie kníh, tak slovo kniha preň nie je informatívne. Slovo auto je neinformatívne pre vyhľadávač zaoberajúci sa automobilovými záležitosťami a slová počítač a internet nie sú informatívne pre systémy orientované na vyhľadávanie informácií o výpočtovej technike. Pri kontextovom vyhľadávaní je obzvlášť dôležité vziať do úvahy úlohu vyhradených slov. kontextové vyhľadávanie vyžaduje presnú zhodu medzi tým, čo si používateľ objednal, a tým, čo sa nachádza vo webových dokumentoch. Ak vyhľadávací nástroj „vyčistil“ webové dokumenty od vyhradených slov vo fáze indexovania, potom sa nedokáže vyrovnať s kontextovým vyhľadávaním, možno okrem „prezerania“ kópií webových stránok, ak nejaké má, ale to si vyžaduje veľa času. Preto je poctivé kontextové vyhľadávanie vo vyhľadávačoch zriedkavé. Napríklad v Rusku Yandex aj Rambler iba predstierajú, že poskytujú možnosť kontextového vyhľadávania, preto musí byť fráza, ktorú hľadáte, v úvodzovkách. Po niekoľkých jednoduchých testoch sa však dá ľahko uistiť, že v skutočnosti nejde o kontextové vyhľadávanie, ale vyhľadávanie až do rezervovaných slov. Príklad, keď dopyt „v dome Oblonských je všetko pomiešané“ vedie k výsledku Čo sa pomiešalo v dome Oblonských. V tabuľke 2 uvádzam porovnávací popis hlavných vyhľadávacích nástrojov (vyhľadávačov). [Príloha]


4. Porovnávacie charakteristiky dvoch vyhľadávačov na základeRambler. enaYandex. en


4.1 RAMBLER

Rambler.ru je historicky (pred objavením sa Yandexu) najpopulárnejším vyhľadávacím nástrojom v Rusku. Začal skôr ako ostatní a dlho bol lídrom vo veľkosti indexu vyhľadávania a kvalite vyhľadávacích služieb. Bohužiaľ, dnes sú tieto úspechy minulosťou. Hoci index vyhľadávania Rambler má veľkosť približne 12 miliónov webových stránok, v skutočnosti nebol dlho aktualizovaný a prináša zastarané výsledky. Dnes je Rambler populárny portál, najlepší klasifikačný a hodnotiaci systém v Rusku a reklamná platforma. (Obrázok 10)

Metódy vyhľadávania v systéme Rambler:

Jazyk vyhľadávania

Vyhľadávací dotaz môže pozostávať z jedného alebo viacerých slov, môže obsahovať interpunkčné znamienka. Môžete vytvárať jednoduché dotazy bez toho, aby ste sa museli zaoberať zložitosťou jazyka dotazov. Ak teda vstúpite vyhľadávací reťazec niekoľko slov bez interpunkčných znamienok a logických operátorov, budú nájdené dokumenty obsahujúce všetky tieto slová (a v obmedzenej vzdialenosti od seba).

Znalosť a správna aplikácia jazyka dopytov vyhľadávača však pomôže urýchliť a zefektívniť vyhľadávanie na Rambleri.

Registrovať

Vo všeobecnom prípade nezáleží na prípade písania vyhľadávacích slov a operátorov, to znamená, že dom a DOM, Not a nOt sú vnímané rovnako. A len niekedy, aby sa zlepšila kvalita vyhľadávania, register slov Vyhľadávací dopyt sa berie do úvahy.

Napríklad, ak dopyt pozostáva z dvoch, troch alebo štyroch slov, z ktorých každé je napísané veľkým písmenom, potom sa predpokladá vyhľadávanie podľa vlastného mena a limit vzdialenosti medzi slovami dopytu sa automaticky zmení z predvolenej hodnoty na ( n-1) * 2 , kde n je počet dopytovaných slov. To vám umožní nájsť skupinu dopytových slov, v rámci ktorej nie je viac ako jedno „extra“ slovo alebo interpunkčné znamienko, napríklad „Baden-Baden“, „A. Puškin“, „Fjodor Michajlovič Dostojevskij“.

Operátori

Viacslovný dotaz môže obsahovať operátory. Operátori sa v dokumente nehľadajú, slúžia len ako pokyny pre vyhľadávač. Všetky operátory vyhľadávačov sú binárne, to znamená, že majú ľavú a pravú časť, pričom každá z nich je zároveň dopytom (štandardne pozostáva z jedného slova). Zátvorky a úvodzovky sa používajú na zmenu rozsahu operátorov (zoskupenie viacerých dopytovacích slov do argumentu operátora). Dva dotazy spojené operátorom AND (logické AND) tvoria komplexný dotaz, ktorý uspokoja len tie dokumenty, ktoré súčasne uspokoja oba tieto dotazy. Inými slovami, dotaz „pes A mačka“ nájde iba dokumenty, ktoré obsahujú slovo „pes“ aj slovo „mačka“.

Komplexný dotaz pozostávajúci z dvoch dopytov spojených operátorom OR (logické OR) je splnený všetkými dokumentmi, ktoré vyhovujú aspoň jednému z týchto dvoch dopytov. Dotaz "pes OR mačka" nájde dokumenty, ktoré obsahujú aspoň jedno zo slov "pes" alebo "mačka" (alebo obe tieto slová spolu). Operátor NOT (logické AND-NOT) tvorí dotaz, na ktorý odpovedajú dokumenty, ktoré vyhovujú ľavej strane dopytu a nevyhovujú pravej. Napríklad vyhľadávanie „pes NIE mačka“ vráti všetky dokumenty, ktoré obsahujú slovo „pes“ a nie slovo „mačka“. Ak operátor nie je explicitne špecifikovaný, použije sa predvolený operátor AND: nájdu sa iba dokumenty obsahujúce všetky slová dopytu. Dotaz „technologický informačný kredit“ sa teda bude interpretovať ako „informácia A technológia A kredit“. Na stránke Rozšírené vyhľadávanie môžete zmeniť predvolený operátor na OR (hľadať slová dopytu: aspoň jedno).

Každý z operátorov má svoju skratku:

skratka operátora

Viacslovný dotaz preložený operátormi bude interpretovaný podľa ich priority. Operátory AND a NOT majú tradične vyššiu prioritu, takže viacslovný dopyt je najprv zoskupený podľa operátorov AND a NOT a až potom podľa operátorov OR. Poradie zoskupovania môžete zmeniť pomocou zátvoriek.

Citácie

Na vyhľadávanie úvodzoviek môžete použiť dvojité úvodzovky. Slová dopytu v dvojitých úvodzovkách sa v dokumentoch vyhľadávajú v presnom poradí a vo formách, v akých sa vyskytli v dopyte. Dvojité úvodzovky teda možno použiť aj na jednoduché vyhľadávanie slova v danom tvare (štandardne sa slová nachádzajú vo všetkých tvaroch). Napríklad dotazu „lietadlo „natankované“ pristávanie vyhovuje dokument obsahujúci text „...lietadlo pristálo a natankovalo...“ a nevyhovuje dokument obsahujúci „..lietadlo pristálo na doplnenie paliva... ".

Zátvorky

Pri konštrukcii dopytov sa niekedy stáva, že je potrebné spojiť dopytové slová do skupín, ktoré budú argumentmi nejakého operátora. Takéto skupiny sú uvedené v zátvorkách. Časť dotazu v zátvorkách je sama o sebe dotazom a podlieha pravidlám jazyka dotazu. Zátvorky

umožňuje vytvárať vnorené dotazy a odovzdávať ich operátorom ako argumenty, ako aj prepísať predvolenú prioritu operátorov. Ak je dotaz bez zátvoriek „autolietadlo | letisko“ ekvivalentný dotazu „auto A lietadlo ALEBO letisko“ a podľa priorít operátorov znamená „nájsť dokumenty obsahujúce buď slová „auto“ a „lietadlo“ alebo slovo letisko , potom je dotaz „auto (lietadlo | letisko)“ ekvivalentom „auto A (lietadlo OR letisko)“, čo znamená „nájsť dokumenty obsahujúce slovo „auto“ a jedno zo slov „lietadlo“ alebo „letisko““ .

Metaznaky

Rambler zatiaľ nepodporuje vyhľadávanie reťazcov pomocou metaznakov ("*", "?"), ktoré sa zvyčajne používajú vo význame "akýkoľvek podreťazec" a "ľubovoľný jeden znak". Títo operátori sú však vyhradení na podobné budúce použitie.

Použitie dotazovacieho jazyka

Každá požiadavka adresovaná vyhľadávaču Rambler je spracovaná v súlade s pravidlami jazyka dopytu. S niektorými slovami a symbolmi sa zaobchádza ako s operátormi dopytovacieho jazyka a spracovávajú sa špeciálnym spôsobom. Dopytovací jazyk v skutočnosti popisuje určitý vzorec, ktorý sa používa pri vyhľadávaní – každý z dokumentov je s ním „spárovaný“ a výsledkom vyhľadávania sú len tie dokumenty, ktoré mu vyhovujú. Napríklad dotazu „lietadlo“ vyhovujú všetky dokumenty, v ktorých sa slovo „lietadlo“ vyskytuje aspoň raz v akejkoľvek forme. Žiadosť pozostávajúca z niekoľkých slov je uspokojená dokumentmi obsahujúcimi každé z týchto slov v akejkoľvek forme (za určitých podmienok). Otázka, či dokument zodpovedá zložitejšiemu dotazu, je určená logikou operátorov a konštrukcií dotazovacieho jazyka.

Morfológia

Pre každé slovo dotazu sa vyhľadávanie vykonáva s prihliadnutím na pravidlá skloňovania príslušného jazyka. Rambler rozumie a rozlišuje slová ruského a anglického jazyka - v predvolenom nastavení sa vyhľadávanie vykonáva vo všetkých formách slova. Napríklad pri vyhľadávaní slova „osoba“ nájdete aj dokumenty obsahujúce slová „osoba“, „osoba“, „osoba“ a dokonca aj „ľudia“. Ak chcete vyhľadať iba jeden konkrétny tvar slova, musíte ho vložiť do úvodzoviek alebo použiť vyhľadávanie presnej frázy v rozšírenom vyhľadávaní.

Zastavte slová

Niektoré slová a symboly sú z dotazu predvolene vylúčené z dôvodu ich nízkeho informačného obsahu. Ide o takzvané zastavovacie slová – najčastejšie slová v ruštine a angličtine, napríklad predložky, častice a členy. Prítomnosť týchto slov môže spomaliť vyhľadávanie a negatívne ovplyvniť úplnosť výsledkov. Potrebu týchto slov je možné v dopyte naznačiť uzavretím dopytu do dvojitých úvodzoviek alebo použitím vyhľadávania presnej frázy v rozšírenom vyhľadávaní.

Limit vzdialenosti

Ak je dotaz zložený z jedného alebo viacerých slov bez použitia operátorov a konštrukcií dotazovacieho jazyka, potom sa nájdu dokumenty, ktoré obsahujú všetky slová dotazu. Zároveň je pre každú požiadavku vždy stanovený takzvaný kontextový limit - kladné číslo, štandardne rovná vzdialenosť 40 slov. Dokument, v ktorom sa vyskytujú všetky dopytované slová, sa vráti iba vtedy, ak je vzdialenosť slov medzi výskytmi dopytovaných slov menšia ako toto číslo. Napríklad dotaz „červená armáda“ nájde tie dokumenty, v ktorých sa slová „červená“ a „armáda“ vyskytujú aspoň raz menej ako 40 slov od seba. Hodnotu kontextového obmedzenia je možné zmeniť konštrukciou „(číslo, dopyt)“, kde číslom je ľubovoľné kladné číslo, dopytom je akýkoľvek dopyt, ktorý je z pohľadu vyhľadávača správny, pozostávajúci z viac ako jedno slovo (samozrejme, že obmedzenie vzdialenosti medzi slovami v prípade jednoslovného dotazu nemá zmysel). Dotaz „(2, červená armáda)“ teda nájde len tie dokumenty, v ktorých sa aspoň raz medzi slovami „červená“ a „armáda“ nenachádza ani slovo (pretože len v prípade ich bezprostredného susedstva je rozdiel v radových číslach slov menších ako 2, t.j. rovné 1)

Chýbajúce slová

Ak dopyt pozostáva z viacerých slov a zároveň niektoré z nich nebolo možné na internete vôbec nájsť, vrátia sa výsledky vyhľadávania pre čiastočný dopyt, z ktorého sú vylúčené slová, ktoré sa nenachádzajú na internete. Na stránke s výsledkami vyhľadávania sa zároveň zobrazí zodpovedajúca diagnostika.


Zoradiť výsledky

V predvolenom nastavení sú nájdené dokumenty zoradené podľa relevantnosti (podľa dopytu). Môžete však požiadať, aby sa najnovšie (alebo alternatívne, najstaršie) dokumenty umiestnili na začiatok zoznamu. Ak to chcete urobiť, vyberte príslušné nastavenie v ponuke „Zoradiť podľa...“ na stránke s podrobným dopytom. Môžete tiež obmedziť vyhľadávanie na dokumenty vytvorené v určitom časovom období: ak to chcete urobiť, zadajte "Od dátumu ... do dátumu ... " na stránke s podrobným dopytom.

Vzdialenosť medzi slovami

Môžete požadovať, aby Rambler vracal len tie dokumenty, kde sú slová z dotazu v minimálnej vzdialenosti od seba. V podrobnom dotaze je možné povoliť režim „Obmedziť medzery medzi slovami“. Všetky vyššie uvedené pravidlá je možné použiť spolu v požadovanom poradí.

Vydávanie výsledkov

V predvolenom nastavení sa výsledky vyhľadávania vracajú v blokoch 15 dokumentov. Ponuka „Vydanie...“ na stránke s podrobnou požiadavkou vám umožňuje zvýšiť toto číslo na 30 alebo 50. Ponuka „Výstupný formulár...“ vám umožňuje získať popisy dokumentov so zväčšenými alebo zmenšenými detailmi.


4.2 Yandex

Yandex.ru je vyhľadávací nástroj, ktorý dokáže na požiadanie nájsť najrelevantnejšie webové stránky v ruskej časti internetu. Yandex skenuje státisíce webových stránok každý deň a hľadá zmeny alebo nové odkazy. Zbierka odkazov sa neustále rozrastá. Yandex nevyžaduje znalosť špeciálnych príkazov na vyhľadávanie. Yandex nájde každého, kto odkazoval na stránku, súbory s požadovaným obrázkom, najnovšie správy alebo produkty elektronické obchody. V srdci systému Yandex je najväčší index približne 27 miliónov webových stránok, ale nie je to len o veľkosti. Toto nie je len ukazovateľ na zdroje, ale ukazovateľ na najaktuálnejšie zdroje. Pokiaľ ide o relevantnosť, Yandex je dnes nesporným lídrom (obr. 4)

Metódy vyhľadávania v systéme Yandex

Predtým, ako pristúpim k popisu dopytovacieho jazyka systému Yandex, poznamenávam, že je výrazne výkonnejší a komplikovanejší ako dopytovacie jazyky iných domácich vyhľadávačov. Bežný používateľ sa však nemusí báť. Aj keď ho naozaj nebaví čítať a navyše študovať návod, dokáže pracovať so systémom intuitívne.

Systém Yandex v zásade používa pri svojej práci heuristické algoritmy, ktoré nie sú z matematického hľadiska celkom presné. V dôsledku toho môže používateľ získať odlišné výsledky, ak napríklad hľadá dokumenty so slovami voľby Bush Gore a voľby Bush Gore. Ale vďaka týmto algoritmom dáva intuitívny prístup k vytváraniu dopytov (bez čítania pokynov) veľmi dobrý výsledok, navyše vo veľmi krátkom čase.

Hľadanie jedného slova

Keď používateľ zadá hľadané slovo do vyhľadávacieho poľa a klikne na tlačidlo Hľadať, slová sa vyhľadajú s prihliadnutím na všetky možné formy slov, čo je obzvlášť dôležité pre ruský jazyk. Ak je napríklad zadané slovo sneh, nájdu sa dokumenty, ktoré obsahujú slová sneh, sneh atď., ale nie zasnežený, zasnežený atď. Ak vyhľadávanie tvarov slov nie je potrebné, možno ho zrušiť pomocou napríklad znak s výkričníkom! sneh.

Hľadajte podľa skupiny slov

Ak sú slová oddelené medzerou, potom sa hľadajú dokumenty, v ktorých sa všetky zadané slová vyskytujú v jednej vete. Takže na žiadosť volieb Busha Gora

systém vydáva dokumenty s frázami ako... V predvečer volieb sa hackeri nabúrali na webové stránky Busha a Gora. Medzi výsledkami takéhoto vyhľadávania sú možné neprísne zhody - vyhľadávací nástroj ukazuje svoju inteligenciu. Na prísne zabezpečenie vzhľadu slov vo vete je potrebné pred ne umiestniť znak +, napríklad: + Bush + Horus + voľby. Znamienko + musí byť napísané spolu so slovom, na ktoré sa vzťahuje (bez medzery). Medzera funguje ako operátor AND, ktorý možno zadať aj explicitne (symbol &), napríklad: +Bush& +Hot& +choices. Napravo a naľavo od logického operátora musia byť medzery.

Ak sa vyžaduje súčasná prítomnosť slov nielen vo vete, ale v celom dokumente, použije sa operátor &&, napr.: +Bush&& +Viac&& +voľby.

Teraz zvážim techniky na vylúčenie slov z vyhľadávania. Na to sa používa znak - (silné vylúčenie z vety), znak ~ (neprísne vylúčenie z vety) a znak ~~ (vylúčenie z celého dokumentu). Takže napríklad +Bush +Gor ~~voľba by to umožnila

vybrať dokumenty, v ktorých sa slová Bush a Gore vyskytujú v jednej vete, ale slovo voľby a jeho odvodeniny (voľba, vo voľbách, po voľbách atď.) sa v celom dokumente nenachádzajú.

V prípadoch, keď je potrebné kombinovať kľúčové slová pomocou operátora OR, sa používa symbol |. (vertikálna lišta). Napríklad dotaz Bush | Gore&& +elections vyberú dokumenty, v ktorých sa spomína buď George W. Bush alebo Albert Gore, ale

je tam slovo voľby.

Hľadajte podľa vzdialenosti

Už dávno zaviedli vyhľadávače operátor NEAR, ktorý umožňuje nájsť dokumenty, v ktorých sú dve slová umiestnené blízko seba. Je pravda, že každý systém chápe, čo je „blízko“, rôznymi spôsobmi. Vo vyhľadávacom nástroji Yandex môžete konkrétne určiť, ako ďaleko od seba tieto slová majú byť.

Každé slovo v dokumente má svoje vlastné číslo pozície. Čísla pozícií dvoch susedných slov sa líšia o jednu (číslo pozície slova vpravo je väčšie). Operátor vzdialenosti sa zapisuje ako /+n, kde n je číslo zodpovedajúce vzdialenosti. Napríklad operátor /+1 zodpovedá dvom po sebe nasledujúcim slovám, takže Microsoft/+1 Windows je to isté ako „Microsoft Windows“.

Operátor vzdialenosti môže mať aj zápornú hodnotu. To znamená, že druhé slovo zadané v dotaze sa musí objaviť pred prvým slovom v dokumente. Napríklad požiadavka na Microsoft/-5 Windows by mohla odkazovať na dokument obsahujúci frázu o operačných systémoch, ktoré nahradia Windows, uviedol predstaviteľ Microsoftu.

Pri vyhľadávaní s uvedením vzdialenosti môžete určiť nie presnú vzdialenosť medzi slovami, ale rozsah, napríklad / (-5 +5). V tomto prípade sa vyberú dokumenty, v ktorých slová zadané v dotaze ako kľúčové slová spadajú do určeného rozsahu. V skutočnosti, ak nie je zadané znamienko parametra, ide tiež o vyhľadávanie rozsahu. Takže operátor /5 by sa mal skutočne považovať za rozsah /(-5 +5). Dotaz Bush/5 Gore bude hľadať vety ako: Ženy sympatizovali s Bushom a muži sympatizovali s Gorem, alebo Bush Gore nie je o nič sladší.

Systém - Yandex má pomerne zložité pravidlá dopytovacieho jazyka (v porovnaní s Ramblerom), ale má rozsiahle možnosti. Napríklad vzdialenosti sa dajú merať nielen medzi slovami, ale aj medzi vetami. Táto jednotka sa používa, keď sa v dotaze použije dvojité && alebo ~~. Dotaz Bush/+1&&Gore teda vráti dokumenty, v ktorých sa slová Bush a Gore vyskytujú buď v tej istej vete alebo v susedných vetách.

Zátvorky

Úloha vyhľadávania je v podstate boolovský výraz, ktorý funguje ako filter pri prezeraní dokumentov, ktoré sú súčasťou databázy vyhľadávacieho nástroja. AT

V logickom výraze, rovnako ako v aritmetickom výraze, môžete použiť zátvorky. Slúžia na kontrolu poradia akcií. Príklad: Bush & Gore (voľby | hlasovanie). Takýto dopyt vráti odkazy na webové stránky, ktoré obsahujú vety obsahujúce slová Bush, Gore, voľby alebo Bush, Gore, hlas.

Riadenie hodnosti

Cieľom hodnotenia je zabezpečiť, aby webové stránky

najlepšie zodpovedajúce dopytu sa čo najskôr zobrazili v zozname výsledkov. Aké algoritmy používa vyhľadávač pri hodnotení, je jeho vecou. Používatelia sú buď spokojní so svojou prácou, alebo sa obrátia na iný vyhľadávač. V systéme Yandex je možné nezávisle zmeniť algoritmus mechanizmu hodnotenia pomocou váhových koeficientov. Takýto koeficient možno priradiť ľubovoľnému kľúčovému slovu alebo celému výrazu, ak je uvedený v zátvorkách: Váhové koeficienty sa zadávajú cez dvojbodku, napríklad voľby Bush:5 Gore. Pri tomto dopyte majú dokumenty, v ktorých sa slovo „Bush“ vyskytuje častejšie, prednosť a vo výslednom zozname sa objavujú na vyšších pozíciách.

Ďalšia technika riadenia hodnotenia súvisí s kvalifikačným slovom. Toto slovo nemusí byť obsiahnuté vo vybraných dokumentoch, ale ak tam je, potom tento dokument získa výhodu v poradí. Oprávnené slovo sa vkladá za znaky<_. Например, при поиске по ключевым словам Гор Буш<_младший выборы получат преимущество Web-страницы, в которых речь идет не просто о Джордже Буше, а о Джордже Буше-младшем.

Špeciálne vyhľadávanie

Zvlášť pozoruhodné sú metódy vyhľadávania informácií obsiahnutých v špeciálnych poliach hlavičiek webových stránok (každá webová stránka má v názve servisné polia) alebo vyhľadávanie špeciálnych prvkov zahrnutých na webových stránkach, ako sú hypertextové odkazy. V systéme Yandex začínajú špeciálne vyhľadávacie príkazy v poliach hlavičky

so symbolom $ a vyhľadávacie príkazy pre jednotlivé prvky webových stránok - so znakom #. Všetky špeciálne vyhľadávacie nástroje sú výrazne pomalšie ako bežné.

Tím

Popis

Príklad

Vysvetlenie

$title (výraz)

Vyhľadávanie kľúčových slov uvedených vo výraze sa vykonáva iba v názvoch webových stránok


$title (Space)


Vyhľadávajú sa iba webové stránky, ktoré majú v názve slovo Medzera (obrázok 7.10)



Vyhľadávanie kľúčových slov uvedených vo výraze sa vykonáva iba v kotvách interných odkazov webových stránok


$anchor (úvod)


Interné (výraz)


#kľúčové slová= (výraz)


#keywords - (novinky)



#abstrakt = (výraz)


Hľadať v anotácii webovej stránky

#abstract = (Bush | Gore)


#image = "názov "súboru"


Vyhľadávanie obrázkových súborov podľa ich názvu


#image -"Bush.*"

Ak nie je vopred známe, akú príponu môže mať názov súboru, použije sa zástupný znak „*“, ktorý nahradí ľubovoľný počet ľubovoľných znakov


#hint- (výraz)

Hľadajte slová v alternatívnom texte ilustrácií


(Bush | Gore)



#url= " URL-adresa"

Hľadanie lokality alebo webovej stránky


#uri.= "www.anysite.ru"


Zvyčajne sa používa na lokalizáciu vyhľadávania. Napríklad obmedziť okruh vyhľadávania na jednu lokalitu alebo naopak vylúčiť ho z oblasti vyhľadávania


#link- adresa"

Bežne používané " URL- na identifikáciu webových stránok, ktoré majú hypertextové odkazy vedúce na ich vlastnú stránku


Záver

Dokázal som naplno odhaliť položené otázky a pochopiť túto tému (ako efektívne hľadať na internete?). Z vlastnej skúsenosti som sa presvedčil, že v našej dobe špičkových technológií nie je efektívne vyhľadávanie informácií riešiteľné a zostáva jedným z hlavných problémov. Toto si môžem vysvetliť nasledovne.

Po prvé, nie je to dokonalosť samotných vyhľadávačov, čo spochybňuje akékoľvek vyhľadávanie.

Vyhľadávačom chýba usporiadanosť, štruktúra, štruktúra, štruktúrovanie, ako aj systém, systematizácia, systematizácia, roboty väčšiny vyhľadávačov prinášajú obrovské množstvo zbytočných hypertextových odkazov,

Po druhé, neskúsenosť používateľov, pretože hľadať a nájsť to, čo potrebujete v halde textov na internete, je zručnosť nielen vyhľadávača, ale aj používateľa, ktorý otázku kladie.

Po tretie, chamtivosť programátorov a reklamných agentúr, ktoré si ich najímajú a chcú, aby ich stránky boli žiadané čo najčastejšie. Títo „chamtiví“ programátori klamú roboty a rozdávajú na internete stránku, ktorá údajne obsahuje informácie potrebné pre používateľa, pričom existujú reklamné brožúry alebo automatický hypertextový odkaz žiadajúci o reklamnú stránku alebo ešte horšie, o platenú stránku. Aj keď špecialisti obsluhujúci vyhľadávače s týmto fenoménom zápasia, každým dňom stále naberá na rozmeroch.

Internet dnes používa ako referenciu 23 % používateľov, výskumný nástroj 15 %, zábavu 14 % a len ako zdroj správ 12 %.

Nie je optimistický názor, že 10 % používateľov vždy a 73 % často dokáže nájsť potrebné informácie.

Na takúto otázku, ktorý vyhľadávací nástroj je najlepší a ktorý radšej používam, odpoviem takto: je potrebné použiť ktorýkoľvek stroj, ktorý je pohodlnejší, a pre mňa je pohodlnejšie používať Yandex.

Internet uľahčil vyhľadávanie a vyžadoval špecifické znalosti o hľadaní, dnes nie je vždy efektívne, sme len na úsvite jeho rozvoja. Netreba preto zabúdať na staré, nemenej efektívne vyhľadávanie informácií, sú to knihy a knižnice, tento zdroj informácií sa ospravedlňuje už od čias „Alexandrijskej knižnice“ a internet bude len v blízkej budúcnosti byť efektívnejší a stať sa takmer nenahraditeľným.

Zoznam použitej literatúry


1. Andrey Alikberov "Pár slov o tom, ako fungujú roboty vyhľadávačov."

#"#">Použije sa jazyk vyhľadávacieho nástroja Yandex

Vyhľadávanie fráz

Predpony

Iteratívne vyhľadávanie (vo výsledkoch)

Po prihlásení kliknite na Viac…

zámena časti slova

* (nie vždy správne)


Tabuľka 2

Súhrnná tabuľka popredných vyhľadávačov


jaindex

Aport!

AltaVista

Oblasť vyhľadávania, objem databázy

Ruská časť internetu. Vyhľadávajte na stránkach stránok zo sekcie katalógu podľa regiónu. Špeciálne vyhľadávanie noviniek, produktov, obrázkov.

Ruská časť internetu.

Ruská časť internetu. Špecializované vyhľadávanie noviniek, produktov, obrázkov, MP3

Špecializované vyhľadávanie správ, produktov, zábavy, zvuku (MP3) a videa.

Špecializované vyhľadávanie univerzít v USA, Apple, Linux, BSD

Základný objem na začiatku roku 2001

Viac ako 31 miliónov dokumentov

Viac ako 12 miliónov dokumentov

Viac ako 14 miliónov dokumentov

Viac ako 250 miliónov dokumentov

1,25 miliardy strán

Typ indexovania

fulltextové indexovanie

fulltextové indexovanie

fulltextové indexovanie

fulltextové indexovanie a indexovanie odkazov

Dostupnosť doplnkových služieb

Systém kombinuje vyhľadávač a katalóg, ako aj množstvo doplnkových projektov (Zakladki.Ru, Narod.Ru, systém pre inteligentný výber tovaru, CY atď.).

Systém kombinuje vyhľadávač, katalóg a doplnkové služby (online nakupovanie a pod.)

Systém kombinuje vyhľadávač, katalóg a množstvo doplnkových služieb (hosting, registrácia doménových mien, preklady atď.)

Systém kombinuje vyhľadávač a katalóg obsahujúci 15 sekcií a 1,5 milióna webových stránok.

Syntax vyhľadávacieho jazyka

logické AND

medzera alebo & (v rámci vety)&& (v rámci dokumentu)

AND, &, medzera medzi slovami štandardne

AND, AND, &,+, predvolená medzera medzi slovami

AND, & (iba pre komplexné vyhľadávania)

predvolené pre všetky hľadané slová

logické ALEBO

ALEBO (predvolené pre jednoduché vyhľadávanie), | (iba pre komplexné vyhľadávanie)

binárny operátor AND-NOT

~ (v rámci vety)

~ ~ (v rámci dokumentu)

nepoužité

je nahradený operátorom predpony "-" (AND je predvolená medzera)

A NIE! (iba pre komplexné vyhľadávanie)

nahradený operátorom prefixu "-"

predpony požadovaných (+) a zakázaných (-) slov

nepoužité

+, - (len pre jednoduché vyhľadávanie)

zoskupenie slov

nepoužité

vzdialenosť medzi kľúčovými slovami pri vyhľadávaní

/(n m) - slovami, &&/(n m) - vo vetách (- späť, + dopredu)

v rozšírenom vyhľadávaní - vydávanie dokladov len s minimálnou vzdialenosťou medzi slovami

w2(...), w2(...), w2(...), (- späť, + dopredu)

BLÍZKO (do 10 slov, len pre zložité vyhľadávania)

nepoužité

vyhľadávanie fráz

znaky na nahradenie slov

*, ? (nahradiť ľubovoľný znak)

* (iba na konci slova)

jazykový limit dokumentu

výber: ľubovoľný, cyrilika, latinka

výber: ľubovoľný, ruský, anglický

výber: ruština, angličtina

výber z 25 jazykov

výber z 25 jazykov

morfológia

všetky predvolené deklinácie a konjugácie, ! (vyhľadajte presný tvar slova)

# (všetky formy slov), @ (príbuzné slová)

! (označenie normálnej formy)

vyhľadávanie dátumu

obmedziť vyhľadávanie podľa polí

Vyhľadávajte v názvoch, adresách, názvoch dokumentov (iba pre rozšírené vyhľadávanie). Vyhľadajte podobné dokumenty.

Rozšírené funkcie formy, kvalita starostlivosti

pokročilé nastavenie formulára

nastavenia filtra slovníka, nastavenia podľa dátumu, lokality, odkazu, obrázka, špeciálneho objektu

podľa dokumentu, dátumu, režimov AND, OR, medzier medzi slovami, skracovania slov

podľa dokumentu, názvu, obrázku, dátumu, 5 sekcií (webové stránky, MP3, obrázky, produkty, novinky)

podľa boolovského dotazníka, dátumu, stránky, odkazu, obrázka, textu atď.

výstupné nastavenia

nastavenie počtu výsledkov na stranu, výstupné formuláre

nastavenie formulára vydania

nastavenie počtu výsledkov na stranu, všetky prvky výstupného formulára

nastavenie počtu výsledkov na stranu, všetky prvky výstupného formulára

hodnotenie výsledkov vyhľadávania

zoradiť podľa relevantnosti alebo dátumu

popularita stránky

podľa podmienok špecifikovaných v SORT

podľa citácie (odkazy na stránku z iných stránok)

iteratívne vyhľadávanie (vo výsledkoch vyhľadávania)

Áno. Vykonané začiarknutím políčka

Áno. Vykonané pomocou selektora rozsahu vyhľadávania

Vykonané začiarknutím políčka

Vykonané pomocou

kvalita sekcie pomoci

je tu podrobný popis dopytovacieho jazyka, syntaxová tabuľka a časť o vyhľadávaní v kategóriách

krátka sekcia HELP

podrobný odkaz na jazyk dopytu, existuje veľa ruských synoným pre hlavných operátorov

najväčšia online učebnica o dopytovacom jazyku uvažovanom v tejto tabuľke

veľmi obmedzená sekcia HELP

rodinný filter