Praktiskt arbete: "Organisation av informationssökning på Internet". Data lagras på magnetiska skivor. Regler för utförande av frågor

Datorns minne innehåller information lagrad som en dataström. Information kan logiskt organiseras i filer, med poster i filer och enskilda poster i poster. När filer är organiserade på detta sätt i en databas innehåller varje post en identifierande tagg eller nyckel. Detta kan vara ett kodnummer, ett namn eller ett datum.

På jakt efter en post anropar datorn direkt eller sekventiellt, beroende på hur data lagras, dataelementen och kontrollerar om de innehåller den önskade nyckeln. Om data lagras på band, organiseras filerna sekventiellt; om data lagras på disk eller hårddisk kan data nås både direkt och sekventiellt.

Grundläggande informationssökningsprogram. När nyckeln öppnar posten skannar datorn minnet och visar posten.

Data lagras på magnetiska skivor

Spåren på en magnetisk skiva lagrar inte bara data, utan även dataadresser, vilket ger datorn direkt tillgång till information. I anropet i bilden nedan skrivs dataadresserna i räkneområdet och innehållet i nyckelelementen i nyckelområdet.

Sökprogram slås på när nyckeln trycks in. I filer med direkt organisation lär sökprogrammet adressen till data från nyckeln, hämtar informationen och beställer operativa systemet läsa data.

Informationssökningsskärm låter operatören få information genom att helt enkelt välja ett objekt från en meny, utan att använda en knapp.

HDD består av flera runda plattor monterade på samma axel. Cylindern är uppbyggd av spår, som var och en upptar samma plats på varje platta. Cylindrarna är numrerade från utsidan till insidan, och cylinderspåren är numrerade uppifrån och ned. Således skulle adressen för ett dataelement vara cylinder xx, spår yy.

Hur sökningen går till

1. Sekventiell sökning.

Datorn skannar data i strikt ordning. Ju större mängd data, desto lägre effektivitet har denna metod.

2. Direktsökning.

Platsen för önskad data hittas med hjälp av knappen. Därför måste uppgifterna lagras i nyckelområdet.

3. Dubbelsökning.

Data måste organiseras i samma ordning som nycklarna. Sökningen börjar med att kontrollera mittendata för att avgöra om önskad data finns under den övre eller den nedre tangenten. Detta minskar sökningen till hälften.


Produktionskostnaden är en av de viktiga ekonomiska indikatorerna för företagens ekonomiska aktivitet.

Produktionskostnaden är en av de viktiga ekonomiska indikatorerna för företagens ekonomiska aktivitet. Det beräknas i monetära termer och tar hänsyn till alla kostnader för företaget i samband med produktionsprocessen och försäljningen av dess produkter. Det vill säga självkostnadspriset visar vad den produkt som företaget tillverkar kostar.

Förutom att bestämma enhetskostnaden för huvudprodukten är det nödvändigt att beräkna produktionskostnaden för hjälpenheter, halvfabrikat av huvudproduktionen, produkter från alla avdelningar och verkstäder i företaget.

Kostnadsberäkning eller kostnadsberäkning gör att du kan bestämma produktionens ekonomiska bärkraft.

Genom att analysera arbetet i företagets divisioner, baserat på kostnaden för en produktionsenhet, kan man bedöma lönsamheten för deras arbete för den analyserade perioden.

Om produktionskostnaderna (arbete, tjänster) för företagets hjälpavdelningar är på rätt nivå i jämförelse med kostnaderna för detta avsnitt, anses deras verksamhet vara effektiv.

Med ökade kostnader är det nödvändigt att revidera de fastställda försäljningspriserna. Om försäljningspriset inte kan ändras, men samtidigt ökar företagets produktionskostnader, är det nödvändigt att förbättra organisationen av produktionen, förbättra tekniken och föra en effektiv och ekonomisk politik för att leverera nödvändiga råvaror, material etc.

Alla typer av färdiga produkter som är föremål för försäljning, samt tjänster och arbeten som utförs på beställningar från tredjepartskonsumenter, är kostnadsenheter.

För produkter är kostnadsobjektet en bit (sats, montering, del, kopia).

För produkter kan beräkningsobjektet vara följande enheter:

vikt - gram, kilogram, ton;

volumetrisk - kubikmeter (centimeter, decimeter);

plan - kvadratmeter (centimeter, decimeter);

linjär - meter (centimeter, decimeter).

Om den tekniska processen tillhandahåller förpackning av färdiga produkter, kan beräkningsobjektet vara en behållare, fat, flaska, förpackning etc.

Med hänsyn till typerna av produkter, detaljerna för arbeten och tjänster, deras komplexitet, typ, arten av den tekniska processen och organisationen av produktionen vid industriföretag, olika metoder produktkostnad.

Dessa metoder är:

normativ;

process för process;

· beställde;

· framåt.

Organisering av informationssökning på Internet. System för informationssökning.

Att söka information på Internet sker på två huvudsakliga sätt - med hjälp av kataloger (de kallas även kataloger) och med hjälp av sökmotorer.

Kataloger tillhandahåller kontextuell sökning för strukturerad surfning, medan sökmotorer, som namnet antyder, inte tillhandahåller sammanhang, utan låter dig hitta specifika ord eller fraser.

Kataloger är som innehållsförteckningen i en bok, och sökmotorer är som ett index.

Ofta kombinerar sökmotorer både en sökmotor och kataloger.

Detta syns tydligt på exemplet på den första sidan av Yandex, där en lista med kataloger placeras under sökfältet, vilket gör att användaren kan förfina frågan när de går djupare in i var och en av dem.

Alla sökmotorer arbetar på samma algoritm och bygger på samma principer. Skillnader mellan dem uppstår endast på nivån för teknisk implementering av dessa principer i arbetet.

Exempel på sökmotorer:

ü AltaVista (http://www.altavista.com)

ü Yahoo (http://www.yahoo.com)

ü FTPSearch (http://ftpsearch.lycos.com)

ü "DISCo Finder"-företaget "DISco" (http://www.disco.ru)

ü Yandex (http://www.yandex.ru)

ü Google (http://www.google.ru)

ü Rambler (http://www.rambler.ru)

ü Mail (http://www.mail.ru)

ü MSN Ryssland (http://ru.msn.com) och andra.

Alla sökmotorer är baserade på tre grundläggande operatörer. Dessa är de logiska operatorerna "AND", "OR" och "NOT". De fungerar enligt följande.

1. Logiskt "OCH". Om det finns en "OCH"-operator mellan två ord i frågan, kommer endast de dokument som innehåller båda orden att hittas som ett resultat av sökningen. Så till exempel kommer frågan hund OCH katt att hitta ett dokument som innehåller meningen "hunden jagade katten", men vi kommer inte att se dokument som består av texten "katten vilade" eller "hundmat".

2. Logiskt "ELLER". Om det finns en ELLER-operator mellan ord, kommer sökningen att resultera i dokument som innehåller minst ett av dessa ord.

Om vi ​​inte gör särskilda restriktiva klausuler, kommer material där båda dessa ord finns också att finnas.

3. Logiskt "NOT". Om de två föregående satserna beskrev orden du vill inkludera i frågan, så exkluderar NOT-operatorn ord från frågan. Användare som stöter på frågeoperatorer för första gången uttrycker ofta förvåning: är det inte lättare att inte inkludera ett onödigt ord i en fråga alls? Faktum är att för att förstå vikten av den INTE logiska operatorn är det vettigt att komma ihåg att vår fråga inte skapar något nytt på Internet. Vi fiskar bara upp det vi behöver från den befintliga enorma, men fortfarande ändliga arrayen. I det här fallet är det nödvändigt att skära av informationsskräp. Vi klippte av det med hjälp av "NOT"-operatören. Tyvärr är det inte upp till oss att bestämma om vi kommer att se detta skräp i sökresultaten. Så, till exempel, vid begäran om information om taknocken, dyker informationsskräp alltid upp i form av dokument om den lilla puckelryggade hästen, konståkning, hockey, hästar, etc. Det finns inget sätt att göra utan ett logiskt "NOT".

2. Globalt nätverk. Internetinformationstjänster: e-post, telefonkonferenser, World Wide Web.

Internet är ett globalt datornätverk som är värd för olika tjänster eller tjänster.

Ett datornätverk kan utföra två funktioner:

Att vara ett kommunikationsmedel mellan sina användare som befinner sig på avstånd från varandra (vi kommer att kalla denna funktion kommunikation);

För att vara ett sätt att få tillgång till vanliga informationsresurser (vi kallar denna funktion för information).

Tjänster (tjänster eller tjänster) i nätverket

De vanligaste funktionella tjänsterna på Internet är:

E-post

E-post var den första tjänsten på Internet och är fortfarande den mest använda tjänsten på Internet idag. E-post är avsedd för utbyte av e-postmeddelanden mellan Internet-abonnenter. Med hjälp av e-post kan du skicka och ta emot meddelanden, svara på mottagna brev, skicka kopior av brevet till flera mottagare samtidigt, vidarebefordra det mottagna brevet till en annan adress och så vidare.

Telefonkonferenser

En annan typ av informationsnätverkstjänst som kallas "telekonferenser" liknar en prenumeration på en elektronisk tidning, där information visas om ett specifikt ämne - nyheter, anteckningar, svar på frågor, svar på tidigare publikationer, etc. Författarna till denna mycket mångsidiga och ultrasnabba information är nätanvändarna själva, förenade av gemensamma intressen. Telefonkonferenser i design och arbetssätt påminner mycket om e-post, med den enda skillnaden är att ditt brev kan läsas av ett stort antal människor, och i sin tur kan du intressera dig för vad helt främlingar skriver till dig.

World Wide Web (World Wide Web eller WWW)

WWW är ett nätverk av dokument som länkas samman med hyperlänkar.

Sålunda har olika betydelser tilldelats användningen av olika termer: ett nätverk är ett system av sammankopplade datorer, dvs. tekniskt system, och webben (webben) är ett system av sammanlänkade dokument, det vill säga ett informationssystem.

Naturligtvis existerar "webben" av dokument på basis av ett datornätverk.

Varje enskilt dokument som har sin egen adress kallas för en webbsida.

Varje webbsida kan ha många länkar till andra sidor som är lagrade på samma dator eller på andra datorer på webben. På fig. 3 visar schematiskt överlagringen av en väv av dokument på ett datornätverk. Heldragna linjer indikerar webbservrar och länkar mellan dem, prickade linjer - webbdokument och deras länkar.

Direkt chattforum - IRC (Internet Relay Chat). Bokstavligen översatt - "chatta" i realtid (chattkonferenser). Kommunikation mellan deltagarna sker online skriftligt. Precis som en telefonkonferens är chattkonferensdeltagare indelade i tematiska grupper.

Internettelefoni

Detta är röstkommunikation över webben i online-läge. Detta är en ny, växande tjänst. Dess främsta fördel gentemot telefon är lågt pris. Kvaliteten är fortfarande sämre telefonkommunikation(tidsfördröjningar, ljudförvrängning) men det råder ingen tvekan om att denna brist med tiden kommer att övervinnas.

3. Lokala nätverk: grundläggande begrepp, syfte.

Ett datornätverk är en samling datorer anslutna via dataöverföringskanaler.

Ett nätverk är en grupp anslutna datorer och andra enheter. Och konceptet med datorer anslutna och delar resurser kallas nätverk. Nätverksanslutna datorer kan dela:

ü data;

ü skrivare;

ü faxar;

ü modem;

ü andra enheter.

Denna lista uppdateras ständigt, allt eftersom nya sätt dyker upp. delning Resurser.

Det finns flera grundläggande nätverkstopologier, d.v.s. fysisk plats för datorer, kablar och andra komponenter:

För att bygga ett Ethernet-nätverk behöver du följande utrustning:

1. Nätverkskort - ett för varje dator.

2. Switch - en enhet som alla kablar är anslutna från nätverkskort datorer.

3. Kablar.

Huvudapplikationer lokala nätverk

1. Automatisering av administrativa förvaltningsaktiviteter, organisation av "elektroniska kontor", där e-post används istället för pappersarbetsflöde;

2. Automatisering av produktion - automatisering tekniska processer, Information Support operativ ledning av produktion, planering och ekonomisk ledning av produktion;

3. Automatisering av vetenskaplig forskning och utveckling;

4. Automatisering av utbildning, träning och omskolning av personal.

5. Automatisering av institutionell verksamhet.

RYSSLANDS UTBILDNINGSMINISTERIET OCH VETENSKAP

Statens läroanstalt för högre yrkesutbildning

"RYSSISK

STATENS HUMANITÄRA UNIVERSITET»

Filial till det ryska statsuniversitetet för humaniora i St. Petersburg.

Sankt Petersburg 2011

Inledning 3

1. Internet som en modern informationskälla 4

2. Specifika uppgifter i elevens utbildningsverksamhet 6

3. Funktioner för att använda Internet för att söka information för elevens pedagogiska aktiviteter 8

Slutsats 13

Käll- och litteraturförteckning 14

Introduktion

Idag kan en student inte klara sig utan en PC. Kommunikation med en dator börjar i skolan, där eleverna lär sig grunderna i datateknik, bekantar sig med pedagogiska webbplatser på Internet. Som regel, när de går in på ett universitet, är många sökande redan väl bekanta med en dator, och de flesta av dem har den hemma.

För att underlätta deras inlärningsprocess tar eleverna ofta till hjälp av Internet genom att ladda ner uppsatser och uppsatser. Tills vidare kan denna inställning till klasser komma undan. Men att studera vid ett universitet innebär ett mer seriöst tillvägagångssätt, kräver utveckling av olika specifika vetenskaper. I denna mening är Internet inte längre en pålitlig informationskälla, och i viss mening till och med skadlig.

Det moderna Internet har många sociala och kulturella aspekter, det är en universell informationsmiljö. I detta avseende är frågan om Internet som en informationskälla i studentens utbildningsverksamhet relevant.

Arbetsuppgifterna är:

    Att karakterisera Internet som en modern informationskälla.

    Att avslöja detaljerna i informationen i elevens utbildningsverksamhet.

    Tänk på funktionerna i att använda Internet i sökningen efter information för studentens pedagogiska aktiviteter.

1. Internet som en modern informationskälla

Enligt wikipedia.org: Internet (uttalas [internet]; engelska Internet) är ett världsomspännande system av sammankopplade datornätverk baserat på användningen av IP-protokollet och routing av datapaket. Internet bildar ett globalt informationsutrymme, fungerar som den fysiska basen för World Wide Web och många andra dataöverföringssystem (protokoll). Benämns ofta som "World Wide Web" och "Global Web". I vardagen säger de ibland "Internet" 1 .

För närvarande, när ordet "Internet" används i vardagen, syftar det oftast på World Wide Web och den information som finns tillgänglig på den, och inte det fysiska nätverket i sig.

Idag håller Internet på att bli en av de viktigaste informationskällorna på grund av den gigantiska mängden data som läggs ut på nätverket och möjligheten att enkelt komma åt dem. Samtidigt får webbsökning mer och mer praktiskt värde, eftersom med den snabba ökningen av mängden tillgänglig data blir proceduren för att hitta den nödvändiga informationen mer och mer komplicerad 2 .

Nätverket har en enorm mängd informationsresurser. Enligt vissa uppskattningar har antalet dokument överstigit 65 miljoner och fortsätter att växa snabbt 3 . En sådan mängd information kräver en korrekt organisation av sökprocessen och användning av speciella tekniska verktyg, såsom sökmotorer. En enkel sökordssökning brukar ge från tiotusentals till flera miljoner referenser, det är uppenbart att det är praktiskt taget omöjligt att arbeta med ett så stort antal dokument, det vill säga att det innehåller irrelevant information.

Utöver sökproblemet finns problemet med tillförlitligheten hos information på Internet. Den lätthet med vilken data kan nås och publiceras gör det lätt för felaktig och ofta medvetet falsk information att spridas 4 .

Dessa två problem: sökning och tillförlitlighet avgör specifikationerna för Internet som en informationskälla.

2. Informationens specificitet i elevens utbildningsverksamhet

Enligt wikipedia.org: Termen information kommer från det latinska ordet information, som betyder "information, förtydligande, presentation" 5 .

För närvarande försöker vetenskapen hitta gemensamma egenskaper och mönster som är inneboende i begreppet "information", men än så länge förblir detta koncept till stor del intuitivt och får olika semantiskt innehåll inom olika områden av mänsklig aktivitet.

I vardagen är information all data eller information som är av intresse för någon, till exempel ett meddelande om eventuella händelser, om någons aktiviteter etc. "Informera" i denna mening betyder "att kommunicera något tidigare okänt."

Information - information om miljöns föremål och fenomen, deras parametrar, egenskaper och tillstånd, som minskar graden av osäkerhet om dem, ofullständigheten i kunskap 6 .

Ett och samma informationsmeddelande (tidningsartikel, kungörelse, brev, telegram, referens, berättelse, teckning, radiosändning etc.) kan innehålla olika mängd information för olika personer beroende på deras samlade kunskap, på förståelsenivån för olika personer. detta meddelande och intresse för det 7 .

Utifrån det ovanstående kan vi dra slutsatsen att informationen i elevens pedagogiska verksamhet bör ha ett antal specifika egenskaper.

1. Informationen ska motsvara graden av beredskap hos eleven, dennes kunskapsnivå. För hög komplexitet minskar begripligheten och sänker elevernas motivation. För låg nivå - minskar informationsinnehållet och påverkar inlärningsprocessens effektivitet negativt.

2. Den information som eleven använder ska vara aktuell, d.v.s. motsvara den moderna nivån av vetenskaplig kunskap och samhällsutvecklingen.

3. Den information som eleven använder ska vara tillförlitlig.

4. Information bör vara tillgänglig när det gäller dess katalogisering och sökning.

3. Funktioner för att använda Internet i sökandet efter information för elevens pedagogiska aktiviteter

Den moderna studenten, beväpnad med en persondator, är väl medveten om vad och var som finns på Internet. Han extraherar ganska mästerligt på Internet allt han behöver för att skapa nästa obligatoriska skapelse: en uppsats, en uppsats, ett kursprojekt, ett diplom, etc. Och efter en liten revidering, som ofta endast består i att ange hans efternamn och gruppnummer, efter att ha skrivit ut det på en skrivare, överlämnar han "sitt arbete" till läraren 8 .

Samtidigt ökar hans lathet många gånger, och detta tillvägagångssätt minskar sannolikheten för framgång i en framtida karriär. Det är värt att notera att fusk, som i huvudsak är plagiat, är mycket vanligare i Ryssland än i väst, vilket minskar chanserna att få ett prestigefyllt jobb i konkurrens med utexaminerade från västerländska universitet.

För att nå framgång i tävlingskampen bör man lära sig att bearbeta enorma mängder information, kunna se prover av skriftligt arbete, notera styrkor och svagheter i dem, försöka "dissekera" någon annans text för att lyfta fram det viktigaste en del av det. Baserat på det resulterande skelettet ska eleven lära sig hur man skapar det nödvändiga arbetet. Faktum är att detta arbete utfördes på bibliotek med böcker innan informationsboomen på Internet 9 inträffade. Lärarens arbete är också viktigt här, som ska kompetent vägleda eleven, inte förbjuda användningen av Internet, utan påpeka möjliga fallgropar och ge instruktioner om hur det ska användas. Till exempel, för att begränsa sökcirkeln, kan läraren ge råd om vissa informationsresurser och på så sätt säkerställa anpassningen av utbildningsmaterialet till studentens förberedelser, dessutom kommer läraren att hjälpa till att filtrera bort falsk och felaktig information.

I det moderna informationssamhället ökar lärarens roll. Till exempel kan lärare i den "gamla skolan" läsa samma föreläsningar i flera år, inte alls intresserade av de senaste prestationerna inom en viss bransch, verksamhetsområde. Dessutom kan en elev med valfri mobil enhet ansluten till Internet förvirra vilken lärare som helst. Läraren uppfattas inte längre som den enda kunskapskällan. När som helst kan en elev med Internet rätta läraren och kritisera och ställa en olöslig fråga. Läraren måste vara redo för detta, sådan är det moderna samhällets utmaning för det moderna utbildningssystemet. Läraren ska inte bli arg, undvika att svara eller hitta på ett svar på språng. Om relationen lärare-elev tidigare byggde på senior-junior-principen, borde de nu vara närmare internetprincipen: peer-to-peer.

Det finns en annan fara som behåller Internets rörlighet i sig själv, nämligen avsaknaden av behovet av att komma ihåg någonting. Varför då? Om du alltid kan fråga Yandex. För att inte hamna i denna fälla måste eleven slutföra alla förrädarens uppgifter, inte vara lat, skriva ner, memorera, undervisa. Det är kunskapens bagage i mänskligt minne som bildar dess allmänna kunskap och förmåga att lösa tillämpade problem inom ett givet ämnesområde. Den extrema graden av denna mobilitetseffekt är att studenten, efter att ha träffat en obekant term, säger till sig själv: "Jag kan när som helst slå upp betydelsen av denna term på Internet. Nu har jag inte tid, jag får se senare" - så här uppstår brister i utbildningen. Före Internets era skulle en elev tänka annorlunda: "Jag kan slå upp betydelsen av denna term i en ordbok (lärobok, uppslagsverk, ...). Jag har inte tid just nu, men jag måste slå upp innebörden av den här termen och memorera den, för jag kan inte gå runt med en ordbok hela tiden."

Ur självutbildningssynpunkt står studenten, och faktiskt hela samhället, inför problemet med informationskrisen 10 . Informationskrisen ligger i den motsägelsefulla enheten av "informationshunger" och "informationsexplosion", det vill säga i bristen på information i förhållandena för dess överproduktion 11 . Mängden information om ett visst område av mänsklig aktivitet överstiger den mänskliga hjärnans kapacitet 12 . Därför ökar behovet av informationssystematisering och informationsbrusfiltrering. Eleven ska använda tillförlitliga källor som rekommenderas av läraren, angivna i lärobokens referenslistor.

Hastigheten för informationstillväxt är kvantifierbar. Bibliotekarien R. Barton och fysikern R. Kebler från USA introducerade begreppet "halveringstid" för vetenskapliga artiklar i analogi med halveringstiden för radioaktiva ämnen. Halveringstiden för en publikation är den tid under vilken hälften av den för närvarande använda litteraturen om en viss gren eller ämne har publicerats 13 . Till exempel, om halveringstiden för en publikation i fysik är 4,6 år, betyder det att 50 % av alla för närvarande använda (citerade) publikationer inom detta område inte är äldre än 4,6 år. Även om en sådan definition ger en numerisk uppskattning av informationens åldrande, måste en sådan bedömning behandlas med försiktighet och i slutändan bestämmer varje specialist själv vilket djup och graden av förskrivning han behöver i varje enskilt fall 14 . För studenten kommer graden av relevans av information att hjälpa till att bestämma handledaren.

Ett annat kännetecken för information på Internet är dess spridning över en ensemble av källor - Bradfords lag 15 . Förenklat kan detta formuleras på följande sätt: 1/3 av de vetenskapliga artiklarna om ett specifikt ämne kommer att publiceras i ett litet antal källor som är direkt relaterade till detta ämne. Nästa tredjedel kommer att publiceras i fler källor relaterade till detta ämne. Och den sista tredjedelen kommer att publiceras i källor som inte har något att göra med ämnet, och förhållandet mellan antalet källor i dessa områden enligt Bradford är lika. Med tanke på detta mönster bör det noteras att det är omöjligt att uppnå fullständigt informationsinnehåll om ett visst ämne om forskaren är begränsad till mängden källor i denna fråga utan att tillgripa särskilda informationstjänster och bibliografiska tjänster. I de flesta fall räcker den första tredjedelen för studenten, men för djupare arbete, såsom terminsuppsatser inom specialiserade discipliner, ett examensarbete, behöver studenten vända sig till sådana elektroniska kataloger för att få hjälp.

Trots att internetanvändarnas frihet att få tillgång till informationsresurser inte begränsas av statsgränser, utan språkgränser kvarstår. Det dominerande språket på Internet är engelska. Det näst mest populära språket är kinesiska och det tredje är spanska. Det ryska språket tar 9:e plats 16 . I detta avseende får en student som talar främmande språk, främst engelska, tillgång till mycket mer information. Om vi ​​talar om uppdelningen av information på Internet är det värt att notera att information om olika områden av mänsklig aktivitet inte presenteras jämnt i volym. Internet har mer teknisk information relaterad till programmering, informationsteknik, datorenhet och mindre information relaterad till humaniora. Detta kan förklaras av det faktum att tekniska specialister på något sätt är anslutna till informationsteknik och Internet på grund av deras verksamhet, och därför är antalet material som publiceras av dem högre.

Slutsats

Genom att sammanfatta de övervägda aspekterna av Internet som en informationskälla i studentens utbildningsaktiviteter är det möjligt att peka ut de viktigaste nyckelfunktionerna och rekommendationerna.

    Eleven ska kunna använda Internet och samtidigt ständigt förbättra sina färdigheter i att använda Internet.

    Studenten bör, med hjälp av information på Internet, kontrollera dess grad av tillförlitlighet och relevans.

    För att söka information om ett visst ämne är det lämpligt att använda specialiserade elektroniska bibliografiska kataloger.

    För att öka effektiviteten i att använda Internet bör eleven förbättra engelska, som det vanligaste språket på Internet.

    För att möta utmaningarna i informationssamhället måste studenten kunna bearbeta stora mängder data och extrahera från dem nyckelinformation och filtrera bort redundant och onödig data.

    Internet ger inte bara enorma möjligheter för information, men också kantad av fara i form av ett fuskblad, som ofta gör en björntjänst i inlärningsprocessen.

Det bör noteras att enligt punkterna 2 och 3 ska studenten arbeta i direkt kontakt med sin handledare.

Källförteckning och litteratur

Litteratur

    Blumenau, V. I. Informations- och informationstjänst. / D. I. Blumenau. - L .: Nauka, 1989. - 192 sid.

    Galeeva, I. S. Internet som verktyg för bibliografisk sökning / I. S. Galeeva; vetenskaplig ed. M. I. Vershinin. - St. Petersburg: Yrke, 2007. - 248 s.

    Efimov, A. N. Informationsexplosion: verkliga och imaginära problem / A. N. Efimov. – M.: Nauka, 1985. – 160 sid.

    Informationssökning på Internet: lärobok. bidrag / V. I. Averchenkov, V. V. Miroshnikov, S. M. Roshchin och andra; Bryan. stat tech. un-t. - Bryansk, 2001. - 28 sid.

    Kuzin, F. A. Kandidatens avhandling: skrivmetodik, designregler och försvarsprocedur: praktik. Manual för doktorander och sökande. Grader / F. A. Kuzin. – . - M.: Os-89, 1999. - 208 sid.

    Kuznetsov I. N. Internet inom utbildning och vetenskapligt arbete: En praktisk guide. - 2:a uppl. - M .: Publishing and Trade Corporation "Dashkov and Co", 2005. - 192 sid.

    Kuznetsov I. N. Lärobok om information och analytiskt arbete. M.: Yauza, 2001. - 320 sid.

    Mikhailov, O. A. Nytt i internetsökning baserat på källorna från 2000 / O. A. Mikhailov; Ros. stat båge. sci.-tech. dokumentation. - M.: Max Press, 2001. - 171 sid.

    Parshukova G. B. Metoder för att söka efter professionell information: lärobok-metod. Ersättning / G. B. Parshukova. - St Petersburg: Yrke, 2009. - 224 s.

    Solomenchuk VG Internet: En kort kurs. St Petersburg: Piter, 2001 - 322 s.

Internetresurser

    URL: Internet

    URL: http://ru.wikipedia.org/wiki/Information

1 webbadress: http://en.wikipedia.org/wiki/Internet

Kursarbete

På ämnet: "Organisation av lagring och hämtning av information på Internet"


Introduktion

Internet som informationsmedel i Ryssland kan ännu inte konkurrera med traditionella medier, men det har stora möjligheter i detta avseende och kommer att kunna agera i nivå med andra informationsresurser i framtiden.

För närvarande använder över 500 miljoner människor mer eller mindre regelbundet

Internet, och om två år kommer deras antal, enligt experter, att överstiga 1 miljard, med andra ord mer än 16% av världens befolkning. Naturligtvis kunde en sådan kolossal publik inte förbli outtagna - Internet har länge förvandlats till en enorm informationsplattform.

Över hela världen, och nu i vårt land, har en fungerande webbplats blivit ett tecken på ett stabilt, professionellt arbete i företaget. Internet har länge inte bara varit ett kommunikationsmedel, utan också ett område för seriös kommersiell verksamhet. Nästan alla utländska företag har sitt eget representationskontor, ett virtuellt kontor, på webben. Den totala omsättningen för företag som handlar på Internet når miljarder dollar. Även i Ryssland använder ett ökande antal företag Internet för att marknadsföra sina produkter och tjänster. Det är lätt att bli övertygad om det, efter att ha tittat igenom reklamutgåvor. Bredvid de vanliga telefon- och faxnumren finns fler och fler e-postadresser och webbplatser. Snart kommer avsaknaden av en internetadress att vara lika svår att fungera som avsaknaden av en fax. Den som tar hans plats nu kommer att ha stor nytta av det i framtiden. Detta är effektivitet och relevans. Traditionella medier kan, trots all sin synlighet och förtrogenhet, inte längre ge den lämpliga nivån av lyhördhet som krävs modern man. Därför vänder sig fler och fler människor till Internet för att få den senaste informationen: om tjänster och priser, väder, växelkurser, bara nyheter. Du kan ändra information på webbplatsen flera gånger om dagen. PÅ tryckta publikationer Du måste beställa reklam minst en vecka i förväg, eller ännu mer. Och allt är snabbt på Internet: nya varor eller tjänster, en ny rabatt eller en ny leverantör - imorgon kommer kunderna att få reda på det. Det finns ingen anledning att vänta på nästa nummer av tryckt reklam. Informationen på sajten kommer alltid att vara uppdaterad, den senaste. Det är detta som uppskattas, det är detta som lockar miljontals användare till Internet.


1. Lagra data online Internet

1.1 Hypertextdokument, filtyper

Ett hypertextdokument är ett dokument som innehåller så kallade länkar till ett annat dokument. Allt detta implementeras genom HyperText Transfer Protocol (HTTP).

Information i webbdokument kan sökas efter nyckelord. Det betyder att varje webbläsare innehåller vissa länkar genom vilka så kallade hyperlänkar bildas, vilket gör att miljontals internetanvändare kan söka information runt om i världen.

Hypertextdokument skapas på basis av HTML (HyperText Markup Language). Detta språk är mycket enkelt, dess kontrollkoder, som faktiskt kompileras av webbläsaren för visning på skärmen, består av ASCII-text. Länkar, listor, rubriker, bilder och formulär kallas HTML-element som låter dig navigera till ett annat dokument med ett musklick.

Det finns två sätt att skapa hypertextdokument. Du kan använda en av WYSIWYG HTML-redigerare (till exempel Netscape Composer, vars grunder diskuteras i avsnittet "Computer Text Processing", Microsoft FrontPage, HotDog, etc.), som inte kräver speciell kunskap om den interna strukturen av det skapade dokumentet. Denna metod låter dig skapa dokument för WWW utan kunskap om HTML-språket. HTML-redigerare automatiserar skapandet av hypertextdokument och avlastar rutinarbete. Men deras möjligheter är begränsade, de ökar storleken på den resulterande filen avsevärt, och resultatet som erhålls med deras hjälp uppfyller inte alltid utvecklarens förväntningar. Men naturligtvis är den här metoden oumbärlig för nybörjare vid utarbetandet av hypertextdokument.

Ett alternativ är att skapa och markera dokumentet med en vanlig vanlig textredigerare (som emacs eller NotePad). Med denna metod infogas HTML-kommandon manuellt i texten. Genom att skapa dokument på detta sätt vet du exakt vad du gör.

Som redan nämnts innehåller ett HTML-dokument symbolisk information. En del av den är själva texten, d.v.s. de uppgifter som utgör innehållet i dokumentet. Övrig - taggar(markup-taggar), även kallad uppmärkningsflaggor, är speciella HTML-språkkonstruktioner som används för att markera ett dokument och kontrollera dess visning. Det är HTML-språktaggarna som bestämmer i vilken form texten kommer att presenteras, vilka av dess komponenter som kommer att spela rollen som hypertextlänkar, vilka grafiska eller multimediaobjekt som ska inkluderas i dokumentet. Grafik- och ljudinformation som ingår i ett HTML-dokument lagras i separata filer. HTML-läsare (webbläsare) tolkar markeringsflaggor och ordnar text och grafik på skärmen på lämpligt sätt. För filer som innehåller HTML-dokument accepteras tilläggen .htm eller .html.

Versaler och små bokstäver när du skriver taggar skiljer sig inte åt . I de flesta fall används taggar i par. Paret består av öppnings- (starttagg) och stängande (sluttagg) taggar. Öppna taggsyntax:

<имя_тега [атрибуты]>

Hakparenteser som används i syntaxbeskrivningen betyder att elementet kan utelämnas. Namnet på den avslutande taggen skiljer sig från namnet på den inledande taggen endast genom att den föregås av ett snedstreck:

Taggattribut skrivs i följande format:

namn [= "värde"]

Citaten när du anger argumentvärdet är valfria och kan utelämnas. För vissa attribut kanske ett värde inte anges. Den avslutande taggen har inga attribut.

Åtgärden för en parad tagg börjar på platsen där den öppna taggen möttes och slutar när motsvarande avslutande tagg påträffas. Ofta kallas ett par start- och sluttaggar behållare, och den del av texten som kantas av öppnings- och stängningstaggar är element .

Teckensekvensen som utgör texten kan bestå av mellanslag, tabbar, hopptecken ny linje, vagnretur, bokstäver, skiljetecken, siffror och specialtecken (som +, #, $, @), med undantag för följande fyra tecken som har speciell betydelse i HTML:< (меньше), >(större än), & (ampersand) och " (dubbla citattecken). Om du vill inkludera något av dessa tecken i din text måste du koda det med en speciell teckensekvens.

Icke-brytande mellanslag kan också klassificeras som specialtecken. Att använda detta tecken är ett sätt att öka utrymmet mellan några ord i en text. Vanliga mellanslag kan inte användas för dessa ändamål, eftersom en grupp av på varandra följande mellanslag tolkas av webbläsaren som ett.

1.2 Grafiska filer, deras typer och funktioner

För närvarande verkar användningen av fullfärgsgrafik av hög kvalitet i realistiska färger på datorer av PC-klass helt vardagliga. Även om det inte var så länge sedan var detta privilegiet att publicera system, som vanligtvis byggdes på Macintosh-plattformar eller Silicon Graphics-grafikstationer. PC-användare nöjde sig, som en sista utväg, med grafik med färg, ett maximalt djup på 8 bitar/pixel (256 färger) vid en ganska svag upplösning på 320X200 eller 16 färger vid en upplösning på 640X480.

Nu, med utvecklingen av videoadapterarkitekturer och minskningen av kostnaden för videominne på olika mikrokretsar, PC-baserade system som framgångsrikt arbetar med realistiska (TrueColor) bilder med ett djup på 24 bitar/pixel (mer än 16 miljoner färger) är ganska tillgängliga för den genomsnittliga användaren.

På grund av tekniska framsteg fanns det ett behov av att gå över till PC-plattformen och anpassa sig olika format kodning och lagring grafisk information från andra plattformar (till exempel Macintosh, där sådan utveckling har utvecklats under det andra decenniet), eller utvecklingen av deras egen, fokuserad på PC grafiska format, helt med hänsyn till alla funktioner i arkitekturen för deras videoadaptrar.

Dessutom, under de senaste 5 åren, på grund av den blixtsnabba spridningen av Internet och i synnerhet World Wide Web-tekniken, började en annan typ av problem uppstå - utvecklingen av bildformat som är tillräckligt kompakta för att kunna överföras över nätverk med minimala förseningar och hårdvaruoberoende, eftersom nätverket är anslutet till datorer med olika arkitekturer.

I detta avseende skulle jag vilja kortfattat granska flera vanliga grafiska format och kort beskriva deras möjligheter. All denna information sammanfattas i följande tabell:

Formatera Max. djup färger Max. antal färger

Max. bildstorlek,

Flerbildskodning
BMP 24 16"777"216 65535x65535 RLE* -
gif 8 256 65535x65535 LZW +
JPEG 24 16"777"216 65535x65535 JPEG -
PCX 24 16"777"216 65535x65535 RLE -
PNG 48 281"474"976"710"656 Deflation (LZ77) -
TIFF 24 16"777"216 totalt 4"294"967"295 LZW, RLE och andra* +

Dessutom bör det noteras att de mest kompakta formaten är JPEG, GIF, PNG, som dessutom är plattformsoberoende. BMP-formatet är ett standard Windows-format, men används inte i stor utsträckning på grund av orimliga filstorlekar, speciellt när du sparar grafik med ett färgdjup på 24 bitar/pixel. När det gäller TIFF-formatet bör det noteras att det, liksom JPEG, GIF, är delvis plattformsoberoende, men det är för stort för användning på webben och, ännu värre, för svårt att tolka. Dessutom alla mjukvaruprodukter, inklusive tittare grafiska filer, som innehåller kod för kodning/avkodning av data med hjälp av LZW-algoritmen, måste distribueras under lämpligt licensavtal från Unisys Corp., ägaren till algoritmen, vilket ytterligare ökar kostnaderna för dessa produkter.

Jag skulle vilja överväga ytterligare de plattformsoberoende formaten som antagits på Internet som en de facto-standard: JPEG, GIF, PNG.

Jag vill genast notera att PNG-formatet (Portable Network Graphic) inte kommer att ges mycket uppmärksamhet, även om det kanske förtjänar det. Detta är en konsekvens av det faktum att detta format dök upp för inte så länge sedan och, trots alla dess fördelar, ännu inte har fått universellt erkännande.

Så faktiskt, en person eller ett företag som har för avsikt att lägga ett stort antal bilder på sina diskar och eventuellt göra dem tillgängliga för användning på Internet, står inför ett dilemma: vad man ska välja GIF eller JPEG.

GIF-formatet, utvecklat av CompuServe, och ursprungligen föreslagits specifikt som ett format för utbyte av bilder på nätverket, är ett format med en ganska hög grad av bildkomprimering. Dessutom har GIF ytterligare funktioner som gör det attraktivt att använda på webben. Den första är möjligheten att ändra ordningen i vilken bildlinjerna visas på skärmen och fylla luckorna mellan dem med tidsinformation. Visuellt ser det ut så att när den laddas ner från nätverket (vilket ofta sker i en katastrofalt låg hastighet), ser bilden på skärmen ut som om den är "i låg kvalitet", och sedan, när ytterligare information laddas, återställer den den saknade linjer i bilden. Således kan användaren, även innan nedladdningsprocessen är slut, få en uppfattning om innehållet i bilden och avbryta nedladdningen. skräpfil stor storlek. Den andra möjligheten är att lagra mer än en bild i en fil, vilket gör elementär bild-för-bild-animering möjlig. En annan utmärkande egenskap hos GIF är att en av färgerna kan förklaras "transparent", och när bilden visas kommer de delar av den som är målade med denna färg inte att visas på skärmen och bakgrunden som bilden på är överlagd kommer att synas under dem. Den största nackdelen med GIF är att den bara kan lagra maximalt 256 färger, vilket blir mindre och mindre acceptabelt nu för tiden. Samtidigt lider GIF-användare av samma problem som med TIFF: GIF använder också LZW-komprimering, och därför kan varje bild endast distribueras med lämpligt licensavtal.

JPEG-formatet är ett TrueColor-format, vilket innebär att det kan lagra bilder med ett färgdjup på 24 bitar per pixel. Detta färgdjup är tillräckligt för nästan exakt återgivning av bilder av vilken komplexitet som helst. En djupare färgrepresentation (t.ex. 32 bitar/pixel) visar sig faktiskt vara nästan omöjlig att skilja från denna när den ses på moderna bildskärmar och när den skrivs ut på de flesta tillgängliga skrivare. Ett sådant färgdjup kan endast vara användbart vid publicering. JPEG har i allmänhet en högre grad av bildkomprimering än GIF (mer om denna aspekt i kapitlet JPEG Best Practices), men har inte möjlighet att lagra flera bilder i en enda fil. Nyligen har en modifiering av JPEG-formatet utvecklats, kallad Progressive JPEG, som grovt kan översättas till ryska som "gradual JPEG", som är designad för samma uppgifter som interlaced visning av GIF-bilder. Det gjorde jpeg-formatännu mer attraktiv som nätverksstandard. Men JPEG har också sina nackdelar. Till skillnad från GIF, som effektivt kan komprimera bilder av nästan vilket innehåll som helst, fokuserar JPEG främst på realistiska bilder, det vill säga fotografiska bilder, och komprimeringskvaliteten försämras avsevärt vid bearbetning av bilder med skarpt definierade linjer och färgkanter.

Det är alltså fortfarande omöjligt att göra ett slutgiltigt val till förmån för det ena eller andra formatet. JPEG-formatet förefaller mig dock mer intressant med tanke på den ursprungliga komprimeringsalgoritmen och stora möjligheter för utveckling i framtiden. Dessutom bör JPEG-formatet anses vara otvetydigt mer flexibelt: det låter dig välja mellan bra bildkvalitet eller ett bra komprimeringsförhållande och hitta en acceptabel kompromiss för varje specifikt fall. Därför ägnas all vidare forskning åt detta format.

1.3 Sökmotorer och regler för informationssökning

Bekvämligheten med Internet är att nästan all information kan hittas i det, även när vi inte vet exakt var den finns. Om adressen till sidan med materialet vi är intresserade av är okänd och det inte heller finns några sidor med lämpliga länkar, måste vi leta efter material över hela Internet. För att göra detta används sökmotorer på Internet - speciella webbplatser som låter dig hitta önskat dokument.

Det finns två huvudsakliga metoder för att söka på Internet. I det första fallet letar du efter webbsidor relaterade till ett visst ämne. Sökningen utförs genom att välja en tematisk kategori och gradvis avgränsa den. Sådana sökmotorer kallas sök kataloger.De är praktiska när du behöver bekanta dig med ett ämne som är nytt för dig eller komma till de välkända "klassiska" resurserna om ämnet. Den andra sökmetoden används när ämnet är smalt, specifikt eller sällsynta, föga kända resurser behövs. I det här fallet måste du föreställa dig vilka nyckelord som ska finnas i ett dokument om ett ämne av intresse för dig. Dessa ord bör väljas på ett sådant sätt att de sannolikt finns i rätt dokument som inte är relaterade till det valda ämnet. System som gör att en sådan sökning kan utföras kallas sökindex. Sökkataloger skiljer sig från sökindex inte bara genom hur de söks, utan också i sättet de är utformade. Varje sökmotor på Internet består av två delar. En specialiserad webbsida, tillgänglig för alla och låter dig utföra sökningar, är baserad på en stor, ständigt uppdaterad och uppdaterad databas som innehåller information om Internetresurser.

Metoden för att fylla på denna databas beror på typen av sökmotor, sökkataloger, det viktigaste är noggrannheten i valet. Varje resurs som hittas bör vara användbar. Sidans tema bestäms eller kontrolleras manuellt. På grund av detta är volymen av sökkataloger relativt liten. När volymen närmar sig en miljon sidor är volymen manuellt arbete så stor att den fortsatta tillväxten av katalogen avstannar.

Sökindex är å andra sidan fokuserade på täckningens bredd. Med definitionen av de ord som finns på webbsidan kan automatisering hantera det ganska bra, sökindexdata kan täcka många miljoner webbsidor. Det är dock svårare att söka i ett index än en katalog eftersom samma sökord kan dyka upp på webbsidor om olika ämnen.

Informationshämtningssystem finns på Internet på offentliga servrar. Grunden för sökmotorer är de så kallade sökmotorerna, eller automatiska index. Särskilda robotprogram (även kända som spindlar) i automatiskt läge regelbundet undersöka Internet baserat på vissa algoritmer och indexera de hittade dokumenten. De skapade indexdatabaserna används av sökmotorer för att ge användaren tillgång till information som publiceras på webbnoderna. Användaren, inom ramen för motsvarande gränssnitt, formulerar en begäran som bearbetas av systemet, varefter resultatet av behandlingen av begäran visas i webbläsarfönstret. Frågebehandlingsmekanismer förbättras ständigt, och moderna sökmotorer sorterar inte bara igenom ett stort antal dokument. – Sökningen är baserad på originella och mycket komplexa algoritmer och dess resultat analyseras och sorteras på ett sådant sätt att informationen som presenteras för användaren bäst matchar hans förväntningar.
För närvarande, i utvecklingen av sökmotorer, finns det en tendens att kombinera automatiska indexsökmotorer och manuellt sammanställda kataloger av Internetresurser. Resurserna i dessa system kompletterar varandra framgångsrikt, och det är ganska logiskt att kombinera deras kapacitet.

Ändå visar studier av kapaciteten hos sökmotorer, även de mest kraftfulla av dem, som AltaVista eller HotBot, att den faktiska fullständigheten av täckningen av World Wide Web-resurserna av ett separat sådant system inte överstiger 30%. Därför bör du inte vara begränsad till att använda någon av dem. Om du inte hittar informationen du letar efter med ett system, prova ett annat.

Varje söksystem har sina egna egenskaper och, och kvaliteten på resultatet beror på ämnet för sökningen och noggrannheten i frågeformuleringen. Därför, när du börjar söka efter information, måste du först och främst tydligt förstå vad exakt och var du vill hitta. Till exempel förvånar utländska system med antalet indexerade dokument. Att söka inom området yrkeskunskap, särskilt information om främmande språk, system som AltaVista, HotBot eller Northern passar bäst.

Men för att söka information på ryska, särskilt i den ryska delen av Internet, är ryska sökmotorer bättre lämpade. För det första är de specifikt inriktade på de ryskspråkiga resurserna på webben och kännetecknas som regel av en större fullständig täckning och djupstudie av dessa resurser. För det andra fungerar ryska system med hänsyn till det ryska språkets morfologi, det vill säga alla former av de sökta orden ingår i sökningen. Ryska system tar bättre hänsyn till ett sådant historiskt inslag i ryska internetresurser som samexistensen av flera kyrilliska kodningar.

2. Översikt och egenskaper hos webbsökmotorer Internet

2.1 Vandrare

För att söka efter ryskspråkig information på Internet är det bättre att använda ryska sökmotorer. I det här experimentet och i följande andra kommer vi att söka information med hjälp av flera system utformade för att söka i den rysktalande delen av Internet. Som du kommer att se skiljer de sig inte i grunden från världens sökmotorer. Eftersom vi redan har övervägt flera system, och du känner till de allmänna principerna för att söka efter information på Internet, kommer vi i ytterligare experiment inte att uppehålla oss vid alla subtiliteter. Eftersom dessa system kommunicerar med dig på ryska, kommer du att kunna studera dem på egen hand, med hjälp av den kunskap du fått från tidigare experiment.

Låt oss söka med Rambler-systemet. Som du kommer att se har detta system ett bekvämt system för att söka och utfärda information som hittats.

Du kan söka som world wide web, och i nyhetsgrupper, såväl som i katalogen för detta system och i produkter. Förutom en enkel förfrågan går det att arbeta med detaljerade förfrågningar. Men vi kommer att utföra en enkel fråga, som för andra ryska sökmotorer.

Skriv in orden i frågefältet Internetsökning. Vi vill hitta dokument som innehåller ordet "sökning" och ordet "Internet" samtidigt.

Klicka på knappen Hitta!. Vi fick en lista över hittade sidor.

Listan över hittade sidor är bekvämt organiserad. Länkar till sidor som matchar sökkriterierna listas först. Dokumenten tillgodoser förfrågan bäst där sökorden ofta upprepas och ligger inte långt från varandra. Dessutom markeras de upptäckta nyckelorden i ett kort fragment av texten i det hittade dokumentet.

I Rambler-systemet kan du se de ord som oftast används i användarfrågor. Dessutom upprätthåller Rambler en lista över de mest populära ryska webbplatserna. Eftersom all information i systemet presenteras på ryska, hoppas vi att du självständigt kommer att kunna bekanta dig med funktionerna hos denna sökmotor i framtiden.

2.2 Yandex

Yandex sökmotor finns på www.yandex.ru. Den togs officiellt i drift den 23 september 1997.

Vad är Yandex? Här är hur skaparna av systemet svarar på denna fråga. Yandex är ett fulltextinformationshämtningssystem (IPS) som tar hänsyn till morfologin hos ryska och engelsk. Yandex-systemet är utformat för att söka efter information i elektroniska texter av olika strukturer och olika sätt representationer (format). Yandex (uttalas "yandex") står för "språkindex" eller, på engelsk stavning, Yandex-YetAnotherINDEX. Du kan också betrakta Yandex som en partiell översättning av ordet Index från engelska till ryska ("jag" betyder "jag").

Sökmotorbaserad Yandex system. Ru är systemkärnan som är gemensam för alla produkter med Yandex-prefixet (Yandex. Site, Yandex. Lib, Yandex. Dict, Yandex.CD). De första produkterna i Yandex-serien (Yandex. Site, Yandex. Dict) presenterades för allmänheten den 18 oktober 1996 på Netcom'96-utställningen. Sökmotor för det "ryska Internet". var en naturlig fortsättning på Yandex-linjen. En bra fråga innehåller som sagt hälften av svaret. Att söka och hitta det du behöver i en hög med texter på Internet är en färdighet inte bara för sökmotorn, utan också för användaren som gör förfrågan. Yandex kräver inte att användaren känner till speciella sökkommandon. skriv bara frågan ("var man kan hitta billiga datorer" eller "behöver telefoner i Moskva och Moskva-regionen"), så får du resultatet - en lista över sidor där dessa ord förekommer. Oavsett i vilken form du använde ordet i frågan, tar sökningen hänsyn till alla dess former enligt reglerna för det ryska språket. Till exempel, om frågan ska gå, kommer sökningen att hitta länkar till dokument som innehåller orden "gå", "går", "gick", "gick" etc.

Yandex fungerar inte bara med språkfrågor, utan låter dig också söka endast på vissa servrar ELLER för att utesluta uppenbart onödiga servrar från sökningen. Nu kan du söka efter bilder efter deras bildtexter och filnamn. Objekt som skript, appletar och stilar har också blivit sökbara (sök på namn). Bekväm drift med nya funktioner erbjuds på den avancerade söksidan, där komplexa frågespråk reduceras till att fylla i fält i formuläret. Förutom standardsortering av resultat - efter relevans (det vill säga efter graden av efterlevnad av begäran), kan du sortera dokument efter uppdateringsdatum. En intressant funktion i systemet är möjligheten att söka i Yandex var som helst på Internet. För att göra detta måste du ladda ner ett program som heter Yandex från webbplatsen http://bar.uandex.ru. Bar och ställ in den. Därefter visas en ny panel i webbläsarfönstret. Den är utformad för att ange en sökförfrågan (utan att behöva öppna Yandex-sidan) och utföra ett antal andra funktioner.

Förbi utseende Yandex är en typisk portal på hemsida där du kan hitta länkar till material om nästan alla ämnen. Men detta är inte hans enda ansikte, för "seriösa" användare som inte vill slösa tid på att ladda ner information som för närvarande är onödig, det finns en annan Yandex. Hans sida imponerar med sin blygsamma design och laddningshastighet. Adressen till denna essens av sökmotorn är www.ya.ru.

2.3 Yahoo

Databaser: Hanterar en söktjänst för internetresurser, nyheter, kartor, reklaminformation, sportinformation, företag, telefonnummer, personliga WWW-sidor och e-postadresser (separat databas).

Sök: Alla Yahoo-sidor erbjuder inte bara en enkel sökruta, utan alternativ för den sökningen såväl som en Usenet- eller e-postadresssökning. Sökningen kan begränsas till att ange en viss tidsperiod. Booleska operatorer (och, eller) och sekventiell sökning stöds också. Observera att om du söker Yahoo! inte leder till ett positivt resultat, då växlar sökprocessen automatiskt till Alta Vista, som fortsätter sökningen, och i händelse av positiva resultat, returnerar den hittade informationen automatiskt till Yahoo!.

Om Yahoo! kan inte ansluta snabbt nog med Alta Vista, i det här fallet Yahoo! kommer att tillhandahålla en länksida med en uppsättning sökverktyg. När en av dessa länkar har valts skickas nyckelorden till den sökmotor du väljer.

Ett verktyg som gör sökningen lättare är förekomsten av "tipssökning" (TS) - sök med "tips": Yahoo! Det är en underordnad katalog, vilket innebär att systemet inte har lika många sidor som sökmotorer, men genom att ställa in de vanligaste sökorden kan du hitta det nödvändiga ämnet på högnivåsidan (den första sidan som visas framför av användaren när han besöker webbplatsen) för en organisation eller ett företag.

Resultat: Länkar visas enligt ordningen på de givna orden i söksekvensen tillsammans med deras beskrivande text och underhierarkier.

Adress: http://www.yahoo.com/

2.4 Altavista

AltaVista (www. AltaVista.com) är en av de äldsta sökmotorerna på Internet. Det första webbindexet introducerades av företaget 1995. Kärnan i sökmotorn har sin födelse att tacka för en märklig funktion i DigitalEquipmentCorps forskningslabb. Av någon anledning har de anställda på detta laboratorium behållit all sin elektroniska korrespondens under de senaste 10 åren. För att få denna hög med information att inte bara ta upp diskutrymme, utan åtminstone ge en viss fördel, skapades ett program för att indexera dokument och hitta rätt ord i en hög med gulnad e-post. Systemet visade sig vara så framgångsrikt att det senare framgångsrikt migrerade till vidderna av World Wide Web.

AltaVista Index innehåller dokument på mer än 25 språk. Lokaliserade versioner av AltaVista-webbplatsen finns i domäner i 20 länder. Sökområdet kan innehålla dokument på alla språk som stöds eller bara dokument på ett specifikt språk, och på en dedikerad sida kan du känna igen flera språk för att söka på alla valda språk samtidigt.


Slutsatser och erbjudanden

För närvarande använder Internet nästan alla kända kommunikationslinjer från låghastighet telefonlinjer till höghastighets digitala satellitkanaler. Operativsystem som används på Internet är också olika. De flesta datorer på Internet kör Unix eller VMS. Dedikerade nätverksroutrar som NetBlazer eller Cisco, vars OS liknar Unix OS, är också brett representerade.

Faktum är att Internet består av många lokala och globala nätverk som tillhör olika företag och företag, sammankopplade med olika kommunikationslinjer. Internet kan ses som en mosaik av små nätverk av olika storlekar som aktivt interagerar med varandra, skickar filer, meddelanden och så vidare.

Ett exempel på internets topologi är X-Atom-nätverket, som består av flera subnät, och samtidigt är ett fragment av det världsomspännande Internet.

Idag finns det mer än 130 miljoner datorer i världen och mer än 80 % av dem är anslutna i olika informations- och datanätverk från små lokala nätverk på kontor till globala nätverk som Internet. Den världsomspännande trenden mot att ansluta datorer i ett nätverk beror på ett antal viktiga skäl, såsom att snabba upp överföringen av informationsmeddelanden, möjligheten att snabbt utbyta information mellan användare, ta emot och överföra meddelanden (fax, e-postbrev, etc.) .) utan att lämna arbetsplatsen, möjligheten att omedelbart ta emot information från var som helst i världen, samt utbyte av information mellan datorer från olika tillverkare som använder olika programvaror.

Så stora möjligheter att datornätverk och den nya potentiella ökningen som informationskomplexet upplever, liksom en betydande acceleration av produktionsprocessen, ger oss inte rätten att inte acceptera detta för utveckling och att inte tillämpa dem i praktiken.

Därför är det nödvändigt att utveckla en grundläggande lösning på frågan om att organisera ett IVS (informations- och datornätverk) på basis av en befintlig datorpark och ett mjukvarupaket som uppfyller moderna vetenskapliga och tekniska krav, med hänsyn till de växande behoven och möjlighet till ytterligare successiv utveckling av nätet i samband med att nya tekniska och mjukvarulösningar dyker upp.

Internet fortsätter att utvecklas med outtröttlig intensitet och raderar faktiskt begränsningen för distribution och mottagande av information i världen. Men i denna ocean av information är det inte särskilt lätt att hitta erforderligt dokument. Man bör också komma ihåg att nya servrar dyker upp i nätverket tillsammans med långvariga servrar.

Förutom "allmänna" servrar finns det specialiserade sajter inom ett visst område, till exempel för högenergifysik - http://xxx.lanl.gov.

När du importerar artikelfiler bör du också tänka på att de ofta lagras i PostScript-format (med tillägget PS'', EPS'') avsedda för utskrift på en laserskrivare, så i det här fallet efter att ha mottagit dem för visning och utskrift på matris eller Inkjet skrivare du bör använda ett speciellt program som GhostView.

Det råder ingen tvekan om att användningen av Internet i vetenskapligt arbete gör att du kan få den hetaste informationen och hålla kontakten med kollegor i världen.

Det finns spekulationer om att Internet kommer att ersätta och ersätta böcker. Nu hindras detta av ett antal faktorer. För det första bristen på komfort när man läser böcker från en datorskärm. Och medan bärbara e-läsare redan finns, räcker uppenbarligen inte deras skärmupplösning. För det andra är upphovsrätten för elektroniska publikationer inte fullt utvecklad.

I framtiden kommer Internet avsevärt att ersätta traditionella medier på grund av dess flexibilitet, lyhördhet och interaktivitet.

Idag upptäcker många människor oväntat att det finns globala nätverk som förenar datorer runt om i världen till ett enda informationsutrymme som kallas Internet. Vad det är är inte lätt att definiera. Ur teknisk synvinkel är Internet en sammanslutning av transnationella datornätverk som arbetar med olika protokoll, som kopplar ihop alla typer av datorer, fysiskt överför data över alla tillgängliga typer av linjer - från tvinnade par och telefonledningar till optisk fiber och satellitkanaler. De flesta datorer på Internet är anslutna med TCP/IP-protokollet. Vi kan säga att Internet är ett nätverk av nätverk som trasslar in hela världen.


1. Informatik / Kurnosov A.P., Kulev S.V., Ulezko A.V. och så vidare.; Ed. A.P. Kurnosova.-M: KolosS, 2005. - 72 sid. (Läroböcker och läromedel för studenter vid högre läroanstalter)

2. Workshop om informatik: Proc. bidrag / Ed. Kurnosova A.P. - Voronezh: VGAU, 2004. -239 sid.

3. Datavetenskap. Lärobok. - 3:e uppl., Reviderad / Utg. N.V. Makarova. - M.: Finans och statistik, 2002. - 256 sid.

4. Datavetenskap. Grundkurs / Simonovich S.V. och andra - St Petersburg: Peter, 2006. - 639 s.: ill.

5. Krupnik A.B. Internetsökning: handledning. - 2:a uppl. - St Petersburg: Peter, 2004. - 572 sid.

6. Orlov A.A. Nödvändiga program för Internet - St. Petersburg: Peter, 2006. - 127 s.

7. Solonitsyn Yu.A., Kholmogorov V. Internet. Encyklopedi. – 3:e av. - St Petersburg: Peter, 2003. - 592 sid.

8. Reznikov F.A. Vi behärskar snabbt och enkelt arbetet på Internet. - M .: Bästa böcker, 2002. - 284 sid.

9. Datornätverk och informationssäkerhetsverktyg: Proc. ersättning / Kamalyan A.K., Kulev S.A., Nazarenko K.N. etc. - Voronezh: VGAU, 2003. - 119 sid.

10. Olifer V.G., Olifer N.A. Dator nätverk. Principer, teknologier, protokoll. - St Petersburg: Peter, 2002. - 672 s.: ill.

11. Internet: Encyclopedia / Ed. L. Melikhova. - 2:a uppl. - St Petersburg; M.; Charkiv; Minsk; Peter, 2000. - 527 sid.

12. Mushtovaty I.F. Handledning för att arbeta på Internet / Under det allmänna. ed. MI. Monastyrsky. - 2:a uppl., tillägg. och reviderad - Rostov n / a: Phoenix, 2002.-312 sid.

13. Popov V. Workshop om internetteknik: Träningskurs/ V. Popov.-S:t Petersburg; M.; Charkiv; Minsk: Piter, 2002. - 476 s.: ill.

14. Datornätverk och verktyg för informationssäkerhet: Handledning/ Kamalyan A.K., Kulev S.A., Nazarenko K.N. etc. - Voronezh: VGAU, 2003. - 119 sid.

15. Zaika A.A. Datanätverk - M: Olma-Press, 2005. -448 sid.

16. Datanätverk: Utbildningskurs - 2:a uppl. (+CD-ROM). - Microsoft Press, rysk upplaga, 1998.

17. Grunderna i modern datorteknik. Ed. Homonenko A.D. - Krontryck, St. Petersburg 1998.

18. Personliga datorer i TCP/IP-nätverk. Craig Hunt; transl. Från engelska. – BHV-Kiev, 1997.

19. Federal lag Ryska Federationen"Om information, informatisering och informationsskydd" daterad 20 februari 1995 nr 24-FZ.

20. Comer D. Principer för Internet: TRANS. från engelska / D. Comer. - SPB.; M.; Charkiv; Minsk: Piter, 2002.-379 sid.

Introduktion. - fyra

1. System för informationssökning. - 5

1.1. Dokumentär IPS. - 6

1.2. Faktisk IPS. - åtta

2. Sökmotor globalt nätverk"Internet". - 9

2.1. Hur sökmotorer fungerar. - 9

2.2. sökteknik. - fjorton

3. Sökmotorer i det globala nätverket "Internet". - arton

3.1. Hur man söker på Internet - 18

3.2. sök kataloger. - 21

3.3. Sökpekare. - 23

4. Jämförande egenskaper hos två sökmotorer

system baserade på Rambler.ru och Yandex.ru. - 29

4.1. Rambler.ru - 29

4.2. Yandex.ru. - 35

Slutsats. - 40

Litteratur. - 42

Ansökan. - 43

Introduktion


Internet har avsevärt förenklat det moderna samhällets liv, globaliserat det, ökat vissa människors möjligheter och minskat andras möjligheter. Idag är det mycket bekvämare och mer lönsamt att använda posttjänster via Internet (till exempel kommer ett brev från Tobolsk till London att nå dig på 5 sekunder).

Enligt mina observationer har Internet blivit en affärskälla, en källa till världskultur, en källa till utbildning, en massmedia.

Idag kan alla internetanvändare få tillgång till alla världens börser och museer på ett par sekunder. Alla användare kan få utbildning via Internet, bekanta sig med världens ledande elektroniska tidningar.

Information har blivit vår tids virtuella guld, och de som kan få den snabbare kommer att nå snabbare och större framgång. Oavsett om du är en affärsman som letar efter en ny marknad eller en student som letar efter terminsuppsatsmaterial, behöver båda information och Internet kan ge dem det om de har kunskapen att ta det.

Jag skulle behöva lista fördelarna med internet för jordens medborgare under en lång tid, men jag är rädd att jag inte skulle avsluta det snart.

Jag vill notera det viktigaste på Internet, några av dess "hörnsten", detta är information och dess huvudsakliga egenskaper:

1) Stor tillgänglighet

2) Hastighet

Oerfarna användare har en myt att Internet har allt. Min erfarenhet på Internet har faktiskt visat att så inte är fallet. Material för inlägg på webben är förberedda av levande människor, och därför kan du bara hitta det som de anser vara nödvändigt (i betydelsen användbart eller fördelaktigt för dem själva) att publicera. Floden matas dock av bäckar, och tack vare deras kreativitet har cirka två miljarder webbsidor redan skapats på Internet idag. Som ett resultat har det blivit ett stort problem att katalogisera de resurser som finns tillgängliga på webben. Trots att tusentals organisationer är inblandade i det kommer problemet inte bara att inte bli löst, utan blir allt mer akut. Andelen katalogiserade (eller indexerade) resurser sjunker stadigt. Under de senaste två åren har denna nedgång varit katastrofal. Så om andelen indexerade resurser år 2000 närmade sig 40 %, så sjönk den bara till 25 % under ett nästa år. Slutsatsen är enkel: webbutrymmet fylls upp snabbare än det är systematiserat. Tyvärr har internetspecialister ingen anledning att tro att något kan förändras till det bättre inom en snar framtid. Som ett resultat kan hitta information på World Wide Web anses vara den svåraste uppgiften på Internet.

I samband med ovanstående är den kvalitativa sökningen efter information på Internet ett av de mest pressande ämnena i vår tid, detta problem har påverkat mig mer än en gång.

Ämnet för min terminsuppsats intresserade mig med dess originalitet och nyhet, och jag vill försöka avslöja det. Min uppgift kommer att vara den kvalitativa organisationen av informationssökningen på Internet.

1. System för informationssökning


Innan du når de specifika sökmekanismerna i det globala nätverket "Internet" är det nödvändigt att demontera teoretisk grund sådana frågor som "vad är information?", "Informationsprocesser?", "Informationshämtningssystem och dess typer?".

Det finns inget entydigt svar på vad information är, vi kan bara ge några av de egenskaper som kännetecknar denna term:

" Information - detta är information som är föremål för lagring; det är innehållet i meddelandet, signalen, minnet, såväl som informationen i meddelandet, signalen, minnet.

Processerna för överföring, lagring och bearbetning av information har alltid spelat en viktig roll i samhällets liv. Människor utbyter muntliga meddelanden, anteckningar, meddelanden. De skickar förfrågningar, order, rapporter om utfört arbete, inventeringar av egendom till varandra; publicera annonser och vetenskapliga artiklar; behålla gamla brev och dokument; de funderar länge på de mottagna nyheterna eller skyndar genast att följa sina överordnades instruktioner. Allt detta - informationsprocesser. Information förknippas alltid med en materialbärare och dess överföring - med kostnaden för energi. Samma information kan dock lagras i en annan materiell form (på papper, i form av ett fotonegativ, på ett magnetband, ...) och överföras med olika energikostnader (per post, per telefon, med bud, etc.), dessutom är konsekvenserna - inklusive väsentliga - av den överförda informationen helt oberoende av de fysiska kostnaderna för dess överföring. Till exempel, en lätt knapptryckning sänker en tung teatergardin eller spränger en stor byggnad, ett rött trafikljus stoppar ett tåg och oväntade dåliga nyheter kan orsaka en hjärtattack. Därför är informationsprocesser inte reducerbara till fysiska, och information, tillsammans med materia och energi, är en av de grundläggande essensen i världen omkring oss. På 1900-talet med utvecklingen av teknik dök nya enheter upp: kommunikation, automationsenheter och från 40-talet. - datateknik. Det visade sig att det var omöjligt att beskriva effektiviteten av deras arbete med hjälp av fysiska koncept och att de väsentliga egenskaperna hos sådana enheter behövde beskrivas på helt andra sätt. Som ett resultat uppstod det exakta informationsbegreppet och den matematiska teorin om information för första gången. Det blev tydligt att kommunikationsmedlen, oavsett vilka fysiska processer de använder, är medel för att överföra information. Att kombinera begreppen "information" och "ledning" ledde N. Wiener på 40-talet. till skapandet av cybernetik, som i synnerhet för första gången pekade på gemensamma informationsprocesser inom teknik, samhälle och levande organismer.

Användningen av begreppet information har haft en betydande inverkan på utvecklingen av modern biologi, särskilt dess avsnitt som neurofysiologi och genetik. Och slutligen, i samband med utvecklingen av datateknik, som stimulerade informatiseringen av hela samhället, uppstod ett komplex av vetenskaper om olika aspekter av arbetet med information - datavetenskap.

" System för informationssökning är ett system där en informationsmatris lagras, från vilken, enligt användarnas krav, den nödvändiga informationen utfärdas.

Sökningen efter information på användarens begäran utförs antingen automatiskt eller manuellt (som i bibliotek, när en läsare kontaktar en anställd i referensfonden med en begäran och den anställde använder katalogsystemet). I det andra fallet används datorer utrustade med speciella mjukvaruverktyg som analyserar processerna för förfrågningar, sökning och utfärdande av nödvändiga dokument. Således implementerar informationshämtningssystem (IPS) en fråga-svar-relation, som för de uppgifter som skaparna av sådana system står inför närmare de uppgifter som skaparna av människa-maskin-system löser.

Informationshämtningssystem är indelade i två typer:

1. Dokumentär IPS.

2. Fakta IRS.

1.1 Dokumentär IPS


I en sådan IPS indexeras alla lagrade dokument på något speciellt sätt. Varje dokument (artikel, rapport, protokoll etc.) tilldelas en individuell kod som utgör sökbilden av dokumentet. Sökningen baseras inte på själva dokumenten utan på deras sökbilder, som innehåller information (adress) om var dokumentet finns. Så söker läsaren efter böcker på stora bibliotek (på små bibliotek brukar bibliotekarien själv söka böcker). På läsarens begäran hittar de först kortet i katalogen, och sedan, med hjälp av koden som anges på den, hittas även själva boken.

Skillnader i dokumentografisk IPS bestäms av hur sökbilden av dokumentet är ordnad. I det enklaste fallet är detta helt enkelt dess individuella titel (till exempel titel, författare, bokens utgivningsår). I mer komplexa fall finns det ingen en-till-en-överensstämmelse mellan sökbilden för ett dokument och själva dokumentet. Det är mycket möjligt att sökbilden av ett dokument motsvarar flera olika dokument, och vice versa, ett och samma dokument motsvarar inte en utan flera sökbilder.


Sådan oklarhet finns till exempel av sökbilder av dokument i deskriptorsystem. "En deskriptor är ett ord eller en fras som är nära relaterat till innehållet i ett dokument. En uppsättning deskriptorer definierar en grupp av dokument med liknande innehåll." Nyligen kräver tidskrifter som publicerar vetenskapliga artiklar att deras författare tillhandahåller en lista med nyckelord för varje artikel, som fungerar som deskriptorer. Om du till exempel beskriver artikeln du läser med hjälp av nyckelord, så kommer en av de möjliga listorna att vara följande: informationssökning, informationssökningssystem, deskriptor, synonymordbok, dokumentsökningsbild.

Enligt uppsättningen av dessa nyckelord (uppsättning av deskriptorer) kan man hitta den här artikeln bland alla artiklar i boken, om man skriver in dess artikel-för-artikel-innehåll i någon deskriptor-typ IPS.

Det allmänna blockschemat för IPS av deskriptortyp visas i figur 1. Denna krets har två ingångar. En efter en fylls informationsuppsättningen av dokument som lagras i systemet på, och den andra tar emot användarförfrågningar.

1.2 Faktisk IPS

Till skillnad från dokumentgrafisk IPS lagrar denna typ av IPS inte dokument, utan fakta relaterade till vilket ämnesområde som helst. Lagrade fakta kan hämtas från olika dokument. Till exempel är det nödvändigt att omarbeta 1700-talets historia på grundval av fakta; de är sammankopplade av ett system av olika relationer. Ett sådant nätverk i IPS kallas tesaurus för ämnesområdet. Frågor till faktografiska IPS:er använder en synonymordbok för att hitta svar på frågorna. Sökningen utförs med sökmetoden, enligt den modell som används allmänt i kunskapsbaserna för artificiella intelligenssystem.

Till exempel är det nödvändigt, efter att ha omarbetat 1700-talets historia, att samla in all information om Catherine II.

Informationssystem av faktografisk typ närmar sig gradvis i sin organisation och funktion utvecklade databaser och kunskaper.

2. Söksystem för det globala nätverket "Internet".


Jag vill inte komma ut i det vilda inre arbete sökmotor (på elektronisk nivå), eftersom detta uppfyller inte målen för mitt arbete, och enligt min åsikt är detta arbetet av programmerare på den högsta nivån som jag nu strävar mot.

Jag vill plocka isär och lägga den på hyllorna, hur jag förstod tekniken för informationssökning och själva mekanismen för informationshämtning.

2.1 Sökteknik på Internet


Själva söktekniken blir mer begriplig i fig-2.

1) Till att börja med löser användaren ett sådant problem som han vill hitta, och var det kan lokaliseras.

2) Sedan går han in på Internet, i ett vanligt Internet Explorer-fönster (Webbläsare) (Fig-3). Om användaren känner till namnet på webbplatsen där informationen han är intresserad av finns, rapporterar han helt enkelt sitt namn och anger det.

Exempel. Användaren vill veta dagens filmdistribution och besöker sajten film.ru (Fig. 3).

Detta är det mest primitiva sättet att söka information på Internet, och denna sökning kan ta slut.

information om en film som länge har varit ute på bio, till exempel, hitta filmen "Brother-2", bara i fönstret



Sökningen utförs automatiskt baserat på antalet ord som hittas på servern. Den första gruppen av hittade länkar med de bästa resultaten när det gäller antalet förekomster av sökorden som hittas kommer att överföras till hans dator.

Ofta, tillsammans med en länk, kan kort information om dokumentet visas. Om det inte finns några nödvändiga bland de hittade dokumenten, kan du visa följande grupp - Totala numret Dokument uppgår vanligtvis till tusentals. För att komma till servern där den hittade informationen finns klickar du bara på länken i sökresultatet.

Detta är det mest primitiva sättet att söka information på Internet, och denna sökning kan ta slut.

Det finns också sökmotorer inom webbplatsen (lokala).

Exempel. I samma film.ru finns en möjlighet att se

information om en film som är borta från biografer, till

Hitta till exempel filmen "Brother-2", nog i fönstret

sök skriv ordet Brother-2. (Fig-3)

3) Om användaren inte vet namnet på webbplatsen där han kan hitta informationen han är intresserad av, så tar han till hjälp av någon sökmotor. Nätverket har ett betydande antal hjälpsystem. Efter att ha angett den angivna servern kommer han att få ett förfrågningsformulär på skärmen, där han måste ange information för sökningen. Vanligtvis i formen är det möjligt att begränsa sökområdet (till exempel efter ämne). Han kan ange önskad term, definiera omfattningen av sökningen och försöka få ett svar.

Sökningen utförs automatiskt baserat på antalet ord som hittas på servern. Den första gruppen av hittade länkar med de bästa resultaten när det gäller antalet förekomster av sökorden som hittas kommer att överföras till hans dator. Ofta, tillsammans med en länk, kan kort information om dokumentet visas. Om det inte finns några nödvändiga dokument bland de hittade dokumenten kan följande grupp visas - det totala antalet dokument är vanligtvis i tusental. För att komma till servern där den hittade informationen finns klickar du bara på länken i sökresultatet.

Vanligtvis kommer en sökning efter ett par nyckelord att returnera tiotusentals länkar till dokument som innehåller dessa termer. En sådan volym av resultat låter dig sällan hitta "pärlan" bland material som inte är relaterade till sökämnet. Vad kan rekommenderas?

Först måste användaren begränsa sökområdet. Försök att avgöra på servrarna för vilken profil, i vilket land, etc. mest sannolikt att hitta intressant material. Fundera på vilka andra nyckelord som kan känneteckna sökobjekten, använd flera nyckelord.

Om sökobjektet anger flera termer, söker sökmotorn oberoende efter förekomsten av varje ord i dokumentet. Det vill säga att du kan få ett dokument som ett resultat av sökningen, som bara innehåller ett ord, men flera gånger. Därför är det möjligt och nödvändigt att använda logiska operationer när man definierar termerna för vilka sökningen utförs.

Om du till exempel skriver word_1&word_2 kommer du att tvinga dig att söka efter de sidor där både den första och andra termen används.

För det andra är det nödvändigt att göra en sökning på alla kända sökmotorer. Var och en av dem använder sin egen, lite annorlunda sökteknik. Därför kan helt liknande sökningar leda till olika resultat. De flesta sökmotorer är gratis, så det finns inget som hindrar dig från att göra så många sökningar som du behöver.

För det tredje, mycket ofta kan en sökning efter dokument baserat på möjliga referenser till dem ge resultat.

Användaren bör försöka avgöra vilka kända dokument som kan innehålla referenser till hans ämnen. Och redan genom hypertextlänkar i dokument för att nå önskad källa. Ofta är detta sätt effektivt. Försök att hitta organisationer (WWW-servrar) som har en profil som liknar sökämnet. Ibland, genom länkar i dokumenten på dessa servrar, kan du komma åt det nödvändiga materialet.

För det fjärde, försök att hitta en konferens om ett liknande ämne, dvs. gå bara till någon CHAT. Till exempel i www.anekdotov.net.ru. Ofta ger en fråga som "slängs" i en telefonkonferens tillräckligt med bakgrundsinformation.

Och slutligen, glöm inte att fråga dina vänner. De kan föreslå oväntade lösningar.

I vilket fall som helst måste du ställa in dig på det faktum att sökningen kan ta ganska lång tid och kräva avsevärd ansträngning från honom.

Exempel. Användaren går in i Yandex.ru-sökmotorn och skriver ordet Brat-2 i sökfönstret, sedan söks allt som på något sätt kan kopplas till detta ord. Yandex kommer att rekommendera att du vänder dig till många webbplatser, inklusive film.ru och direkt till webbplatsen om själva filmen. (fig-4)

2.2 Hur sökmotorer fungerar

En sökmotor söker vanligtvis efter den önskade informationen i tre steg:

I) Stadium: En robot (agent, spindel eller sökrobot) roamar på webben och samlar in information.

II) Stadium: All information som samlas in av robotar kommer in i databasen i form av länkar - indexerade.

III) Stadium: Sökmotorn lanseras, som användare använder som ett gränssnitt för att interagera med databasen. de där. det fanns ett problem i databasen med hyperlänkar och sedan finns det en vanlig uppräkning av de nödvändiga länkarna av användaren.

Dessa steg är tydligt uttryckta i arbetet med flödesschemat (Fig-2)

De två första är förberedande och osynliga för användaren.

Låt oss överväga mer i detalj stadierna av informationssökning i

Sökmotor:

I) Scen. Sökmotorn samlar in information från World Wide Web. För denna användning specialprogram, webbläsarliknande. De kan kopiera en given webbsida till en sökindexserver, skanna den, hitta alla hyperlänkar den innehåller, följa webbadresserna de innehåller, kopiera resurserna som finns där, söka efter hyperlänkarna de innehåller igen och så vidare. . Det här är specialprogram som agenter, spindlar, sökrobotar och robotar som söker efter sidor på webben, extraherar hypertextlänkar på dessa sidor och automatiskt indexerar informationen de hittar för att bygga en databas. Varje sökmotor har sin egen uppsättning regler som avgör hur dokument samlas in. Vissa följer varje länk på varje sida de hittar, och undersöker sedan i sin tur varje länk på var och en av de nya sidorna, och så vidare. Vissa människor ignorerar länkarna som leder till grafik- och ljudfiler, animationsfiler; andra instrueras att titta på de mest populära sidorna först.

Agenter - det mest "intelligenta" av sökverktygen. De kan göra mer än att bara söka: de kan lämna ett meddelande om ditt besök på webbplatsen. Redan kan de söka efter specifika webbplatser och returnera listor över webbplatser sorterade efter deras trafik. Agenter kan behandla innehållet i dokument, hitta och indexera andra typer av resurser, inte bara sidor. De kan också programmeras för att extrahera information från redan existerande databaser. Oavsett vilken information agenterna indexerar skickar de tillbaka den till sökmotordatabasen.

Den allmänna sökningen efter information på webben utförs av program som kallas spindlar. Spindlar rapportera innehållet i det hittade dokumentet, indexera det och extrahera sammanfattningsinformationen. De tittar också på titlarna, några av länkarna och skickar den indexerade informationen till sökmotorns databas.

Crawlers titta på rubrikerna och returnera endast den första länken.

Robotar kan programmeras att följa olika länkar med olika häckningsdjup, utföra indexering och till och med kontrollera länkar i ett dokument. På grund av sin natur kan de fastna i cykler, så de behöver betydande webbresurser för att följa länkar. Det finns dock metoder utformade för att förhindra robotar från att söka på sajter vars ägare inte vill att de ska indexeras.

Robotar hämta och indexera olika sorter information. Vissa indexerar till exempel varje enskilt ord i ett mötesdokument, medan andra bara indexerar de viktigaste 100 orden i varje, indexerar dokumentets storlek och antal ord, titel, rubriker och underrubriker, och så vidare.

Typen av index som byggs avgör vilken typ av sökningar som kan göras av sökmotorn och hur den resulterande informationen kommer att tolkas.

Människor som vill ge information till allmänheten, eller som vill ha mer trafik till sin webbplats, lägger in korta utdrag om vad den här sidan är direkt i indexet och fyller i ett speciellt formulär för det avsnitt de tror kommer att hänvisas till. sökrobot och dra in den här webbplatsen i databasen och tillhandahåll den till någon användare.

När någon vill hitta information tillgänglig på Internet, besöker han en sökmotorsida och fyller i ett formulär som beskriver den information han behöver. Nyckelord, datum och andra kriterier kan användas här. Kriterierna i sökformuläret måste matcha kriterierna som används av robotar när de indexerar informationen de hittar när de navigerar på webben.

Den indexerade informationen skickas till sökmotordatabasen på samma sätt som beskrivits ovan.

II) Stadium: Efter att ha kopierat de sökta webbresurserna till sökmotorns server börjar det andra steget av arbetet - indexering. Under indexeringen skapas speciella databaser, med hjälp av vilka det är möjligt att fastställa var och när ett visst ord påträffades på Internet. En indexerad databas är en sorts ordbok. Det är nödvändigt så att sökmotorn kan svara på användarförfrågningar mycket snabbt.

Databasen slår upp ämnet för begäran baserat på informationen i det ifyllda formuläret och matar ut motsvarande dokument som har utarbetats av databasen. För att bestämma i vilken ordning listan med dokument kommer att visas använder databasen en rangordningsalgoritm. Helst placeras de dokument som är mest relevanta för användarens fråga först i listan.

"Sorteringen av de erhållna resultaten kallas ranking."

Olika sökmotorer använder olika rankningsalgoritmer, men de grundläggande principerna för att bestämma relevans är följande:

Antalet frågeord i dokumentets textinnehåll (dvs. i HTML-koden).

Taggar där dessa ord finns.

Sökordens plats i dokumentet.

Andelen ord med avseende på vilken relevans bestäms av det totala antalet ord i dokumentet.

Dessa principer gäller för alla sökmotorer. Och de nedan används av vissa, men ganska välkända (som AltaVista, HotBot).

Tid – hur lång sidan finns i sökmotordatabasen. Vid första anblicken verkar detta vara en ganska meningslös princip. Men om du tänker efter, hur många sajter finns det på Internet som lever i högst en månad! Om sajten har funnits länge betyder det att ägaren är mycket erfaren i detta ämne och att användaren är mer lämpad för en sajt som har sänt till världen om uppförandereglerna vid bordet i ett par år än en som dök upp för en vecka sedan med samma ämne.

Citationsindex - hur många länkar till denna sida leads från andra sidor registrerade i sökmotordatabasen. Databasen matar ut en liknande rankad lista med HTML-dokument och returnerar den till användaren som gjorde begäran. Olika sökmotorer väljer också olika sätt visa den resulterande listan - vissa visar bara länkar; andra matar ut länkar med de första meningarna i dokumentet, eller dokumentets titel tillsammans med länken.

III) Scen. Användarens begäran behandlas och sökresultaten returneras till honom i form av en lista med hyperlänkar. Sedan kommer användarens jobb att omarbeta länkarna som tillhandahålls av databasen. När han klickar på en länk till ett av dokumenten som han är intresserad av, begärs detta dokument från servern där det finns, om användarens information på denna sida inte tillfredsställer honom klickar han på en annan länk. Detta steg kan vara försenat och vara det svåraste för användaren.


3. Sökmotorer

Det finns många sökmotorer (sökmotorer) på Internet, de har olika typer, alla med sina egna för- och nackdelar. Användaren kommer alltid att bli överväldigad av sådana frågor: hur man söker på Internet, vilken bil är bättre. Så jag ska försöka svara på dessa frågor.

3.1 Hur man söker på webben

När du söker på Internet är två komponenter viktiga - fullständighet (ingenting går förlorat) och noggrannhet (ingenting extra hittas). Vanligtvis kallas allt detta i ett ord - relevans, det vill säga överensstämmelsen med svaret på frågan.

1. Täckning och djup. Täckning avser volymen av sökmotordatabasen: som mäts med tre indikatorer - den totala mängden indexerad information, antalet unika servrar och antalet unika dokument. Djup avser om det finns en gräns på

antalet sidor eller djupet av katalogen som kapslar på en enda server.

Så här kontrollerar du: Vissa maskiner skriver robotstatistik på sin hemsida. Men du kan kontrollera det själv - du måste ställa in flera sökfrågor som består av ett ord (för att utesluta påverkan av frågespråket, inklusive olika tolkningar av utrymmet), och samtidigt titta på statistiken över resultaten som utfärdas av maskinen - vanligtvis i början av listan anges hur många av alla dokument som hittades. Förutom att orden ska vara från olika områden är det också bra att ta ord av olika "vikt" - sällsynt, "medelstort" och "tungt" (frekvent), och jämföra antalet hittade. Särskilt tunga ord testar hela texten (indexering av alla ord i ett dokument) i en sökmotor.

Det är svårare att kontrollera robotens gångdjup - för detta måste du ta några webbplatser, till exempel med en förgrenad arkivstruktur, och kontrollera om dokument är indexerade, som endast kan nås med 6 klick .

2. Genomsökningshastighet och länkarnas relevans.

Webbtrafikhastighet visar hur snabbt en nytilllagd resurs indexeras och hur snabbt informationen i databasen uppdateras. En viktig indikator på kvaliteten på en sökmotor (dess robot) är inte bara "beslagtagandet" av nya territorier: utan också

spårningsstatus redan täckt. Servrar försvinner och dyker upp, sidor på dem uppdateras. Länkarna som sökmotorn ger ut i listan över hittade föremål måste för det första finnas, och för det andra måste deras innehåll motsvara förfrågan.

Så här kontrollerar du: Objektiv information kan erhållas genom att analysera serverloggar - en sökmotorrobot representeras vanligtvis av namnet på sin maskin (eller liknande), så att du kan se hur ofta den besöker servern, hur många sidor den tittar på osv. Tyvärr är vanligtvis bara loggen för din webbplats tillgänglig för studier, så den experimentella metoden finns kvar.

För att bestämma genomsökningshastigheten måste du skapa en sida med text någonstans, lägga till den i sökmotorer och se hur snabbt den börjar dyka upp. Eller ändra en befintlig sida. För att bestämma relevansen av länkar - kontrollera dokumenten åtminstone på första sidan i listan som hittas av flera frågor. Meddelandet "Not Found" indikerar att dokumentet inte längre finns.

3. Sökkvalitet(subjektiv indikator).

Varje sökmotor har sin egen algoritm för att sortera sökresultat. Ju närmare toppen av listan är dokumentet du behöver, desto bättre fungerar relevansen.

Så här kontrollerar du: Endast genom experiment. Det rekommenderas att göra förfrågningar av olika längd för jämförelse. Du kan också använda frågespråket, medan de som drar sig för att läsa beskrivningen kan använda den utökade frågesidan ("avancerad sökning" i Aport och Yandex, "detaljerad fråga" i Rambler - översättningsalternativ till ryska "avancerad sökning").

Förutom relevans finns det viktiga användaregenskaper.

1. Sökhastighet. Om sökmotorn svarar långsamt är det ineffektivt att arbeta med den. Det är värt att tillägga att hastigheten som användaren ser beror inte bara på själva sökmotorn utan också på internetkanaler.

Så här kontrollerar du: Genom att experimentera - du behöver söka efter frågor av olika längd, olika "tyngd" av ord och vid olika tidpunkter på dagen (serverbelastningen är betydligt ojämn under dagen, toppen är cirka tre till fyra timmar på eftermiddagen).

2. Sökfunktioner (att arbeta med dokumentspråket, frågespråk). En annan jämförelsepunkt är exakt vad och hur sökmotorn bidrar till indexet. En sökmotor i fulltext indexerar alla ord i den användarsynliga texten. Närvaron av morfologi gör det möjligt att hitta de önskade orden i alla deklinationer eller konjugationer. Dessutom finns det i HTML-språket taggar som också kan bearbetas av en sökmotor (titlar, länkar, bildtexter etc.). Nästan alla maskiner har ett frågespråk i form av vanliga logiska operatorer (AND, OR, NOT). Vissa människor kan söka efter fraser eller ord på ett givet avstånd - detta är ofta viktigt för att få ett rimligt resultat. Ytterligare funktionär en sökning i dokumentzoner - rubriker, länkar, nyckelord (META KEYWORDS) etc. En ytterligare funktion hos frågespråket är en naturlig språkfråga som inte kräver kunskap om operatörer.

Så här kontrollerar du: Vanligtvis publiceras denna information på sökmotorns server (i hjälpen "e). Det rekommenderas dock att kontrollera verkliga förfrågningar, eftersom det du vill ibland anses vara giltigt.

3. Ytterligare bekvämligheter. Detta är ytterligare funktioner som sökmotorn tillhandahåller användarna. Detta inkluderar alla typer av sökalternativ (specialiserade sidor, sökning efter liknande dokument, begränsning av sökområdet), och en lista över hittade servrar, och sökning efter datum och servrar, och ett bekvämt sökmotorgränssnitt och möjligheten att anpassa det.

Så här kontrollerar du: Informationen kan delvis publiceras på sökmotorns server, men det är bäst att prova dessa funktioner själv.

Sökmotorer består av sökkataloger och sökindex, många sökindex innehåller också kataloger. Låt oss överväga dem.

3.1 Sök i kataloger

Varje bok börjar med en innehållsförteckning och slutar med ett alfabetiskt register. Trots att de finns på olika ställen i boken och ser helt olika ut har de samma uppgift: att hjälpa till att hitta just det avsnitt i boken som just nu behövs. Innehåll är ett exempel på katalogisering.

När en person väljer ett ämne som är intressant för honom, hittar han sidnumret på det, där detta ämne avslöjas. Ett alfabetiskt index är ett exempel på indexering (på engelska är index indexet). En person hittar den önskade termen i indexet och får sidnumret där den förekommer.

Kataloger skiljer sig från sökmotorer. Kataloger är en samling webbplatser samlade i tematiska rubriker. Dessa rubriker kan i sin tur delas upp i underrubriker, som också kan ha ännu mindre underkataloger, och så vidare.

Kataloger ur användarens synvinkel - samma sökmotorer. Men nu är dessa kataloger inte fyllda med "robotar", som på skyltarna, utan med de mest levande människorna. Detta är mycket bra för användarna eftersom det ger mer relevanta resultat jämfört med sökmotorer. Dels innehåller sökindexet också en katalog, den presenteras i form av innehållsförteckningar (hyperlänkar) om de mest populära ämnena.

När du katalogiserar en resurs granskar en erfaren redaktör den noggrant, bestämmer vilket kunskapsområde resursen tillhör, anger dess kategori i detta fält och katalogiserar resursen. Den största Internetkatalogen är Yahoo (www.yahoo.com). Den sysselsätter över 150 kvalificerade redaktörer. Det är en stor organisation, men dess ansträngningar räcker bara för att upprätthålla en katalog på cirka 1 miljon resurser. Ytterligare expansion begränsas av behovet


i den ryska delen av Internet i tabell 1. [Bilaga]

3.3 Sök i index

Sökindex är automatiserade system. De kan fungera utan mänsklig inblandning, och därför är deras kunskap om webbens verkliga resurser mycket (flera storleksordningar) större än katalogernas. Antalet indexerade webbsidor kan mätas i hundratals miljoner.

Arbetet med sökindexet sker i tre steg, vilka anges i avsnitt 2.2.

Specifika rekommendationer för att välja ett sökindex blir gamla mycket snabbt. Situationen på Internet förändras mitt framför våra ögon. Det går inte ens ett halvår utan att något förändras i sökmotorerna. Systemet som var bäst igår kanske inte är det bästa idag och väldigt dåligt imorgon. Samtidigt är popularitet en knepig sak. Det är svårt att tjäna, men sedan lever det länge. Som ett resultat möter vi väldigt ofta en situation där det mest populära är långt ifrån bästa systemet. Vi kommer att hjälpa läsaren att lära sig hur man självständigt kontrollerar olika sökmotorer och väljer de som ger bäst resultat för arbetet. Vid kontroll är storleken på sökindexet inte kritisk. Vi behöver trots allt inte miljontals länkar, utan bara två eller tre, men helst de bästa. Därför är det viktigt inte bara hur många webbsidor som indexerades av sökmotorn, utan också när den gjorde detta förra gången, hur ofta den kontrollerade länkarnas relevans senare och hur korrekt den presenterar sökresultaten.

Jämförande undersökning av sökmotorer.

Det finns ingen anledning att prata i detalj om hur man använder sökkataloger. Eftersom du bara behöver gå till webbplatsen, välj den kategori som intresserar dig, välj en sektion i den, och så vidare, tills en lista med specifika länkar öppnas.

Det är mycket mer intressant att överväga metoderna för att använda sökpekare, särskilt eftersom dessa metoder är olika för olika pekare. Men innan du går vidare till studien av ett visst system är det nödvändigt att överväga allmänna begrepp som gäller lika för alla sökindex, som ett exempel kommer jag att överväga sådana populära och enligt min mening de mest bekväma sökindexen som Yandex och Rambler .

Och jag börjar med att titta på huvudtyperna av sökning. I grund och botten finns det bara fyra typer av sökning.

Alla sökindex implementerar flera sökalgoritmer. Dessa inkluderar: enkel sökning, avancerad sökning, kontextuell sökning och specialsökning.

Enkel sökning. Med en enkel sökning skrivs ett eller flera ord in i frågefältet, vilket kan prägla innehållet i dokumentet. Om detta ord är ett, ges som regel ett så stort antal länkar som svar, med vilka det inte är klart vad man ska göra. Om flera ord skrivs in beror resultatet på hur dessa ord skrivs in, och detta beror i sin tur på vilket system som används. Enkla söktekniker i olika sökmotorer är som regel olika, och innan du använder dem är det lämpligt att läsa instruktionerna. En enkel sökning i Rambler presenteras på

fig-8. När du skriver in frasen: Allt är blandat i Oblonsky-huset ger sökindex följande resultat: Rambler 9(dokument)

Yandex 2400(dokument)

Avancerad sökning. Avancerad sökning innebär alltid en fråga från en grupp av ord. Med avancerad sökning är det i de flesta fall tillåtet att länka nyckelord med logiska operatorer AND (AND), OR (OR), NOT (NOT) och andra. Den största fördelen med avancerad sökning är att som reglerna för att skriva nyckelord och logiska operatorer i olika system antingen lika eller väldigt lika. Därför, efter att ha behärskat teknikerna för avancerad sökning en gång, kan du använda dem var som helst. Det är bara nödvändigt att först växla systemet till önskat läge (Fig-9.)

När du skriver in frasen: Allt är blandat i Oblonsky-huset, i en avancerad sökning ger sökindex följande resultat: Rambler 9(dokument)

Yandex 2400(dokument)

Fig-8 Enkel sökning i Rambler


Fig-9 Växla systemet till avancerat sökläge.

Kontextsökning. Detta är en mycket användbar typ av sökning, som tyvärr inte är implementerad i alla sökindex. System som stödjer det bör värderas särskilt. Kontextsökning kräver en exakt matchning av en fras eller grupp av ord, till exempel "Alla

uppblandad i Oblonskys hus. I de flesta sökmotorer som inkluderar den här metoden, bör nyckelfrasen omges av citattecken: "Allt var blandat i Oblonsky-huset." (Fig-10)

När du anger frasen: "Allt är blandat i Oblonsky-huset", ger sökindex följande resultat:

Rambler 0 (dokument)

Yandex 8 (dokument)

Fig-10. Kontextsökning i RAMDLER.RU


Särskild sökning. Ytterligare information söks med hjälp av speciella sökkommandon. Till exempel låter sådana kommandon dig bestämma hur ofta det finns hyperlänkar som pekar till en resurs på webben, du kan använda dem för att hitta nyckelord,

ingår i rubrikerna på webbsidor osv. Som regel är speciella sökkommandon i olika sökmotorer olika.

Det är också nödvändigt att överväga generella regler sökkommandoposter.


Allmänna regler för att skriva sökkommandon:

Ord separerade med mellanslag

Låt oss säga att användaren behöver hitta en webbsida som säger något om operativsystemet. Microsoft Windows. Det är logiskt att skriva in orden Microsoft Windows i sökfältet och vänta på resultatet. Men resultatet kan vara nedslående. Vissa sökmotorer förstår en sådan post som Microsoft OCH Windows - de kommer att ge vad användaren letar efter. Andra kanske förstår den här posten som Microsoft ELLER Windows - då kommer alla webbsidor som innehåller antingen det första ordet eller det andra, eller båda att sökas igenom. Användaren är naturligtvis bara intresserad av de sidor där båda orden förekommer tillsammans, men de kommer bokstavligen att begravas bland andra sidor som han inte behöver.

När man kommer igång med ett okänt system bör man börja med att kontrollera hur det hanterar sökordsgrupper. Ett ord skrivs först: Microsoft. Det ses hur många resultat systemet kommer att ge.

Rambler 28184(dokument)

Yandex 1048379(dokument)

Sedan skrivs det andra ordet in: Windows. Kvantiteten kontrolleras igen. Båda orden skrivs in: Microsoft Windows.

När du anger frasen: Microsoft, ger sökindex följande resultat:

Rambler 6641(dokument)

Yandex 259276(dokument)

Om antalet hittade webbsidor är större än i det första och andra fallet, anser systemet att nyckelorden är relaterade till OR-relationen (uppsättningar kombineras). Om resultatet är mindre än i var och en av de första försöken, använder systemet OCH-relationen (mängderna skär varandra). I båda fallen måste du bekanta dig med bakgrundsinformation för att lära sig att få det motsatta resultatet. Till exempel sätter alla de viktigaste ryska sökmotorerna And-operatorn mellan ord som standard, även om Yandex-systemet har sina egna egenskaper (se Tabell-2). Man tror att dessa två ord bör finnas samtidigt, inte i dokumentet, utan i en mening. Om det räcker med att de finns i dokumentet ska varje ord föregås av ett tecken<+>. Samtidigt uppstår ett omvänt problem: hur ser man till att dokument som innehåller ett av de givna nyckelorden söks efter, det vill säga hur man ställer in OR-relationen?

Rambler: Microsoft ELLER Windows; (50986 dokument)

"Yandex": Microsoft | fönster; (2034641 dokument)

Stora bokstävers roll

I de flesta sökmotorer är "bröd" inte lika med "BRÖD", utan "BRÖD"*"bröd". Den allmänna regeln är att om klienten skrev in gemener, så söks både gemener och versaler, men om klienten använde stora bokstäver så matchas endast versaler exakt. Ett klassiskt exempel är Rödluvan. Om de skrivs in på detta sätt, med versaler, kommer endast dokument att sökas i vilka

kombination Rödluvan. Men om nyckelord skrivs som röda kapslar kommer fler dokument att hittas. Alla dokument som innehåller kombinationer av Rödluvan, Rödluvan, Rödluvan och Rödluvan kommer att passera genom urvalssilen. Missbruka därför inte användningen av versaler i frågan och använd dem endast när det finns absolut säkerhet i resultatet.

Vissa sökmotorer är dock annorlunda. Så, till exempel, i Rambler-systemet, vid indexering, tvingas alla stora bokstäver att "sänkas" till gemener. Det betyder att det är värdelöst att använda versaler i frågan i detta system.

När du anger frasen: Rödluvan ger sökindex följande resultat:

Rambler 2921(dokument)

Yandex 16458(dokument)

De reserverade ordens roll

Reserverade ord är ord som inte beaktas vid behandling av en förfrågan. Under indexeringen av webbsidor kastar programmet ut dem från texten, vilket avsevärt minskar storleken på pekarna och minskar söktiden. Till reserverade ord vanligtvis

icke-informativa ord inkluderar: prepositioner, konjunktioner, pronomen, artiklar och andra ord av liten storlek. Så, till exempel, om du söker i Yandex-systemet efter frasen "Allt är blandat i Oblonskys hus", kommer dokument som innehåller Vad är blandat i Oblonskys hus också att sökas efter? - och var blandas det ihop? I Oblonskys hus? Vissa system kan reservera ord som förekommer ovanligt ofta och därför inte är informativa. Om systemet till exempel är inriktat på att söka efter böcker, så är ordboken inte informativ för det. Ordet auto är oinformativt för en sökmotor som sysslar med fordonsfrågor, och orden dator och Internet är oinformativt för system som är inriktade på att söka information om datorteknik. Det är särskilt viktigt att ta hänsyn till reserverade ords roll när du gör en kontextuell sökning. kontextuell sökning kräver en exakt matchning mellan vad användaren beställt och vad som finns i webbdokument. Om sökmotorn "rensade" webbdokument från reserverade ord vid indexeringsstadiet, kan den inte klara av kontextuell sökning, utom kanske genom att "titta" på kopior av webbsidor, om den har några, men detta tar mycket tid. Därför är ärlig kontextsökning i sökmotorer sällsynt. I Ryssland, till exempel, låtsas både Yandex och Rambler bara att de ger möjligheten till kontextuell sökning; för detta måste frasen du letar efter vara omgiven av citattecken. Men efter några enkla tester är det lätt att försäkra sig om att detta faktiskt inte är en kontextuell sökning, utan en sökning upp till reserverade ord. Ett exempel när frågan "Allt är blandat i Oblonskys hus" resulterar i resultatet Vad är blandat i Oblonskys hus. I tabell-2 ger jag en jämförande beskrivning av de viktigaste sökmotorerna (sökmotorerna). [Bilaga]


4. Jämförande egenskaper hos två sökmotorer baserat påRambler. svochYandex. sv


4.1 RAMBLER

Rambler.ru är historiskt (innan Yandex dök upp) den mest populära sökmotorn i Ryssland. Det började tidigare än andra och var länge ledande när det gäller storleken på sökindexet och kvaliteten på söktjänsterna. Tyvärr, idag är dessa prestationer i det förflutna. Även om Ramblers sökindex är cirka 12 miljoner webbsidor stort, har det inte riktigt uppdaterats på länge och ger inaktuella resultat. Idag är Rambler en populär portal, det bästa klassificerings- och betygssystemet i Ryssland, plus en reklamplattform. (Figur-10)

Sökmetoder i Rambler-systemet:

Sök språk

Sökfrågan kan bestå av ett eller flera ord, den kan innehålla skiljetecken. Du kan skapa enkla frågor utan att gå in på frågespråkets krångligheter. Så om du går in söksträng flera ord utan skiljetecken och logiska operatorer, dokument som innehåller alla dessa ord kommer att hittas (och på ett begränsat avstånd från varandra).

Men kunskap och korrekt tillämpning av sökmotorns frågespråk kommer att göra sökningen på Rambler snabb och effektiv.

Registrera

I det allmänna fallet spelar fallet med att skriva sökord och operatorer ingen roll, det vill säga house och DOM, Not och nOt uppfattas lika. Och bara ibland, för att förbättra kvaliteten på sökningen, ordregistret Sök fråga beaktas.

Till exempel, om en fråga består av två, tre eller fyra ord, som vart och ett är skrivet med stor bokstav, antas en egennamnssökning, och avståndsgränsen mellan frågeord ändras automatiskt från standardvärdet till ( n-1) * 2 , där n är antalet frågeord. Detta gör att du kan hitta en grupp frågeord, inom vilka det inte finns mer än ett "extra" ord eller skiljetecken, till exempel "Baden-Baden", "A. Pushkin", "Fyodor Mikhailovich Dostoevsky".

Operatörer

En fråga med flera ord kan innehålla operatorer. Operatörer söks inte i dokumentet, de fungerar endast som instruktioner till sökmotorn. Alla sökmotoroperatörer är binära, det vill säga de har en vänster och en höger del, som var och en också är en fråga (som standard består av ett ord). Parenteser och citattecken används för att ändra omfattningen av operatorer (gruppera flera frågeord i ett operatorargument). Två frågor kopplade av AND-operatorn (logisk AND) bildar en komplex fråga, som endast tillfredsställs av de dokument som samtidigt uppfyller båda dessa frågor. Med andra ord kommer frågan "hund OCH katt" bara att hitta dokument som innehåller både ordet "hund" och ordet "katt".

En komplex fråga som består av två frågor kopplade av en OR-operator (logisk ELLER) tillfredsställs av alla dokument som uppfyller minst en av dessa två frågor. Frågan "hund ELLER katt" kommer att hitta dokument som innehåller minst ett av orden "hund" eller "katt" (eller båda dessa ord tillsammans). NOT-operatorn (logisk AND-NOT) bildar en fråga, som besvaras av dokument som uppfyller den vänstra sidan av frågan och inte uppfyller den högra. Till exempel skulle en sökning på "hund INTE katt" returnera alla dokument som innehåller ordet "hund" och inte ordet "katt". Om operatorn inte är explicit specificerad används standardoperatorn AND: endast dokument som innehåller alla orden i frågan hittas. Således kommer frågan "teknikinformationskredit" att tolkas som "information OCH teknologi OCH kredit". På sidan Avancerad sökning kan du ändra standardoperatorn till ELLER (Sök efter frågeord: minst ett).

Var och en av operatörerna har en förkortning:

operatorförkortning

En fråga med flera ord varvat med operatorer kommer att tolkas enligt deras prioritet. AND- och NOT-operatorerna har traditionellt sett högre prioritet, så en fråga med flera ord grupperas först av AND- och NOT-operatorerna och först sedan av OR-operatorerna. Du kan ändra grupperingsordningen med parenteser.

Citat

Du kan använda dubbla citattecken för att söka efter citattecken. Orden i frågan med dubbla citattecken söks i dokumenten i exakt ordning och i de former som de påträffades i frågan. Således kan dubbla citattecken också användas helt enkelt för att söka efter ett ord i en given form (som standard finns ord i alla former). Till exempel, frågan "flygplan 'tankade' landar" tillfredsställs av ett dokument som innehåller texten "...flygplan landat och tankat...", och inte tillfredsställt av ett dokument som innehåller "..flygplan landade för att tanka... ".

Parentes

När du konstruerar frågor blir det ibland nödvändigt att kombinera frågeord i grupper som kommer att vara argument för någon operatör. Sådana grupper omges inom parentes. Den parenteserade delen av en fråga är i sig en fråga och är föremål för reglerna för frågespråket. Parentes

låter dig bygga kapslade frågor och skicka dem till operatorer som argument, samt åsidosätta standardoperatörsprioritet. Om en fråga utan parentes "bilplan | flygfält" motsvarar frågan "bil OCH plan ELLER flygfält" och, enligt operatörernas prioriteringar, betyder "hitta dokument som innehåller antingen orden "bil" och "flygplan" eller ordet flygfält , då är frågan med "bil (flygplan | flygfält)" likvärdig med "bil AND (flygplan ELLER flygfält)", vilket betyder "hitta dokument som innehåller ordet "bil" och ett av orden "flygplan" eller "flygfält"" .

Metakaraktärer

Rambler stöder ännu inte sökning efter strängar med metatecken ("*", "?"), som vanligtvis används för att betyda "valfri delsträng" respektive "godtyckligt enstaka tecken". Dessa operatörer är dock reserverade för liknande framtida användning.

Använda ett frågespråk

Varje förfrågan adresserad till Ramblers sökmotor behandlas i enlighet med reglerna för frågespråket. Vissa ord och symboler behandlas som frågespråkoperatorer och bearbetas på ett speciellt sätt. Faktum är att frågespråket beskriver en viss formel som används i sökningen - vart och ett av dokumenten "matchas" med det, och sökresultaten är bara de dokument som uppfyller det. Till exempel är frågan "flygplan" tillfredsställd av alla dokument där ordet "flygplan" förekommer minst en gång i någon form. En begäran som består av flera ord tillgodoses av dokument som innehåller vart och ett av dessa ord i valfri form (under vissa förutsättningar). Frågan om ett dokument motsvarar en mer komplex fråga bestäms av logiken hos operatorerna och frågespråkets konstruktioner.

Morfologi

För varje ord i frågan utförs sökningen med hänsyn till reglerna för böjning av motsvarande språk. Rambler förstår och särskiljer orden på ryska och engelska språk - som standard utförs sökningen i alla former av ordet. Till exempel, en sökning på ordet "person" kommer också att hitta dokument som innehåller orden "person", "person", "person" och även "människor". För att bara söka efter en specifik form av ett ord, måste du sätta det inom dubbla citattecken eller använda sökningen på en exakt fras i den avancerade sökningen.

Stoppa ord

Vissa ord och symboler exkluderas som standard från frågan på grund av deras låga informationsinnehåll. Dessa är de så kallade stopporden - de vanligaste orden på ryska och engelska, till exempel prepositioner, partiklar och artiklar. Närvaron av dessa ord kan sakta ner sökningen och negativt påverka resultatens fullständighet. Det är möjligt att ange behovet av dessa ord i frågan genom att omge frågan med dubbla citattecken eller genom att använda sökningen på den exakta frasen i den avancerade sökningen.

Avståndsgräns

Om frågan är sammansatt av ett eller flera ord utan användning av operatorer och frågespråkskonstruktioner, kommer dokument att hittas som innehåller alla orden i frågan. Samtidigt finns det alltid en så kallad kontextgräns för varje begäran - ett positivt tal, som standard lika med ett avstånd på 40 ord. Ett dokument där alla frågeord förekommer returneras endast om ordavståndet mellan förekomsterna av frågeorden är mindre än detta antal. Till exempel kommer frågan "röd armé" att hitta de dokument där orden "röd" och "armé" förekommer minst en gång mindre än 40 ord från varandra. Värdet på kontextbegränsningen kan ändras genom konstruktionen "(nummer, fråga)", där siffran är ett positivt tal, frågan är vilken fråga som helst som är korrekt ur sökmotorns synvinkel, bestående av mer än ett ord (uppenbarligen är begränsningen av avståndet mellan ord i fallet med en ettordsfråga inte vettig). Följaktligen kommer frågan "(2, röd armé)" endast att hitta de dokument där det åtminstone en gång inte finns ett enda ord mellan orden "röd" och "armé" (eftersom skillnaden endast är i deras omedelbara närhet i ordningstalet för ord mindre än 2, dvs lika med 1)

Saknade ord

Om frågan består av flera ord, och samtidigt en del av dem inte kunde hittas på Internet alls, returneras sökresultat för en delfråga, från vilken ord som inte finns på Internet exkluderas. Samtidigt visas motsvarande diagnostik på sökresultatsidan.


Sortera resultat

Som standard sorteras hittade dokument efter relevans (matchar frågan). Du kan dock begära att de senaste (eller alternativt de äldsta) dokumenten placeras överst på listan istället. För att göra detta, välj lämplig inställning i menyn "Sortera efter..." på den detaljerade frågesidan. Du kan också begränsa sökningen till dokument som skapats under en viss tidsperiod: för att göra detta, ange "Från datum ... till datum ..." på den detaljerade frågesidan.

Avstånd mellan ord

Du kan kräva att Rambler endast returnerar de dokument där orden från frågan är på minsta avstånd från varandra. Läget "Begränsa avstånd mellan ord" kan aktiveras i en detaljerad fråga. Alla ovanstående regler kan användas tillsammans med varandra i önskad sekvens.

Utfärdar resultat

Som standard returneras sökresultat i bitar av 15 dokument. Menyn "Utfärda av..." på den detaljerade begärandesidan låter dig öka detta antal till 30 eller 50. Menyn "Utmatningsformulär..." låter dig få dokumentbeskrivningar med ökad eller minskad detalj.


4.2 Yandex

Yandex.ru är en sökmotor som på begäran kan hitta de mest relevanta webbsidorna på den ryska delen av Internet. Yandex skannar hundratusentals webbsidor varje dag och letar efter ändringar eller nya länkar. Samlingen av länkar växer ständigt. Yandex kräver inte kunskap om speciella sökkommandon. Yandex hittar alla som hänvisat till sidan, filer med önskad bild, senaste nyheter eller produkter i elektroniska butiker. I hjärtat av Yandex-systemet är det största indexet cirka 27 miljoner webbsidor, men det handlar inte bara om storlek. Detta är inte bara en pekare till resurser, utan en pekare till de mest uppdaterade resurserna. När det gäller relevans är Yandex idag den obestridda ledaren (Fig. 4)

Sökmetoder i Yandex-systemet

Innan jag fortsätter med beskrivningen av Yandex-systemets frågespråk, noterar jag att det är märkbart kraftfullare och mer komplicerat än frågespråken för andra inhemska sökmotorer. Den genomsnittliga användaren behöver dock inte vara rädd. Även om han verkligen inte gillar att läsa och dessutom studera instruktioner kan han arbeta intuitivt med systemet.

I princip använder Yandex-systemet heuristiska algoritmer i sitt arbete, som inte är riktigt rigorösa ur en matematisk synvinkel. Som ett resultat kan användaren få olika resultat, till exempel om han söker efter dokument med orden Bush Gore-val och Bush Gore-val. Men tack vare dessa algoritmer ger ett intuitivt tillvägagångssätt för att skapa frågor (utan att läsa instruktioner) ett mycket bra resultat, dessutom på mycket kort tid.

Enstaka ordsökning

När användaren anger ett sökord i sökfältet och klickar på knappen Sök söks orden efter med hänsyn till alla möjliga ordformer, vilket är särskilt viktigt för det ryska språket. Till exempel, om ordet snö skrivs in, kommer dokument att hittas som innehåller orden snö, snö, etc., men inte snöig, snöig, etc. Om sökningen efter ordformer inte krävs, kan den avbrytas med hjälp av ett utropstecken, till exempel snö.

Sök efter grupp av ord

Om orden är åtskilda med ett mellanslag, söks dokument där alla inmatade ord förekommer i en mening. Så, på begäran av Bush Gore-valet

systemet utfärdar dokument med fraser som... På tröskeln till valet hackade hackare in på Bushs och Gores webbplatser. Bland resultaten av en sådan sökning är icke-strikta matchningar möjliga - sökmotorn visar sin intelligens. För att strikt säkerställa utseendet på ord i en mening är det nödvändigt att sätta ett +-tecken framför dem, till exempel: + Bush + Horus + val. +-tecknet måste skrivas tillsammans med ordet som det refererar till (utan mellanslag). Mellanrummet fungerar som en AND-operator, som också kan anges explicit (symbol &), till exempel: +Bush& +Hot& +choices. Det måste finnas mellanslag till höger och vänster om den logiska operatorn.

Om samtidig närvaro av ord krävs inte bara i meningen, utan i hela dokumentet, används &&-operatorn, till exempel: +Bush&& +Fler&& +val.

Nu ska jag överväga tekniker för att utesluta ord från sökningen. För detta används tecknet - (stark uteslutning från meningen), ~-tecknet (icke strikt uteslutning från meningen) och ~~-tecknet (uteslutning från hela dokumentet). Så, till exempel, +Bush +Gor ~~val skulle tillåta

att välja dokument där orden Bush och Gore förekommer i en mening, men ordet val och dess derivator (val, i val, efter val etc.) finns inte i hela dokumentet.

I de fall det är nödvändigt att kombinera nyckelord med OR-operatorn används symbolen |. (vertikal stapel). Så, till exempel, fråga Bush | Gore&& +val kommer att välja dokument som nämner antingen George W. Bush eller Albert Gore, men

där finns ordet val.

Sök efter avstånd

För länge sedan introducerade sökmotorer NEAR-operatören, som låter dig hitta dokument där två ord ligger nära varandra. Det är sant att varje system förstår vad "nära" är på olika sätt. I Yandex sökmotor kan du specifikt ange hur långt ifrån varandra dessa ord ska vara.

Varje ord i ett dokument har sitt eget positionsnummer. Positionsnumren för två intilliggande ord skiljer sig med ett (positionsnumret för ordet till höger är större). Avståndsoperatorn skrivs som /+n, där n är talet som motsvarar avståndet. Till exempel matchar operatorn /+1 två på varandra följande ord, så Microsoft/+1 Windows är detsamma som "Microsoft Windows".

Avståndsoperatören kan också ha ett negativt värde. Det betyder att det andra ordet som anges i frågan måste stå före det första ordet i dokumentet. Till exempel kan en begäran om Microsoft/-5 Windows länka till ett dokument som innehåller en fras om operativsystem som kommer att ersätta Windows, sa en Microsoft-tjänsteman.

När du gör en sökning med en indikation på avståndet kan du inte ange det exakta avståndet mellan ord, utan ett intervall, till exempel / (-5 +5). I det här fallet kommer dokument att väljas där orden som anges i frågan som nyckelord faller inom det angivna intervallet. Faktum är att om tecknet för parametern inte anges är detta också en intervallsökning. Så /5-operatorn bör verkligen ses som ett intervall /(-5 +5). Bush/5 Gore-frågan söker efter meningar som: Kvinnor sympatiserade med Bush och män sympatiserade med Gore, eller Bush Gore är inte sötare.

System - Yandex har ganska komplexa frågespråksregler (jämfört med Rambler), men det har omfattande möjligheter. Till exempel kan avstånd mätas inte bara mellan ord, utan också mellan meningar. Denna enhet används när en dubbel && eller ~~ används i en fråga. Således kommer frågan Bush/+1&&Gore att returnera dokument där orden Bush och Gore förekommer antingen i samma mening eller i intilliggande.

Parentes

Ett sökjobb är i grunden ett booleskt uttryck som fungerar som ett filter när man tittar på dokument som ingår i sökmotorns databas. PÅ

I ett logiskt uttryck kan man, på samma sätt som i ett aritmetiskt uttryck, använda parenteser. De tjänar till att kontrollera handlingsordningen. Exempel: Bush & Gore (val | röstning). En sådan fråga kommer att returnera länkar till webbsidor som innehåller meningar som innehåller orden Bush, Gore, val eller Bush, Gore, röst.

Rankhantering

Målet med rankningen är att se till att webbsidor

som bäst matchade frågan visades i resultatlistan så snart som möjligt. Vilka algoritmer sökmotorn använder vid rankning är dess sak. Användarna är antingen nöjda med sitt arbete eller vänder sig till en annan sökmotor. I Yandex-systemet är det möjligt att självständigt ändra algoritmen för rangordningsmekanismen med hjälp av viktkoefficienter. En sådan koefficient kan tilldelas vilket nyckelord eller helt uttryck som helst, om det är omgivet av parentes: Viktkoefficienter skrivs in genom ett kolon, till exempel Bush:5 Gore choices. Med denna fråga har dokument där ordet "Bush" förekommer oftare företräde och visas i den resulterande listan på högre positioner.

En annan rankningskontrollteknik är relaterad till det kvalificerande ordet. Detta är ett ord som inte behöver finnas i de valda dokumenten, men om det finns där får detta dokument en rankningsfördel. Det kvalificerande ordet skrivs in efter tecknen<_. Например, при поиске по ключевым словам Гор Буш<_младший выборы получат преимущество Web-страницы, в которых речь идет не просто о Джордже Буше, а о Джордже Буше-младшем.

Specialsökning

Särskilt anmärkningsvärt är metoderna för att söka efter information som finns i speciella fält i webbsidornas rubriker (varje webbsida har tjänstefält i sin titel) eller sökning efter speciella element som ingår i webbsidor, såsom hyperlänkar. I Yandex-systemet börjar speciella sökkommandon i rubrikfält

med $-symbolen och sökkommandon för enskilda delar av webbsidor - med #-tecknet. Alla specialsökverktyg är märkbart långsammare än vanliga.

Team

Beskrivning

Exempel

Förklaring

$titel (uttryck)

Sökningen efter nyckelord som anges i uttrycket utförs endast i rubrikerna på webbsidor


$title (mellanslag)


Endast webbsidor söks efter som har ordet Space i sina titlar (Figur 7.10)



Sökningen efter de nyckelord som anges i uttrycket utförs endast i ankaren av interna länkar på webbsidor


$anchor (intro)


Inre (uttryck)


#sökord= (uttryck)


#keywords - (nyheter)



#abstrakt = (uttryck)


Sök i webbsidakommentarer

#abstract = (Bush | Gore)


#image = "namnet på "filen"


Söker efter illustrationsfiler efter deras namn


#image -"Bush.*"

Om det inte är känt i förväg vilken förlängning filnamnet kan ha, används jokertecken "*", som ersätter valfritt antal godtyckliga tecken


#ledtråd- (uttryck)

Sök efter ord i den alternativa texten i illustrationer


(Bush | Gore)



#url= " URL-adress"

Söker efter en webbplats eller webbsida


#uri.= "www.anysite.ru"


Används vanligtvis för söklokalisering. Till exempel för att begränsa sökcirkeln till en webbplats eller, omvänt, för att utesluta den från sökområdet


#länk- adress"

Vanligen använd " URL- för att identifiera webbsidor som har hyperlänkar som leder till deras egen sida


Slutsats

Jag kunde till fullo avslöja de frågor som ställdes och förstod detta ämne (hur gör man en effektiv sökning på Internet?). Av egen erfarenhet var jag övertygad om att i vår högteknologiska tidsålder är ett effektivt sökande efter information inte lösbart och har förblivit ett av huvudproblemen. Detta kan jag förklara på följande sätt.

För det första är det inte perfektion av sökmotorerna själva, vilket ifrågasätter alla sökningar.

Sökmotorer saknar ordning och reda, struktur, struktur, strukturering, såväl som system, systematisering, systematisering, de flesta sökmotorers robotar ger ett stort antal värdelösa hyperlänkar,

För det andra, användarnas oerfarenhet, eftersom att söka och hitta det du behöver i en hög med texter på Internet är en färdighet inte bara för sökmotorn, utan också för användaren som ställer frågan.

För det tredje, girigheten hos programmerare och reklambyråer som anställer dem, som vill att deras webbplatser ska efterfrågas så ofta som möjligt. Dessa "giriga" programmerare lurar robotar och ger ut på Internet en webbplats som påstås innehålla den information som behövs för användaren, och det finns reklamhäften eller en automatisk hyperlänk som begär en reklamsida eller, ännu värre, en betald webbplats. Även om specialister som betjänar sökmotorer kämpar med detta fenomen, ökar det fortfarande i omfattning varje dag.

Idag används Internet som referens av 23 % av användarna, ett forskningsverktyg av 15 %, underhållning av 14 % och endast som nyhetskälla av 12 %.

Inte en optimistisk åsikt låter att 10% av användarna alltid, och 73% ofta lyckas hitta den information de behöver.

På en sådan fråga, vilken sökmotor som är bäst och vilken jag föredrar att använda, kommer jag att svara så här: det är nödvändigt att använda vilken maskin som är bekvämare och det är bekvämare för mig att använda Yandex.

Internet har underlättat sökningen, och krävt specifik kunskap om sökningen, idag är det inte alltid effektivt, vi är bara i början av dess utveckling. Och därför bör man inte glömma det gamla, inte mindre effektiva sökandet efter information, det här är böcker och bibliotek, denna informationskälla har motiverat sig sedan tiden för "Alexandrian Library", och Internet kommer bara inom en snar framtid bli mer effektiva och bli nästan oersättliga.

Lista över begagnad litteratur


1. Andrey Alikberov "Några ord om hur sökmotorrobotar fungerar."

#"#">Yandex sökmotorspråk används

Frassökning

Prefix

Iterativ sökning (i resultat)

När du har loggat in klickar du på Mer...

byte av en del av ett ord

* (inte alltid korrekt)


Tabell 2

Sammanfattningstabell över ledande sökmotorer


jagindex

Aport!

AltaVista

Sökområde, databasvolym

ryska delen av internet. Sök igenom sidorna på webbplatser från katalogsektionen, efter region. Särskild sökning efter nyheter, produkter, bilder.

ryska delen av internet.

ryska delen av internet. Specialiserad sökning efter nyheter, produkter, bilder, MP3

Specialiserat sökning efter nyheter, produkter, underhållning, ljud (MP3) och video.

Specialiserad sökning för amerikanska universitet, Apple, Linux, BSD

Basvolym i början av 2001

Över 31 miljoner dokument

Över 12 miljoner dokument

Över 14 miljoner dokument

Över 250 miljoner dokument

1,25 miljarder sidor

Indexeringstyp

fulltextindexering

fulltextindexering

fulltextindexering

fulltextindexering och länkindexering

Tillgång till ytterligare tjänster

Systemet kombinerar en sökmotor och en katalog, samt ett antal ytterligare projekt (Zakladki.Ru, Narod.Ru, ett system för intelligent urval av varor, CY, etc.).

Systemet kombinerar en sökmotor, en katalog och tilläggstjänster (onlineshopping, etc.)

Systemet kombinerar en sökmotor, en katalog och ett antal ytterligare tjänster (hosting, registrering av domännamn, översättning, etc.)

Systemet kombinerar en sökmotor och en katalog som innehåller 15 avsnitt och 1,5 miljoner webbsidor.

Sök språksyntax

logiskt OCH

mellanslag eller & (inom en mening)&& (inom ett dokument)

OCH, &, mellanslag mellan ord som standard

AND, AND, &,+, mellanslag mellan ord som standard

AND, & (endast för komplexa sökningar)

standard för alla sökord

logiskt ELLER

ELLER (standard för enkla sökningar), | (endast för komplexa sökningar)

binär operator AND-NOT

~ (inom meningen)

~ ~ (inom dokument)

inte använd

ersätts av prefixoperatorn "-" (AND är standardutrymmet)

OCH INTE! (endast för komplexa sökningar)

ersatt av prefixoperatorn "-"

prefix för obligatoriska (+) och förbjudna (-) ord

inte använd

+, - (endast för enkel sökning)

ordgruppering

inte använd

avstånd mellan sökord vid sökning

/(n m) - i ord, &&/(n m) - i meningar (- bakåt, + framåt)

i avancerad sökning - utfärdande av dokument endast med ett minsta avstånd mellan orden

w2(...), w2(...), w2(...), (- bakåt, + framåt)

NÄRA (inom 10 ord, endast för komplexa sökningar)

inte använd

frassökning

ordersättningstecken

*, ? (ersätt valfritt tecken)

* (endast i slutet av ett ord)

dokumentets språkgräns

val: valfri, kyrillisk, latinsk

val: valfri, ryska, engelska

val: ryska, engelska

val av 25 språk

val av 25 språk

morfologi

alla standarddeklinationer och konjugationer, ! (sök efter den exakta ordformen)

# (alla former av ord), @ (besläktade ord)

! (indikerar den normala formen)

datumsökning

begränsa sökning efter fält

Sök i titlar, adresser, dokumenttitlar (endast för avancerad sökning). Sök efter liknande dokument.

Utökade formfunktioner, vårdkvalitet

avancerad formulärinställning

ordboksfilterinställningar, inställningar efter datum, webbplats, länk, bild, specialobjekt

efter dokument, datum, OCH, ELLER lägen, ordavstånd, ordavkortning

efter dokument, titel, bild, datum, 5 sektioner (webbplatser, MP3, bilder, produkter, nyheter)

genom booleskt frågeformulär, datum, webbplats, länk, bild, text, etc.

utgångsinställningar

ställa in antalet resultat per sida, utdataformulär

ställa in emissionsformuläret

ställa in antalet resultat per sida, alla delar av utdataformuläret

ställa in antalet resultat per sida, alla delar av utdataformuläret

rankning av sökresultat

sortera efter relevans eller datum

webbplatsens popularitet

enligt villkor som anges i SORT

genom citat (länkar till sidan från andra sidor)

iterativ sökning (i sökresultat)

Ja. Körs genom att markera en kryssruta

Ja. Körs med en sökomfångsväljare

Körs genom att markera en kryssruta

Utförs med hjälp av

hjälpsektionens kvalitet

det finns en detaljerad beskrivning av frågespråket, en syntaxtabell och ett avsnitt om sökning i kategorier

kort HJÄLP-avsnitt

en detaljerad referens om frågespråket, det finns många ryska synonymer för huvudoperatörerna

den största onlineläroboken om frågespråket som tas upp i denna tabell

mycket begränsad HJÄLP-sektion

familjefilter