Operationell analytisk bearbetning. Operationell analytisk bearbetning (On-Line Analytical Processing, OLAP). Analytisk bearbetning av heterogen textinformation Former och metoder för bearbetning av analytisk information praxis

621 UDK. 37/39. 061.2/4

METODER FÖR ANALYTISK INFORMATIONSBEHANDLING

GVOZDINSKYA.N., KLIMKO E.G., SOROKOVOY A.I.

Analytisk genomgång av metoder intellektuell analys data (även kallat: IAD, data mining, kunskapsupptäckt i databaser) med hänsyn till användningen av en viss metod för förhållandena i Ukraina. En genomgång av metoder för analytisk bearbetning av information i komplexa informationssystem övervägs utifrån datautvinningens hastighet, insamling av generaliserad information och ökad tillförlitlighet i processen.

Processen för datautvinning är den analytiska studien av stora mängder information för att fastställa mönster och samband mellan variabler som sedan kan tillämpas på ny data. Den mottagna informationen omvandlas till informationsnivån, som karakteriseras som kunskap. Denna process består av tre huvudsteg:

Forskning (avslöjar mönster);

Använda de identifierade mönstren för att bygga en modell;

Undantagsanalys för att upptäcka och förklara avvikelser i hittade mönster.

Att hitta ny kunskap med hjälp av IAD är en ny och snabbt utvecklande riktning som använder metoderna artificiell intelligens, matematik och statistik. Denna process inkluderar följande steg:

Problemdefinition (problemformulering);

Dataförberedelse;

Datainsamling: deras utvärdering, integration och rengöring, urval och omvandling;

Modellbyggande: utvärdering och tolkning, extern validering;

Modellanvändning;

Modellobservation.

För att bygga en modell och förbättra dess kvalitet hjälper formell datavalidering genom en sekvens av frågor eller preliminär datautvinning. Verktygen för en sådan analys inkluderar följande huvudmetoder: neurala nätverk, beslutsträd, genetiska algoritmer, såväl som deras kombinationer.

Neurala nätverk tillhör klassen av icke-linjära adaptiva system, deras struktur liknar villkorligt nervvävnaden hos neuroner.

Detta är en uppsättning noder kopplade till varandra som tar emot indata, bearbetar den och producerar något resultat vid utgången. Noderna i det nedre lagret levereras med värdena för ingångsparametrarna, på basis av deras beräkningar som är nödvändiga för att fatta beslut, förutsäga utvecklingen av situationen etc. utförs.

Dessa värden betraktas som signaler som sänds till det överliggande lagret, ökar eller minskar beroende på de numeriska värden (vikter) som tillskrivs de internuronala anslutningarna. Vid utgången av neuronen i det översta lagret genereras ett värde, som betraktas som ett svar, hela nätverkets reaktion på ingången initiala värden. Eftersom varje element i det neurala nätverket är delvis isolerat från sina grannar, har sådana algoritmer förmågan att parallellisera beräkningar. På fig. 1 visar en villkorlig

Figur 1. Neuralt nätverk

Nätverkets storlek och struktur måste motsvara essensen av det fenomen som studeras. Det konstruerade nätverket utsätts för processen med så kallad "träning". Nätverkets neuroner bearbetar indata för vilka både värdena för ingångsparametrarna och de korrekta svaren på dem är kända. Inlärning består i att välja vikten av internuronala anslutningar som ger den största närheten av nätverkssvaren till de kända korrekta svaren. Efter träning på tillgängliga data är nätverket redo att arbeta och kan användas för att förutsäga objektets beteende i framtiden, baserat på data från dess utveckling i det förflutna, för att analysera, för att identifiera avvikelser och likheter. Tillförlitliga prognoser kan skapas utan att specificera vilken typ av beroenden den baseras på.

Neurala nätverk används för att lösa problem med förutsägelse, klassificering eller kontroll.

Fördel - nätverk kan approximera vilken kontinuerlig funktion som helst, det finns inget behov av att göra några antaganden om modellen i förväg. Uppgifterna som undersöks kan vara ofullständiga eller bullriga.

Nackdelen är behovet av att ha en stor mängd träningsprov. Det slutliga beslutet beror på de ursprungliga nätverksinställningarna. Data måste konverteras till numerisk form. Den resulterande modellen förklarar inte den upptäckta kunskapen (den så kallade "svarta lådan").

Beslutsträd använder uppdelningen av data i grupper baserat på variablernas värden. Resultatet är en hierarkisk struktur av "Om...Då..."-påståenden som ser ut som ett träd. För att klassificera ett objekt eller en situation måste du svara på frågorna vid noderna i detta träd, med början från dess rot. Om svaret är positivt, gå till höger nod på nästa nivå, om negativt - till vänster nod, och så vidare. Efter att ha avslutat svaren når de en av slutnoderna, där

RI, 2000, nr 4

anger vilken klass objektet i fråga ska tilldelas.

Beslutsträd är utformade för att lösa klassificeringsproblem och har därför mycket begränsad användning inom finans och affärer.

Fördelen med metoden är en enkel och begriplig presentation av funktioner för användarna. Som målvariabel används både uppmätta och icke-uppmätta egenskaper - detta utökar omfattningen av metoden.

Nackdelen är problemet med betydelse. Uppgifterna kan delas in i många specialfall, det finns en "buskighet" av trädet, som inte kan ge statistiskt giltiga svar. Användbara resultat erhålls endast i fallet med oberoende funktioner.

Genetiska algoritmer efterliknar processen med naturligt urval i naturen. För att lösa ett problem som är mer optimalt ur ett kriteriums synvinkel beskrivs alla lösningar av en uppsättning siffror eller kvantiteter av icke-numerisk karaktär. Sökandet efter den optimala lösningen liknar utvecklingen av en population av individer, som representeras av deras uppsättningar av kromosomer. Det finns tre mekanismer som fungerar i denna utveckling, som visas i fig. 2.

Följande mekanismer kan särskiljas:

Val av de starkaste uppsättningarna av kromosomer, som motsvarar de mest optimala lösningarna;

Korsning - erhållande av nya individer genom att blanda kromosomuppsättningar av utvalda individer;

Mutationer är slumpmässiga förändringar i gener hos vissa individer i en population.

Som ett resultat av generationsväxlingen utvecklas en lösning på problemet, som inte längre kan förbättras ytterligare.

Fördel - metoden är bekväm för att lösa olika problem med kombinatorik och optimering, den är att föredra mer som ett verktyg för vetenskaplig forskning.

Nackdelen är förmågan att effektivt formulera problemet, bestämma kriteriet för valet av kromosomer och själva urvalsförfarandet är heuristiskt och bara en specialist kan göra det. Problemformuleringen i termer gör det inte möjligt att analysera den statistiska signifikansen av den lösning som erhållits med deras hjälp.

Datorteknik för intelligent analytisk databehandling gör det möjligt att använda metoderna artificiell intelligens, statistik, databasteori och gör det möjligt att skapa moderna intelligenta system.

För närvarande finns det en akut fråga om att skapa informationslager (datalager, datalager) - optimalt organiserade databaser som ger den snabbaste och mest bekväma tillgången till den information som behövs för beslutsfattande. Lagringen ackumulerar tillförlitlig information från olika källor under lång tid, som förblir oförändrad. Data aggregeras och lagras enligt de områden den beskriver (domänspecifika) och uppfyller kraven från hela företaget (integrerat).

Med tanke på den relativt korta existensperioden för de flesta inhemska företag, bristen på analyserade data, instabiliteten hos företag som kan förändras på grund av förändringar i rättslig ram, finns det en svårighet att utveckla en effektiv beslutsstrategi med hjälp av datautvinningssystem. Därför förutspås genetiska algoritmer vara den mest acceptabla metoden för att undersöka data inom finans- och affärsområdet, och för uppgifterna att klassificera bilder och fakta är det bättre att använda beslutsträdsmetoder eller neurala nätverk.

Litteratur: 1. Shchavelev L.V. Data mining. http://www.citforum.ru/seminars/cis99/sch_04.shtml, 2. Burov K. Upptäckt av kunskap i datalager / / öppna system. 1999. Nr 5-6., http://www.osp.ru/os/l999/05-06/14.htm. 3. Kiselev M, Solomatin E. Medel för kunskapsutvinning inom företag och finans // Öppna system. 1997. Nr 4. s. 41-44. 4. Krechetov N, Ivanov P. Produkter för datautvinning // Computer Week - Moskva. 1997. Nr 14-15. s. 32-39. 5. Edelstein H. Intelligenta verktyg för att analysera och presentera data i informationslager // Computer Week - Moskva. 1996. Nr 16. s. 32-35.

Inkom till redaktionen 2000-06-22

Recensent: Dr. tech. vetenskaper, prof. Putyatin V.P.

Gvozdinsky Anatolij Nikolajevitj, Ph.D. tech. Sciences, professor vid institutionen för artificiell intelligens KhTURE. Vetenskapliga intressen: utvärdering av effektiviteten hos komplexa informationshanteringssystem. Intressen och hobbies: klassisk musik, turism. Adress: Ukraina, 61166, Kharkiv, st. acad. Lyapunova, 7, lägenhet. 9, tel. 32-69-08.

Klimko Elena Genrihovna, assistent vid avdelningen för datorteknik och informationssystem, Poltava State Technical University uppkallad efter Yuriy Kondratyuk. Forskarstuderande (på jobbet) vid Institutionen för artificiell intelligens vid KhTURE. Vetenskapliga intressen: analytisk dataanalys. Intressen och hobbies: läsning, stickning. Adress: Ukraina, 36021, Poltava, st. Diamant, 1-A, apt. 34, tel. (053-22) 3-43-12.

Sorokov Alexander Ivanovich, Ph.D. tech. i naturvetenskap, docent vid institutionen för datorteknik och informationssystem, Yuriy Kondratyuk Poltava State Technical University. Forskningsintressen: KDD (Knowledge Discovery). Intressen och hobbies: hundar. Adress: Ukraina, 36022, Poltava, per. Trasig, 37A, tel (053-2) 18-60-87, e-post: [e-postskyddad]

Analytisk bearbetning information är direkt ett analytiskt förfarande, i samband med vilket allvarliga krav ställs på dess organisation, nämligen lämpligt metodstöd, en viss utbildningsnivå av analytiker och deras tillhandahållande av tekniska hjälpmedel för analys.
Kvaliteten och giltigheten av de ledningsbeslut som fattas bestäms till stor del inte bara av tillförlitligheten, fullständigheten, tillgängligheten, effektiviteten i att få information, utan också av effektiviteten hos de metoder som används vid dess bearbetning. Att förbättra tekniken för analytisk bearbetning av ekonomisk information är ett av nyckelelementen för att förbättra förvaltningstekniken.
Informationsstöd av hög kvalitet för processen att hantera ekonomisk verksamhet är endast möjligt när man i praktiken använder den senaste informationsteknik: fonder datavetenskap, telekommunikation och mjukvara, och automatiserade system förvaltning.
Villkoren för ekonomisk aktivitet, vilket tyder på breda rättigheter för företag att utforma redovisningsprinciper, möjligheten att ändra den, ändra ägandeformer; omstruktureringsprocesser, företagssammanslagningar, etc., dikterar behovet av att bearbeta en stor mängd analytisk information. Själva beräkningarna som används för att registrera vissa finansiella och affärstransaktioner har också blivit mer komplicerade. Företagens breda rätt att välja metoder för att beräkna avskrivningar för anläggningstillgångar gör uppgiften att beräkna beloppet av värdeminskningsavdrag praktiskt taget omöjlig under förutsättning av manuell behandling av information.
Det ställs ökande krav på graden av effektivitet, tillförlitlighet av information som krävs för att fatta ledningsbeslut. Det var organisationen av ekonomisk analys i en datormiljö som gjorde det möjligt att avsevärt öka effektiviteten i att samla in och registrera redovisningsinformation, avsevärt minska sannolikheten för aritmetiska fel och, som ett resultat, minska arbetsintensiteten i arbetet med analytiska tjänster. på företag.
Komplexiteten i informationsflöden, ofullkomligheten i kanalerna för att erhålla information, metoderna och teknikerna för insamling, lagring och bearbetning av information leder ofta till att informationen försenas avsevärt och därför förlorar dess "kvalitet. Grunden för ett snabbt mottagande av information. information är integrationen av dess insamling och bearbetning, vilket säkerställer samspelet mellan ekonomiska aktiviteter och ekonomisk analys, leder till en gradvis sammanslagning av automatisering av beräkningar med informationssystem företag.
Ett automatiserat system för insamling, bearbetning och lagring, som är ett omfattande nätverk av inspelningsenheter, kommunikationslinjer och datorer, minskar tiden mellan informationens framträdande och dess användning i analytiskt arbete. Tekniska medel ger snabb kommunikation av information om de processer som äger rum på företaget till chefer och andra ledningsanställda. Användningen av modern informationsteknik gör det möjligt att utföra snabba sökningar och arbetskrävande beräkningar, samt visa resultaten i en acceptabel form.
Den ledande platsen i förfarandena för omvandling av ekonomisk information upptas av dess systematisering och bearbetning. Vid användning av datorteknik har informationsbehandling blivit en organisk del av en enda informationsteknologiprocess. Moderna datorer förändrade inte bara kopplingarna mellan denna process och andra, vilket skapade möjligheten till teknisk enhet informationsprocesser, men också påverkat innehållet i begreppet "databehandling". Om bearbetning, vid manuellt eller mekaniserat utförande av analytiskt arbete, huvudsakligen uppfattades som aritmetiska operationer, används idag de mest komplexa logiska och statistiska operationerna för bearbetning.
Det mesta av den ekonomiska information som erhålls som ett resultat av bearbetning skickas till chefer, specialister, chefer inom den specifika tidsram som anges i kalenderschemat för insamling och bearbetning av data. Vid bildandet av reglerad ekonomisk information är tidpunkten för dess beredning inte särskilt svår, eftersom de vanligtvis bestäms av produktionsförhållandena. Svårigheten är utformningen av insamling och bearbetning av icke-reglerad information för att fatta ledningsbeslut vid godtyckliga tidpunkter. För att få sådan information måste systemet generera data som kännetecknar resultaten av arbetet, planernas framsteg, dynamiken i ekonomisk och social utveckling, med en viss period.
Ett sådant system kräver ett annat tillvägagångssätt för utformningen av den tekniska processen för insamling och bearbetning av data, vilket ger olika sätt att erhålla information. Det mest lovande är det interaktiva läget, som ger direkt interaktion mellan användare och datorer. För att fatta operativa ledningsbeslut väljer chefer, på grundval av vissa dialogrutiner, nödvändig information som återspeglar tillgängligheten och användningen av material, arbetskraft och ekonomiska resurser, produktionsförloppet och andra affärsprocesser.
I en bearbetad, sammankopplad och samordnad form överförs information till avdelningar och tjänster inom ekonomisk förvaltning som ansvarar för att analysera ekonomisk aktivitet och fatta beslut. För att hantera ekonomin behöver de speciell information av prediktiv karaktär, som inte bara gör det möjligt att fixa tillståndet i företaget, utan också att analysera utvecklingstrenderna för en viss process, fenomen och fatta optimala och snabba beslut baserat på detta Denna typ av hantering innefattar inte bara data om hanterade objekt och dess miljö, utan också analyserad information som lämpar sig för prognoser.Information om systemets och dess miljös tidigare beteende används för att utveckla förvaltningsbeslut baserat på ett förutsägbart beslut med hjälp av ekonomiska modelleringsverktyg , expert- och prediktiva mjukvarusystem.

Galina Akimova, Matvey Pashkin

Tekniken för att bearbeta information från olika källor, inklusive internetmedia, ger automatiserad inmatning (inklusive tematisk textanalys, bearbetning, lagring och hämtning) och mottagande av statistiska sammanfattningar och sammanfattningar.

Hittills är den huvudsakliga metoden för analytisk bearbetning av textdatamatriser att söka efter dokument med nyckelord. Intelligensen av denna operation ökas genom att automatiskt rangordna de hittade dokumenten med tillräckligt många enkla metoder bestämma deras betydelse, med hänsyn till språkets morfologi och (mycket mindre ofta) semantiska ordböcker.

Men för att lösa moderna analytiska problem, särskilt med tanke på den enorma mängden källinformation (främst från Internet), är detta uppenbarligen inte tillräckligt. Columbia Universitys Newsblaster är ett exempel på vad kunder behöver idag. Det var ursprungligen tänkt att göra det lättare att hitta information på webben, men i själva verket kan den extrahera alla viktiga nyheter från Internet. Detta system söker igenom nyhetssajter, sorterar den hittade informationen efter ämne, bestämmer graden av likhet mellan texter och bildar nyheterna i form av en fem meningskommentar. Ungefär 88 % av dem som har använt den här lösningen medger att det är mycket bekvämare att arbeta med det här programmet än att "surfa" olika webbplatser i jakt på nyheter.

Det bör noteras att problemet med att arbeta med en enorm mängd information har två aspekter: den ena är den automatiska insamlingen av information (som i själva verket det ovan nämnda systemet och analogerna fokuserar på), och den andra är den automatiska analys av den information som erhållits om detta ämne, utförd på grundval av analysdokumentets text.

Enligt A. Kharlamov kan befintliga metoder för textanalys delas in i två klasser. Den första klassen föreslås inkludera snabba algoritmer som inte är beroende av språk och ämnesområde, som använder statistiska metoder. Den andra klassen bildas av ganska sofistikerade, givande bra resultat, men relativt långsamma, språk- och domänspecifika ansatser, och mestadels baserade på språkliga metoder.

Det råder ingen tvekan om att det mest effektiva tillvägagångssättet kommer att vara det som kombinerar hastighet och språkoberoende av förstklassiga algoritmer med hög kvalitet bearbetar den andra.

Av de befintliga systemen, ur författarnas synvinkel, är det mest intressanta TERMIN-5-systemet, som använder den lexikalisk-statistiska metoden för att kategorisera texter. Fördelen med den lexikalisk-statistiska metoden är dess höga universalitet, eftersom innebörden av rubriken i den endast bestäms av en uppsättning träningstexter. Systemet låter dig automatisera rubrikeringsprocessen helt, ger justering av rubrikatorn för utbildningsprovet av texter och utvecklingen av en avgörande regel för att tilldela ett dokument till en viss rubrik. Den är inriktad på att rubrikera faktiska media-textmeddelandeströmmar.

Generellt sett har segmentet av analytiska system fokuserat på matematisk och statistisk analys av olika kvantitativa och kvalitativa indikatorer utvecklats på mjukvarumarknaden under lång tid. Dock innan komplett lösning enorma volymanalysuppgifter textinformation som finns i tryckta publikationer, nyhetsflöden från informationsbyråer, på tematiska webbplatser på Internet, är fortfarande ganska långt borta.

Att bygga system för automatisk kategorisering

För att lösa problemet med att analysera textinformation och sedan automatiskt distribuera den till de erforderliga ämnena, är det först och främst nödvändigt att bilda en rubrikator, det vill säga att ställa in en lista över ämnen eller rubriker som mest exakt karakteriserar kunskapsområdet under studie. En nödvändig förutsättning för textanalys är stöd för att arbeta med både linjära och hierarkiska rubriker med ett obegränsat antal kapslingsnivåer. Nedan är ett exempel på en linjär rubrikator som används på webbplatsen Lenta.ru:

Dessutom, eftersom forskningens inriktning kan ändras, skulle vi vilja kunna klassificera samma mängd indatainformation i olika ämnen specificerade av olika rubrikatorer.

I befintliga system för textinformationsbehandling är två grundläggande tillvägagångssätt vanliga: baserade antingen på en lista med nyckelord eller på en lista med termer (substantivfraser eller fraser) som tilldelats en rubrik på ett eller annat sätt. Dessutom utförs det förberedande arbetet med korrelationen mellan nyckelord och termer i valfri rubrik ofta av experter manuellt.

I den här artikeln kommer vi att överväga en metod som är en utveckling av TERMIN-5-systemet och låter dig automatiskt generera en lista med termer som kännetecknar tillhörigheten av textinformation till en viss rubrik. Detta tillvägagångssätt kan kallas ett steg mot automatisk semantisk textanalys. Konstruktionen av en lista med karakteristiska termer utförs på grundval av morfologisk och syntaktisk analys av texten genom att markera icke-triviala substantiv och egennamn omgivna av definitioner, med hänsyn till frekvensen av ord i språket.

Bygga ett träningsexempel

Tekniken för rubricatorinlärning är baserad på konstruktionen av ett träningsprov - en lista över filer eller dokument som motsvarar rubrikerna för denna rubrikator. Rubrikatorutbildning är mest effektiv om du använder korta informativa texter med maximal semantisk belastning. När du arbetar med flera rubrikatorer bör var och en av dem ha sin egen träningsuppsättning.

Noggrannheten i att konstruera ett träningsprov kan endast bestämmas i skedet av den tematiska analysen av textinformation, det vill säga när den läggs in i databasen. Därför är konstruktionen av ett träningsprov en iterativ process: beroende på kvaliteten på definitionen av ämnet i analysen av texten kan träningsprovet korrigeras.

Rubrikatorutbildning

Processen att lära sig en rubrikator består i att bygga en viss uppsättning termer som kännetecknar tillhörigheten för var och en av dess rubriker. Listan över definierande termer bildas på basis av analysen av texten i de dokument som utgör utbildningsprovet, för varje rubrik separat. Varje vald term tilldelas en viss vikt som kännetecknar dess betydelse i texten. Efterföljande analys av resultaten gör att du kan förfina listan, minska vikten av korsande begrepp och termer och ofta ta bort dem.

Hierarkin av rubriker, tillsammans med de termer som är signifikanta för varje rubrik, d.v.s. den utbildade rubricatorn, kallas en autorubrikerare. På grund av ytterligare verktyg som gör att experten kan utföra operationerna för att lägga till eller ta bort en term, ändra dess vikt, är det möjligt att ganska flexibelt påverka resultaten av arbetet med bildandet av definierande termer för författarens rubrikator. De korrigerade läranderesultaten lagras i en egen databas med termer (substantivfraser) som kännetecknar varje rubrik, som sedan används för att automatiskt bestämma ämnet för inkommande information.

Använda en rubrikator

Efter att rubrikatorn har byggts kan den användas för att analysera inkommande textdokument. För att göra detta utsätts dokumentets text för samma bearbetning som texterna från träningsexemplet när rubrikatorn konstrueras. Som ett resultat av automatisk morfologisk och syntaktisk analys av texten erhålls en uppsättning karakteristiska termer (nominella grupper och fraser), med hänsyn till frekvensen. Denna uppsättning termer blir indataparametern för rubrikatorn för att matcha den med motsvarande uppsättningar av var och en av rubrikerna. Som ett resultat får vi uppskattningar av den givna textens relevans för var och en av rubrikerna. Postprocessorn kan skära av opålitliga (svaga) och/eller extrahera tillförlitliga (höga) uppskattningar i enlighet med förutbestämda konfidensgränser.

Processen som beskrivs ovan automatisk detektering att den inkommande informationen tillhör en eller annan rubrik kallas autobrikering.

Informationsförbehandling

Som de viktigaste informationskällorna föreslås att man överväger internetmedia, nyhetsflöden, elektroniska dokument, tryckta upplagor. Behandlingen av inkommande data bygger på principen om maximal möjlig automatisering. Detta gäller både för att analysera texten i ett dokument och för att spåra ankomsten av nya dokument och deras efterföljande införande i informationslagret.

Automatisk textanalys och bestämning av ämnet för inkommande information, oavsett formatet på dess presentation, föreslås utföras omedelbart innan den förs in i förvaret, men efter förbehandling initiala data.

En nödvändig funktionell del av informationsbehandlingssystem bör vara att kontrollera den för dubbelarbete. Detta gäller särskilt för internetmedier, där det ofta finns en fullständig nytryckning av information, ibland utan hänvisning till dess källa. Inte mindre sällsynta är situationer när, vid nytryck, endast titeln på artikeln och publiceringsdatumet på webbplatsen ändras. Därför föreslås att man kontrollerar repeterbarheten av både den nödvändiga och textkomponenten i inmatningsdokumentet.

Internetmedia. Behandlingen av nyheter som publicerats på Internet består inte bara i att beskriva webbplatsens struktur och organisera processen för att ladda ner nyheter från den, utan också i att följa reglerna som fastställts på användarens arbetsplats, som anger schemat och frekvensen för visning av webbplatsen , sammansättningen av detaljerna som följer med nyheterna, redovisningsämnen definierade på webbplatsen, etc.

Nyhetsflöden. Det specifika med strukturen i nyhetsflödet är närvaron av många dokument i ett textfil. Typiskt bestäms formatet för att presentera nyhetsflödesdokument inom organisationen som förberedde det, vilket indikerar deras mångfald. Bearbetningen av nyhetsflöden består i automatisk spårning av nyanlända lagrade på hårddisken, i att bestämma och analysera formatet på nyhetsflödet och i att lyfta fram enskilda dokument som utgör det.

Elektroniska och pappersdokument. Tekniken att arbeta med pappersdokument börjar vanligtvis med att de överförs till elektronisk form från skanningsoperationen.

Analytisk bearbetning

Olika alternativ för att automatisera insamlingen av heterogen information och gruppera den i tematiska komponenter är bara det första steget när man arbetar med informationsflöden som kommer från olika källor. Nästa steg bör vara analys av information, som oftast involverar sammanställning av statistiska rapporter (eventuellt med prognoselement) och konstruktion av sammanfattningar som tillåter gruppering och publicering av data om ett valt ämne.

Statistiska rapporter. Analytiska rapporter baserade på statistisk bearbetning av den inmatade informationen hjälper inte bara att snabbt bedöma kvaliteten på tillgängliga data, utan också göra en viss prognos för framtiden. Sådana rapporter kan byggas både med standardstatistiska paket (särskilt för att göra prognoser) och som ett resultat av export av data till Microsoft Excel.

Byggsammanslutningar. När man bildar en sammanfattning (sammanfattande rapport) är det nödvändigt att ta hänsyn till vad som krävs i den som den mest kompletta presentationen av information om fråga ställd(d.v.s. presentation av dokumentets fullständiga text), och presentation endast i kort form, när ett abstrakt eller abstrakt väljs som textinformation.

Informationsanalytiskt system "Astarta"

Nedan kommer vi att överväga driften av isom beskrivs ovan på exemplet med Astarta informationsanalytiska system (utvecklare - Cognitive Technologies, http://www.cognitive.ru). Denna mjukvarulösning är baserad på Euphrates-teknologi och är utformad för att samla in, bearbeta och analysera ostrukturerad information som tas emot från Internet, tryckt material, media och andra källor. Den har en klient-server-arkitektur med möjlighet att publicera offentliga dokument och nyhetsflödesformat på servern. Systemet ger tre olika typer av jobb och följaktligen tre typer av användare: administratör, expert och användare.

Administrering

Utöver standardfunktionerna att hantera åtkomsträttigheter till systemet och utföra rutinunderhåll ansvarar Astarta-administratören för att publicera systemdetaljer, vanliga format för nyhetsflöden och rubrikatorer på servern. När du skapar och uppdaterar listan över användare av systemet, samt ställer in deras rättigheter att arbeta med dess komponenter, kan du ta hänsyn till företagets struktur, jobbklassificeraren, såväl som de länkar som är typiska för interaktion mellan avdelningar. Alla dessa komponenter bildas och justeras av administratören från systemgränssnittet (Fig. 1).

Ris. 1. Systemadministratörsfönster.

Du kan tilldela åtkomsträttigheter både till varje användare av systemet separat och till en grupp användare. I det senare fallet ställs rättigheterna för denna grupp automatiskt in för alla användare av gruppen. Om en användare tillhör flera grupper, så utökas hans rättigheter i enlighet med de rättigheter han har i varje grupp.

En administratör är en dedikerad systemanvändare som inte ska ha rättigheter att utföra användarfunktioner.

Arbeta med rubricator

Bildandet av en rubrikator är ett av de viktigaste stegen för att förbereda systemet för arbete, eftersom det bestämmer ämnet som den inkommande informationen kommer att sorteras på. Systemet stöder arbete med en hierarkisk rubrikator med obegränsat djup. Rubrikatorn kan skapas direkt från systemgränssnittet eller förberedas i förväg på ett godtyckligt sätt textredigerare och importera till systemet. När du förbereder rubrikatorns text är det tillåtet att använda godtyckliga avgränsare av hierarkinivåer.

Antingen systemets expert eller specialisten som utför sina funktioner är ansvarig för valet av utbildningsprovet. Utbildningsexemplet kan bestå av både en uppsättning filer indelade i kategorier och dokument som tidigare skrivits in i Astarta. Samtidigt kan du välja nivån på bedömningen av relevansen av att tillhöra denna rubrik, som ställs in när du matar in dokumentet i systemet. Möjligheten att delta i systemdokument i bildandet av ett träningsprov är särskilt praktiskt när man konstruerar ett förfiningsprov.

Kvaliteten på systemets inbyggda autorubrikator bestäms av resultaten av automatisk bestämning av ämnet för inkommande information. Auto-rubrikering av dokument utförs vid inmatning av information i databasen. Dokument tilldelas ett relevanspoäng som kännetecknar tillhörighet till en eller annan rubrik (eller flera rubriker). Dokument, vars ämne inte har fastställts, hör till rubricatorns sista rubrik (till exempel "Övrigt"). Om kvaliteten på definitionen av ämnet är otillfredsställande, bör autorubrikatorn omskolas, med angivande av sammansättningen av träningsprovet, och samma uppsättning dokument bör omkategoriseras (Fig. 2).

Ris. 2. Processen att bygga en rubrikator.

Resultatet av träningsprogrammet (en uppsättning karakteristiska termer) är tillgängliga för visning och redigering. Experten ges möjlighet att korrigera vikten av en viss term, lägga till en ny term eller radera en onödig.

Den förberedda och utbildade rubrikatorn publiceras på systemservern eller blir omedelbart tillgänglig för vidare arbete (om den lokala versionen av systemet används).

Användarjobb

Systemanvändarens arbete börjar med att bestämma listan över informationskällor, ställa in schemat för programmet som bearbetar internetmedia och specificera listan över kataloger i vilka inkommande nyhetsflöden kommer att ackumuleras. Dessutom måste du välja en rubrikator. Systemet tillåter att arbeta med flera rubrikatorer, det vill säga alla dokument kan kategoriseras under flera rubricatorer, men endast en rubricator måste vara aktuell vid varje given tidpunkt.

Som standard är systemet inställt så att ett dokument samtidigt kategoriseras under flera rubriker. Det är dock möjligt - och det är praktiskt när man sammanställer statistiska rapporter - att ställa in automatisk kategorisering enligt dokumentet som bara hör till en rubrik.

Inmatning av dokument

Inmatningssystemet stöder automatisk visning av nyhetssidor på fördefinierade sajter med en angiven frekvens och i enlighet med schemat. Användningen av ett schemaläggningssystem gör att du kan fördela arbetet med att lägga in nyheter, hänvisa det till till exempel natt- eller lunchtid.

Preliminär bearbetning av en nyhetswebbsida består i att välja individuella nyhetsartiklar från nyhetsblocket och analysera strukturen för varje nyhetsinslag, d.v.s. att välja ett textfragment och en lista med detaljer som åtföljer det. Nyheterna som förbereds på detta sätt överförs till inmatningssystemet, under vilket kontrollen för duplicering av information utförs, och sedan rubriceras texten automatiskt. Upprepade dokument läggs inte in i systemet. All information om att arbeta med internetmedia återspeglas i ett speciellt protokoll.

Vid bearbetning av nyhetsflöden olika format Först och främst bestäms formatet på detta band. Observera att en stream kan innehålla nyhetsflöden i olika format. Sedan väljs separata nyheter från nyhetsflödet och överförs till inmatningssystemet. Nyhetsflöden, vars format systemet inte kunde fastställa automatiskt, samlas in på en förutbestämd plats. I framtiden kan du manuellt ange i vilket format de ska anges. Dessutom är det möjligt att ange i "Astarta" de så kallade icke-formaterade dokumenten, det vill säga dokument, vars format inte beskrivs i systemet. Indikeringen av att flödet av informella dokument nu kommer att läggas in görs manuellt.

För att bearbeta pappersdokument i systemet är det möjligt att starta ett skanningsprogram och ange i dess gränssnitt platsen för de mottagna grafiska bilderna av dokument. Den efterföljande inmatningen av sådana dokument i systemet utförs manuellt med hjälp av ytterligare möjlighet dokumenttextigenkänning "on the fly" (drag&recog) när du fyller i dokumentdetaljer. Automatisk fulltextindexering av ett grafiskt dokument är också möjlig genom "blind" igenkänning av hela den grafiska bilden och överföring av den igenkända texten till fulltextindexeringsmodulen.

Dokumentsökning

grenad söksystem Mjukvarupaketet "Astarta" (fig. 3) tillhandahåller kompilering av komplexa frågor, vilket stöder organisationen av fulltext-, kontext- och attributsökning efter dokument, både i lokal och serverdatalagring. När du organiserar sökningen används metoder för morfologisk analys, som gör det möjligt att hitta i dokumentets text inte bara det exakta ordet (eller frasen), utan också alla dess ordformer. Sökning med hänsyn till morfologi kan utföras både i dokumentets text och i dess detaljer.


Ris. 3. Bildande av en begäran om att söka efter handlingar.

Systemgränssnittet låter dig generera frågor med de logiska operationerna AND, OR, NOT, vilket indikerar ett mer exakt villkor för informationshämtning. Det finns också ett antal verktyg och funktioner som förenklar arbetet med att skapa en begäran om att söka efter dokument:

  • närvaron av ordböcker med detaljerna i systemet (förenklar valet av önskat värde);
  • möjligheten att ange datum på "naturligt" språk (till exempel att välja datum "mars 2003" motsvarar att ange intervallet från 1.03.03 till 31.03.03);
  • generera en fråga baserad på sökresultat;
  • lagring av fördefinierade frågor.

Bildning av smältningar

Bildandet av sammanfattande rapporter (sammandrag) grupperade efter olika informationsskivor är en integrerad del funktionalitet system (fig. 4). För att implementera denna funktion har Astarta-systemet en komponent som låter dig skapa olika mallar för att presentera information i rapporter, där stilar och struktur för alla rapportkomponenter specificeras och dokumentsorteringsmetod anges. De tillgängliga inställningarna låter dig kompilera en sammanfattning endast på kommentarerna i dokument eller generera en sammanfattning i fulltext. Med stora mängder information kan du skapa ett dokument med flera volymer eller omvänt bara en innehållsförteckning för det.


Ris. 4. Bildande av en sammanfattande rapport (digest).

Som standard skapas det slutliga dokumentet i Microsoft-format I Word kan du dock välja ett annat datapresentationsformat när du fyller i mallen.

Bygga statistiska sammanfattningar

Huvuduppgiften för statistisk analys är att fastställa utvecklingstrenderna för det undersökta problemet. De mest illustrativa sätten att presentera resultat är en tidsserie som visar utvecklingen av den studerade kvantiteten över tid, och ett diagram som visar andelen av den undersökta kvantiteten i förhållande till andra kvantiteter. Om lösningen av prognosproblem kräver användning av olika statistiska paket med hjälp av speciella algoritmer (till exempel autoregression och integral algoritm för glidande medelvärde ARISS - ARIMA), kan en kvalitativ uppskattning erhållen på basis av den konstruerade tidsserien erhållas med hjälp av standard Excel-paket.

Båda metoderna för att konstruera olika statistiska sammanfattningar implementeras i "Astarta"-systemet: med hjälp av funktionerna i Statistica 5.5-paketet eller standardpaketet Excel. När du exporterar till Excel från systemgränssnittet kan du ange typen av informationspresentation: graf, cirkeldiagram eller tabell. Ett exempel på en tidsserie byggd med hjälp av Excel-paketet för Lenta.ru webbplats rubricator visas i fig. 5.

Slutsats

Företagens informations- och analystjänster måste i sitt arbete hantera en mängd olika informationskällor. Dessa är papperstidningar, elektroniska tidningar, andra internetresurser, E-post, överföring av nyhetsströmmar via IP- och ftp-kanaler, etc. Användningen av tekniken för att bearbeta och analysera information från heterogena källor som beskrivs i artikeln, med automatisk gruppering efter tematiska funktioner, minimerar sannolikheten för att man missar den nödvändiga informationen. Automatisk filtrering av strömmar gör att du snabbt kan få en integrerad informationsbild, och för en detaljerad studie av inkommande information kan en kraftfull sökmotor med konstruktion av komplexa frågor användas.

Erfarenheterna av att implementera ett informationsanalytiskt system i olika organisationer har visat den höga effektiviteten och lättheten att anpassa systemet till lokala förhållanden tack vare det utvecklade universella verktyget för automatiserad laddning av stora, heterogena textinformationsflöden.

Universal Format Parser gör det möjligt att helt automatisera inmatningen av elektroniska informationsflöden från heterogena källor med information som förs till en enda intern representation, samt att minimera rutinarbetet med att mata in oregelbunden textdata (till exempel inmatning av texter från pappersmedia när man känner igen artiklar från Skriv ut media, anteckningar och i framtiden automatisk igenkänning av aktuell ljudinformation, etc.). Det inbyggda systemet för automatisk spårning av publiceringen av "färska" nyheter på informationssajter på Internet gör det möjligt att automatisera denna del av verksamheten för information och analytiska tjänster för företag.

En viktig omständighet är flexibiliteten hos den föreslagna tekniken för automatisk kategorisering (tematisk filtrering). Att bygga en lista med rubriker och utbildning av systemet kan utföras av en expert - en specialist på informations- och analystjänster för ett visst företag - för behoven av specialiserad information och analytiska tjänster. Utbudet av tillförlitliga bedömningar av dokumentens relevans för givna rubriker bör också vara tillgängliga för experten som ett verktyg för analys eller självinlärning av systemet på färska data.

Det analytiska blocket tjänar till att automatisera processen för att förbereda rapporter och sammanfattningar, och låter även analytikern spåra och förutsäga reflektionen i allmänheten informationsutrymme(media, Internet,...) olika trender i utvecklingen av ett visst ämnesområde.

Effektiviteten hos informationsanalytiska system av denna klass kan förbättras genom utveckling och implementering av artificiell intelligensmetoder som tillämpas på textanalys, i synnerhet metoder för automatisk semantisk analys av texter, meningsförståelse.

4. Klassificering av OLAP-produkter.

5. Principer för drift av OLAP-klienter.

7. Tillämpningsområden för OLAP-teknologier.

8. Ett exempel på användning av OLAP-tekniker för analys inom försäljningsområdet.

1. OLAP:s plats i företagets informationsstruktur.

Termen "OLAP" är oupplösligt kopplad till termen "data warehouse" (Data Warehouse).

Datan i lagringen kommer från operativa system (OLTP-system), som är designade för att automatisera affärsprocesser. Dessutom kan förrådet fyllas på med Externa källor såsom statistiska rapporter.

Förvarets uppgift är att tillhandahålla "råvaran" för analys på ett ställe och i en enkel, begriplig struktur.

Det finns en annan anledning som motiverar uppkomsten av en separat lagring - komplexa analytiska frågor för operativ information saktar ner företagets nuvarande arbete, blockerar tabeller under lång tid och lägger beslag på serverresurser.

Under lagring kan förstås inte nödvändigtvis en gigantisk ansamling av data - det viktigaste är att det är bekvämt för analys.

Centralisering och bekväm strukturering är långt ifrån allt som en analytiker behöver. När allt kommer omkring behöver han fortfarande ett verktyg för att se, visualisera information. Traditionella rapporter, även byggda på basis av ett enda förvar, saknar en sak - flexibilitet. De kan inte "tvinnas", "expanderas" eller "komprimeras" för att få önskad bild av data. Jag önskar att han hade ett sådant verktyg som skulle tillåta honom att expandera och kollapsa data enkelt och bekvämt! OLAP är ett sådant verktyg.

Även om OLAP inte är ett nödvändigt attribut för ett datalager, används det allt oftare för att analysera informationen som samlas i detta datalager.

OLAPs plats informationsstruktur företag (Fig. 1).

Bild 1. PlatsOLAP i företagets informationsstruktur

Verksamhetsdata samlas in från olika källor, rensas, integreras och läggs i ett relationslager. Samtidigt finns de redan tillgängliga för analys med hjälp av olika rapporteringsverktyg. Därefter förbereds data (helt eller delvis) för OLAP-analys. De kan laddas in i en speciell OLAP-databas eller lämnas i ett relationsarkiv. Dess viktigaste element är metadata, det vill säga information om struktur, placering och transformation av data. Tack vare dem säkerställs en effektiv interaktion mellan olika lagringskomponenter.

Sammanfattningsvis kan vi definiera OLAP som en uppsättning verktyg för multidimensionell analys av data ackumulerat i ett lager.

2. Operationell analytisk databehandling.

Konceptet med OLAP bygger på principen om flerdimensionell datarepresentation. År 1993 övervägde E. F. Codd bristerna i den relationella modellen, först och främst, och påpekade omöjligheten att "kombinera, titta på och analysera data i termer av multidimensionalitet, det vill säga på det mest förståeliga sättet för företagsanalytiker", och definierade allmänt. krav för OLAP-system, som utökar funktionaliteten hos relations-DBMS och inkluderar multidimensionell analys som en av dess egenskaper.

Enligt Codd är en multidimensionell konceptuell syn på data ett multipelperspektiv, bestående av flera oberoende dimensioner längs vilka vissa uppsättningar av data kan analyseras.

Samtidig analys på flera dimensioner definieras som multivariat analys. Varje dimension inkluderar riktningar för datakonsolidering, bestående av en serie successiva generaliseringsnivåer, där varje högre nivå motsvarar en högre grad av dataaggregation för motsvarande dimension.

Således kan dimensionen Entreprenör bestämmas av konsolideringsriktningen, bestående av generaliseringsnivåer "företag - underavdelning - avdelning - anställd". Dimensionen Tid kan till och med inkludera två konsolideringsriktningar - "år - kvartal - månad - dag" och "vecka - dag", eftersom tidsräkningen per månad och vecka inte är kompatibel. I detta fall blir det möjligt att godtyckligt välja den önskade informationsnivån för var och en av mätningarna.

Driften av nedstigning (borrning ner) motsvarar rörelsen från de högre konsolideringsnivåerna till de lägre; tvärtom innebär operationen att lyfta (rulla upp) att flytta från lägre nivåer till högre nivåer (Fig. 2).


Figur 2.Dimensioner och riktningar för datakonsolidering

3. Krav på medlen för operationsanalytisk bearbetning.

Den flerdimensionella ansatsen uppstod nästan samtidigt och parallellt med den relationella ansatsen. Dock först från mitten av nittiotalet, eller snarare från
1993, intresse för MDBMS började bli allmän. Det var i år som en ny policyartikel från en av grundarna av det relationella synsättet dök upp E. Codda, där han formulerade 12 grundläggande krav för genomförandet OLAP(Bord 1).

Bord 1.

Flerdimensionell datavy

Verktygen måste stödja en flerdimensionell syn på data på en konceptuell nivå.

Genomskinlighet

Användaren behöver inte veta vilka specifika medel som används för att lagra och bearbeta data, hur data är organiserad och varifrån den kommer.

Tillgänglighet

Verktygen själva måste välja och associera med den bästa datakällan för att bilda ett svar på en given förfrågan. Verktyg bör ge automatisk visning av sina egna logikdiagram till olika heterogena datakällor.

Konsekvent prestanda

Prestanda bör vara praktiskt taget oberoende av antalet dimensioner i frågan.

Stöd för klient-server-arkitektur

Verktygen måste fungera i en klient-server-arkitektur.

Jämlikhet av alla dimensioner

Ingen av dimensionerna ska vara grundläggande, de ska alla vara lika (symmetriska).

Dynamisk hantering av glesa matriser

Nollvärden ska lagras och hanteras på det mest effektiva sättet.

Stöd för fleranvändarläge för att arbeta med data

Verktygen ska tillåta mer än en användare att arbeta.

Stöd för verksamhetsbaserat olika mått

Alla flerdimensionella operationer (t.ex. aggregation) måste tillämpas enhetligt och konsekvent på valfritt antal av alla dimensioner.

Enkel datahantering

Verktyg bör ha det mest bekväma, naturliga och bekväma användargränssnittet.

Avancerade verktyg för datapresentation

Fonder måste stödja olika sätt visualisering (representation) av data.

Obegränsat antal dimensioner och nivåer av dataaggregering

Det bör inte finnas någon gräns för antalet dimensioner som stöds.

Regler för utvärdering av mjukvaruprodukter i OLAP-klassen

Uppsättningen av dessa krav som fungerade som de facto-definitionen av OLAP bör betraktas som rekommendationer, och enskilda produkter bör bedömas utifrån graden av approximation för att idealiskt uppfylla alla krav.

Senare omarbetades Codds definition till det så kallade FASMI-testet, vilket kräver att en OLAP-applikation ger möjlighet att snabbt analysera delad flerdimensionell information.

Att komma ihåg Codds 12 regler är för betungande för de flesta. Det visade sig att det är möjligt att sammanfatta OLAP-definitionen med endast fem nyckelord: Snabbanalys av delad flerdimensionell information - eller kortfattat - FASMI (översatt från engelska:F ast A analys av S delad M ultradimensionell jag information).

Denna definition formulerades först i början av 1995 och har inte behövt revideras sedan dess.

SNABB ( Snabbt) - betyder att systemet ska ge majoriteten av svaren till användarna inom cirka fem sekunder. Samtidigt behandlas de enklaste förfrågningarna inom en sekund och mycket få - mer än 20 sekunder. Forskning har visat att slutanvändare upplever att en process misslyckas om resultaten inte tas emot efter 30 sekunder.

Vid första anblicken kan det tyckas förvånande att när man tar emot en rapport på en minut, som för inte så länge sedan tog dagar, blir användaren mycket snabbt uttråkad medan han väntar, och projektet visar sig vara mycket mindre framgångsrikt än i fallet med en omedelbar respons, även till priset av mindre detaljerad analys.

ANALYS (Analys)innebär att systemet kan hantera vilken logisk och statistisk analys som helst specifik för den här applikationen, och säkerställer att den bevaras i en form som är tillgänglig för slutanvändaren.

Det är inte så viktigt om denna analys utförs i leverantörens egna verktyg eller i en relaterad extern mjukvaruprodukt som ett kalkylblad, det är helt enkelt att all nödvändig analysfunktionalitet måste tillhandahållas på ett intuitivt sätt för slutanvändarna. Analysverktygen kan inkludera specifika procedurer såsom tidsserieanalys, kostnadsallokering, valutaöverföringar, målsökning, ändring av flerdimensionella strukturer, icke-procedurmässig modellering, undantagsdetektering, dataextraktion och andra applikationsberoende operationer. Sådana möjligheter varierar mycket mellan produkter, beroende på målinriktningen.

DELAD (Delad) innebär att systemet upprätthåller alla krav på konfidentialitetsskydd (kanske ner till cellnivå) och, om flera skrivåtkomster krävs, upprätthåller modifieringslåsning på lämplig nivå. Alla applikationer behöver inte skriva tillbaka data. Men antalet sådana applikationer växer och systemet måste kunna hantera flera modifieringar på ett snabbt och säkert sätt.

MULTIDIMENSIONELL - detta är ett nyckelkrav. Om vi ​​var tvungna att definiera OLAP med ett ord, skulle vi välja det. Systemet bör tillhandahålla en multidimensionell konceptuell representation av data, inklusive fullt stöd för hierarkier och flera hierarkier, eftersom detta definitivt är det mest logiska sättet att analysera företag och organisationer. Det finns inget minsta antal dimensioner som måste bearbetas eftersom det också beror på applikationen, och de flesta OLAP-produkter har tillräckligt med dimensioner för de marknader de riktar sig till.

INFORMATION - det är allt. Nödvändig information ska inhämtas där den behövs. Mycket beror dock på applikationen. Kraften hos olika produkter mäts i termer av hur mycket input de klarar av, inte hur många gigabyte de kan lagra. Kraften i produkterna varierar mycket – de största OLAP-produkterna kan hantera minst tusen gånger mer data än de minsta. Det finns många faktorer att ta hänsyn till i detta avseende, inklusive dataduplicering, erforderligt RAM-minne, diskutrymmesanvändning, prestanda, integration med informationslager och så vidare.

FASMI-testet är en rimlig och begriplig definition av de mål som OLAP fokuserar på.

4. KlassificeringOLAP- Produkter.

Så, kärnan i OLAP ligger i det faktum att den initiala informationen för analys presenteras i form av en flerdimensionell kub, och det är möjligt att manipulera den godtyckligt och få de nödvändiga informationssektionerna - rapporter. Samtidigt ser slutanvändaren kuben som en multidimensionell dynamisk tabell som automatiskt sammanfattar data (fakta) i olika sektioner (dimensioner), och låter dig interaktivt hantera beräkningar och rapportens form. Dessa operationer utförs OLAP maskin (eller maskin OLAP-dator).

Hittills har många produkter utvecklats i världen som implementerar OLAP -teknologi. För att göra det lättare att navigera bland dem, använd klassificeringar OLAP -produkter: genom att lagra data för analys och per plats OLAP -bilar. Låt oss ta en närmare titt på varje kategori. OLAP företagsprofil.

Klassificering efter datalagringsmetod

Flerdimensionella kuber byggs på basis av källdata och aggregerade data. Både källdata och aggregerade data för kuber kan lagras i både relationella och flerdimensionella databaser. Därför finns det för närvarande tre sätt att lagra data: MOLAP (Multidimensional OLAP ), ROLAP (Relational OLAP ) och HOLAP (Hybrid OLAP ). Respektive, OLAP -produkter enligt metoden för datalagring är indelade i tre liknande kategorier:

1. Vid MOLAP , lagras källdata och aggregerade data i en flerdimensionell databas eller i en flerdimensionell lokal kub.

2. I ROLAP -produkter lagras källdata i relationsdatabaser eller i platta lokala tabeller på filservern. Aggregat data kan placeras i tjänstetabeller i samma databas. Datakonvertering från en relationsdatabas till flerdimensionella kuber sker på begäran OLAP-verktyg.

3. Vid användning HOLAP arkitektur, källdata finns kvar i relationsdatabasen, medan aggregaten placeras i den flerdimensionella. Byggnad OLAP -kub utförd på begäran OLAP -verktyg baserade på relationell och multidimensionell data.

Platsklassificering OLAP-bilar.

Utifrån detta OLAP -Produkter är indelade i OLAP-servrar och OLAP-klienter:

· På server OLAP -medel för beräkning och lagring av aggregerade data utförs av en separat process - servern. Klientapplikationen tar bara emot resultaten av frågor mot flerdimensionella kuber som är lagrade på servern. Några OLAP -servrar stöder datalagring endast i relationsdatabaser, vissa - endast i flerdimensionella. Många moderna OLAP -servrar stöder alla tre sätten att lagra data:MOLAP, ROLAP och HOLAP.

MOLAP.

MOLAP är Flerdimensionell on-line analytisk bearbetning, dvs flerdimensionell OLAP.Detta innebär att servern använder en multidimensionell databas (MBD) för att lagra data. Innebörden av att använda MDB är uppenbar. Den kan effektivt lagra data som är flerdimensionell till sin natur, vilket ger ett sätt att snabbt betjäna databasfrågor. Data överförs från datakällan till den flerdimensionella databasen och sedan aggregeras databasen. Förberäkning är det som påskyndar OLAP-frågor eftersom sammanfattningsdata redan har beräknats. Frågetiden blir en funktion enbart av den tid som krävs för att komma åt en viss databit och utföra en beräkning. Denna metod stödjer konceptet att arbetet utförs en gång, och resultatet används sedan om och om igen. Flerdimensionella databaser är en relativt ny teknik. Användningen av MDB har samma nackdelar som de flesta nya teknologier. De är nämligen inte lika stabila som relationsdatabaser (RDB), och är inte optimerade i samma utsträckning. En annan svag punkt med MDB är oförmågan att använda de flesta av de flerdimensionella databaserna i dataaggregeringsprocessen, så det tar tid att ny information blev tillgänglig för analys.

ROLAP.

ROLAP är Relationell on-line analytisk bearbetning, det vill säga Relationell OLAP.Termen ROLAP betyder att OLAP-servern är baserad på en relationsdatabas. Källdata läggs in i en relationsdatabas, vanligtvis i ett stjärn- eller snöflingaschema, för att minska hämtningstiderna. Servern tillhandahåller en flerdimensionell datamodell med optimerade SQL-frågor.

Det finns ett antal anledningar till att välja en relationsdatabas framför en flerdimensionell databas. RDB är en väletablerad teknik med många möjligheter till optimering. Verklig användning resulterade i en mer mogen produkt. Dessutom stöder RDB:er större mängder data än MDB:er. De är bara designade för sådana volymer. Huvudargumentet mot RDB är komplexiteten i de frågor som krävs för att hämta information från en stor databas med använder SQL. En oerfaren SQL-programmerare kan lätt belasta värdefulla systemresurser genom att försöka göra något. liknande begäran, vilket är mycket lättare att utföra i MDB.

Aggregerad/Föraggregerad data.

Snabb implementering av frågor är en absolut nödvändighet för OLAP. Detta är en av grundprinciperna för OLAP - förmågan att manipulera data intuitivt kräver snabb informationshämtning. Generellt gäller att ju fler beräkningar som behöver göras för att få en bit information, desto långsammare svar. Därför, för att spara en liten tid för implementering av frågor, är fragment av information som vanligtvis nås oftast, men som samtidigt kräver beräkning, föraggregerad. Det vill säga de räknas och lagras sedan i databasen som ny data. Ett exempel på den typ av data som kan förberäknas är sammanfattande data, såsom månads-, kvartals- eller årsförsäljningssiffror, för vilka de faktiska uppgifterna som anges är dagliga siffror.

Olika leverantörer har olika metoder för att välja parametrar, vilket kräver föraggregation och ett antal förberäknade värden. Metoden för aggregering påverkar både databasen och exekveringstiden för frågor. Om fler värden beräknas, ökar sannolikheten att användaren kommer att begära det redan beräknade värdet, och därför kommer svarstiden att minska, eftersom det initiala värdet inte behöver begäras för beräkning. Men om vi beräknar alla möjliga värden är detta inte det den bästa lösningen- i det här fallet ökar databasens storlek avsevärt, vilket gör den ohanterlig, och aggregeringstiden blir för lång. Dessutom, när numeriska värden läggs till i databasen, eller om de ändras, måste denna information återspeglas i förberäknade värden som beror på den nya datan. Därför kan uppdateringen av databasen också ta lång tid i fall ett stort antal förberäknade värden. Eftersom databasen vanligtvis fungerar offline under aggregering är det önskvärt att aggregeringstiden inte är för lång.

OLAP Klienten är konfigurerad annorlunda. Konstruktion av en flerdimensionell kub och OLAP -beräkningar utförs i klientdatorns minne.OLAP -kunder är också indelade i ROLAP och MOLAP.Och vissa kan stödja båda alternativen för dataåtkomst.

Var och en av dessa tillvägagångssätt har sina för- och nackdelar. Tvärtemot vad många tror om fördelarna med serververktyg framför klientverktyg, i ett antal fall användningen av OLAP -klient för användare kan vara mer effektiv och lönsam att använda OLAP-servrar.

Utvecklingen av analytiska applikationer med hjälp av klient-OLAP-verktyg är en snabb process och kräver ingen speciell utbildning av utföraren. En användare som kan den fysiska implementeringen av databasen kan utveckla en analytisk applikation på egen hand, utan inblandning av en IT-specialist.

När du använder en OLAP-server måste du lära dig två olika system, ibland från olika leverantörer, för att skapa kuber på servern och för att utveckla en klientapplikation.

OLAP-klienten tillhandahåller ett enda visuellt gränssnitt för att beskriva kuber och anpassa användargränssnitt för dem.

Så, i vilka fall kan användningen av en OLAP-klient för användare vara mer effektiv och fördelaktig än att använda en OLAP-server?

· Ekonomisk genomförbarhet av ansökan OLAP - server uppstår när mängden data är mycket stor och outhärdlig för OLAP -klient, annars är användningen av den senare mer motiverad. I detta fall OLAP -Kunden kombinerar höga prestandaegenskaper och låg kostnad.

· Kraftfulla analytikerdatorer är ett annat argument för OLAP -klienter. När den tillämpas OLAP -server dessa kapaciteter används inte.

Andra fördelar med OLAP-klienter inkluderar:

· Implementerings- och underhållskostnader OLAP -kunden är betydligt lägre än kostnaden för OLAP-server.

· Använder sig av OLAP -klient med inbyggd maskindataöverföring över nätverket görs en gång. Medan du gör OLAP -operationer nya dataströmmar genereras inte.

5. Funktionsprinciper OLAP-klienter.

Överväg processen att skapa en OLAP-applikation med hjälp av klientverktyget (fig. 1).

Bild 1.Skapa en OLAP-applikation med hjälp av ROLAP Client Tool

Funktionsprincipen för ROLAP-klienter är en preliminär beskrivning av det semantiska lagret, bakom vilket den fysiska strukturen för källdata är dold. I det här fallet kan datakällor vara: lokala tabeller, RDBMS. Listan över datakällor som stöds bestäms av den specifika programvaruprodukten. Därefter kan användaren självständigt manipulera de objekt som han förstår vad gäller ämnesområdet för att skapa kuber och analytiska gränssnitt.

Funktionsprincipen för OLAP-serverklienten är annorlunda. På OLAP-servern, när användaren skapar kuber, manipulerar användaren de fysiska beskrivningarna av databasen. Detta skapar anpassade beskrivningar i själva kuben. OLAP Server-klienten är endast konfigurerad för kub.

När du skapar ett semantiskt lager beskrivs datakällorna - Försäljnings- och Deal-tabellerna - i termer som är förståeliga för slutanvändaren och blir till "Produkter" och "Deals". Fältet "ID" från tabellen "Produkter" byter namn till "Kod" och "Namn" - till "Produkt" etc.

Sedan skapas ett affärsobjekt för försäljning. Ett affärsobjekt är ett platt bord på grundval av vilket en flerdimensionell kub bildas. När du skapar ett affärsobjekt kombineras tabellerna "Produkter" och "Affärer" av fältet "Kod" för produkten. Eftersom alla fält i tabellerna inte kommer att behöva visas i rapporten, använder affärsobjektet endast fälten "Artikel", "Datum" och "Belopp".

I vårt exempel, baserat på affärsobjektet "Försäljning", skapades en rapport om försäljning av varor per månader.

När man arbetar med en interaktiv rapport kan användaren ställa in filtrerings- och grupperingsvillkor med samma enkla musrörelser. Vid denna tidpunkt kommer ROLAP-klienten åt data i cachen. OLAP-serverns klient genererar en ny fråga till den flerdimensionella databasen. Genom att till exempel använda ett produktfilter i försäljningsrapporten kan du få en rapport om försäljningen av produkter av intresse för oss.

Alla inställningar för en OLAP-applikation kan lagras i ett dedikerat metadatalager, i ett program eller i ett flerdimensionellt databassystem.Implementeringen beror på den specifika mjukvaruprodukten.

Allt som ingår i dessa applikationer är en standardvy av gränssnittet, fördefinierade funktioner och struktur, och snabba lösningar för mer eller mindre standardsituationer. Till exempel är finansiella paket populära. Förbyggda finansiella applikationer kommer att tillåta proffs att använda välbekanta finansiella instrument utan att behöva utforma en databasstruktur eller vanliga formulär och rapporter.

Internet är ny form klient. Dessutom bär den stämpeln av ny teknik; mycket av internetlösningar skiljer sig markant i deras kapacitet i allmänhet och i kvaliteten på en OLAP-lösning i synnerhet. Det finns många fördelar med att generera OLAP-rapporter över Internet. Viktigast av allt, det finns inget behov av specialiserad programvara för att få tillgång till information. Detta sparar företaget mycket tid och pengar.

6. Val av OLAP-applikationsarkitektur.

När man implementerar ett informationsanalytiskt system är det viktigt att inte göra ett misstag när man väljer arkitekturen för en OLAP-applikation. Den bokstavliga översättningen av termen On-Line Analytical Process - "on-line analytical processing" - tas ofta bokstavligt i den meningen att data som kommer in i systemet snabbt analyseras. Detta är en missuppfattning - effektiviteten i analysen är inte på något sätt kopplad till realtid uppdatera data i systemet. Denna egenskap avser OLAP-systemets svarstid på användarförfrågningar. Samtidigt är den analyserade datan ofta en ögonblicksbild av information ”för gårdagen”, om till exempel data i lagren uppdateras en gång om dagen.

I detta sammanhang är översättningen av OLAP som "interactive analytical processing" mer korrekt. Det är förmågan att analysera data i ett interaktivt läge som skiljer OLAP-system från system för att förbereda reglerade rapporter.

En annan egenskap hos interaktiv bearbetning i formuleringen av grundaren av OLAP, E. Codd, är förmågan att "kombinera, visa och analysera data i termer av flera dimensioner, det vill säga på det mest förståeliga sättet för företagsanalytiker." För Codd själv betecknar termen OLAP ett extremt specifikt sätt att presentera data på en konceptuell nivå - flerdimensionell. På den fysiska nivån kan data lagras i relationsdatabaser, men i verkligheten tenderar OLAP-verktyg att fungera med flerdimensionella databaser där datan är organiserad i form av en hyperkub (Figur 1).

Bild 1. OLAP- kub (hyperkub, metakub)

Samtidigt bestäms relevansen av dessa data av det ögonblick hyperkuben fylls med ny data.

Det är uppenbart att tidpunkten för bildandet av en multidimensionell databas avsevärt beror på mängden data som laddas in i den, så det är rimligt att begränsa denna mängd. Men hur kan man inte begränsa analysmöjligheterna och beröva användaren tillgång till all information av intresse? Det finns två alternativa sökvägar: Analysera och fråga sedan (”Analysera först – begär sedan ytterligare information”) och Fråga sedan analysera (”Fråga först efter data – analysera sedan”).

Följare av den första vägen föreslår att man laddar generaliserad information i en flerdimensionell databas, till exempel månads-, kvartals-, årsresultat för avdelningar. Och om det är nödvändigt att förfina data, uppmanas användaren att generera en rapport om en relationsdatabas som innehåller det nödvändiga urvalet, till exempel efter dagar för en viss avdelning eller efter månader och anställda på en vald avdelning.

Förespråkare för det andra sättet, tvärtom, föreslår att användaren först och främst bestämmer sig för vilken data han ska analysera och ladda den i en mikrokub - en liten flerdimensionell databas. Båda tillvägagångssätten skiljer sig åt på konceptuell nivå och har sina fördelar och nackdelar.

Fördelarna med det andra tillvägagångssättet inkluderar "färskheten" av information som användaren får i form av en multidimensionell rapport - "mikrokub". Mikrokuben bildas utifrån den information som just begärts från den faktiska relationsdatabasen. Arbetet med en mikrokub utförs i ett interaktivt läge - att erhålla delar av information och dess detaljering inom ramen för en mikrokub utförs omedelbart. En annan positiv punkt är att utformningen av strukturen och fyllningen av mikrokuben utförs av användaren "i farten", utan deltagande av en databasadministratör. Tillvägagångssättet lider dock också av allvarliga brister. Användaren ser inte helheten och måste i förväg bestämma inriktningen på sin forskning. Annars kan den begärda mikrokuben vara för liten och inte innehålla all information av intresse, och användaren måste begära en ny mikrokub, sedan en ny, sedan en till och en till. Query-analysmetoden implementerar sedan BusinessObjects-verktyget från samma företag och verktyg plattform Contour företagIntersoft labb.

Med tillvägagångssättet Analyze then query kan mängden data som laddas in i en flerdimensionell databas vara ganska stor, ifyllningen måste utföras enligt reglerna och kan ta mycket tid. Men alla dessa brister betalar sig senare, när användaren har tillgång till nästan all nödvändig data i vilken kombination som helst. Hänvisning till originaldata i relationsdatabasen görs endast som en sista utväg, när detaljerad information behövs, till exempel på en specifik faktura.

Driften av en enda flerdimensionell databas påverkas praktiskt taget inte av antalet användare som kommer åt den. De läser bara den data som finns tillgänglig där, till skillnad från Query then analys-metoden, där antalet mikrokuber i gränsfallet kan växa i samma takt som antalet användare.

Med detta tillvägagångssätt ökar belastningen på IT-tjänster, som förutom relationella även tvingas tjäna flerdimensionella databaser.Det är dessa tjänster som ansvarar för det aktuella automatisk uppdatering data i flerdimensionella databaser.

De mest framträdande representanterna för metoden "Analyze then query" är Cognos PowerPlay- och Impromptu-verktyg.

Valet av både tillvägagångssätt och verktyg som implementerar det beror i första hand på det eftersträvade målet: du måste alltid balansera mellan att spara budget och att förbättra kvaliteten på slutanvändarservice. Samtidigt bör det beaktas att skapandet av informations- och analyssystem i den strategiska planen strävar efter målet att uppnå en konkurrensfördel och inte undvika kostnaden för automatisering. Till exempel kan ett företagsinformations- och analyssystem tillhandahålla nödvändig, aktuell och tillförlitlig information om ett företag, vars publicering för potentiella investerare kommer att säkerställa transparensen och förutsägbarheten för detta företag, vilket oundvikligen kommer att bli ett villkor för dess investeringsattraktionskraft.

7. Tillämpningsområden för OLAP-teknologier.

OLAP är tillämpligt överallt där det finns en uppgift att analysera multifaktoriell data. I allmänhet, om du har en tabell med data som har minst en beskrivande kolumn (dimension) och en kolumn med siffror (mått eller fakta), är ett OLAP-verktyg vanligtvis ett effektivt verktyg för att analysera och generera rapporter.

Tänk på några användningsområden för OLAP-teknologier hämtade från det verkliga livet.

1. Försäljning.

Baserat på analysen av försäljningsstrukturen löses de frågor som är nödvändiga för att fatta ledningsbeslut: ändra utbudet av varor, priser, stänga och öppna butiker, filialer, avsluta och teckna avtal med återförsäljare, genomföra eller avsluta reklamkampanjer, etc.

2. Inköp.

Uppgiften är motsatsen till försäljningsanalys. Många företag köper komponenter och material från leverantörer. Handlare köper varor för återförsäljning. Det finns många möjliga uppgifter i analysen av upphandling, från planering Pengar baserat på tidigare erfarenheter, kontroll över chefer att välja leverantörer.

3. Priser.

Analysen av köp går samman med analysen av marknadspriser. Syftet med denna analys är att optimera kostnaderna, välja de mest fördelaktiga erbjudandena.

4. Marknadsföring.

Med marknadsanalys menar vi endast analysområdet för köpare eller kunder-konsumenter av tjänster. Uppgiften med denna analys är korrekt positionering av produkten, identifiera kundgrupper för riktad reklam samt optimera sortimentet. OLAPs uppgift i detta fall är att ge användaren ett verktyg för att snabbt, med tankehastighet, få svar på frågor som intuitivt uppstår under dataanalysens gång.

5. Lager.

Analys av strukturen för lagersaldon i lagret efter typer av varor, lager, analys av varornas hållbarhet, analys av leverans från mottagare och många andra typer av analyser som är viktiga för företaget är möjliga om organisationen har lagerredovisning.

6. Kassaflöde.

Detta är ett helt analysområde som har många skolor och metoder. OLAP-teknik kan fungera som ett verktyg för att implementera eller förbättra dessa tekniker, men inte en ersättning för dem. Kassaflödena av icke-kassa och kontanta medel analyseras i samband med affärsverksamhet, motparter, valutor och tid för att optimera flöden, säkerställa likviditet, etc. Sammansättningen av mätningar beror starkt på verksamhetens egenskaper, bransch, metodik.

7. Budget.

Ett av de mest bördiga användningsområdena för OLAP-teknologier. Ingen för ingenting modernt system budgetering anses inte vara komplett utan närvaron av en OLAP-verktygslåda för budgetanalys i dess sammansättning. De flesta budgetrapporter byggs enkelt utifrån OLAP-system. Samtidigt svarar rapporter på ett mycket brett spektrum av frågor: analys av strukturen för utgifter och inkomster, jämförelse av utgifter för vissa poster i olika avdelningar, analys av dynamiken och trenderna för utgifter för vissa poster, analys av kostnader och vinst .

8. Bokföringskonton.

En klassisk balansräkning bestående av ett kontonummer och innehållande inkommande saldon, omsättningar och utgående saldon kan perfekt analyseras i ett OLAP-system. Dessutom kan OLAP-systemet automatiskt och mycket snabbt beräkna konsoliderade saldon för en multibranschorganisation, månads-, kvartals- och årssaldon, aggregerade saldon per kontohierarki, analytiska saldon baserat på analytiska egenskaper.

9. Finansiell rapportering.

Ett tekniskt byggt rapporteringssystem är inget annat än en uppsättning namngivna indikatorer med värden för datumet som måste grupperas och sammanfattas i olika avsnitt för att få specifika rapporter. När så är fallet är visning och utskrift av rapporter enklast och billigast implementerat i OLAP-system. Företagets interna rapporteringssystem är i alla fall inte så konservativt och kan omstruktureras för att spara pengar på ingenjörsarbeten på att skapa rapporter och få möjlighet till multivariat verksamhetsanalys.

10. Webbplatstrafik.

Internetserverns loggfil är flerdimensionell till sin natur och därför lämplig för OLAP-analys. Fakta är: antal besök, antal träffar, tid på sidan och annan information som finns tillgänglig i loggen.

11. Produktionsvolymer.

Detta är ytterligare ett exempel på statistisk analys. Därmed är det möjligt att analysera volymerna av odlad potatis, smält stål, tillverkade varor.

12. Förbrukning av förbrukningsvaror.

Föreställ dig en anläggning som består av dussintals verkstäder som förbrukar kylvätskor, spolvätskor, oljor, trasor, sandpapper - hundratals förbrukningsvaror. Noggrann planering och kostnadsoptimering kräver en grundlig analys av den faktiska förbrukningen av förbrukningsvaror.

13. Användning av lokaler.

En annan typ av statistisk analys. Exempel: analys av arbetsbelastningen i klassrum, hyrda byggnader och lokaler, användning av konferensrum m.m.

14. Personalomsättning på företaget.

Analys av personalomsättningen på företaget i samband med grenar, avdelningar, yrken, utbildningsnivå, kön, ålder, tid.

15. Persontransport.

Analys av antalet sålda biljetter och belopp per säsong, destination, typer av vagnar (klasser), typer av tåg (flygplan).

Denna lista är inte begränsad till användningsområden. OLAP - teknik. Tänk till exempel på teknik OLAP - försäljningsanalys.

8. Användningsexempel OLAP -teknologier för analys inom försäljningsområdet.

Designa multidimensionell datarepresentation för OLAP -analys börjar med bildandet av en karta över mätningar. När man till exempel analyserar försäljning kan det vara användbart att identifiera enskilda marknadssegment (utvecklande, stabila, stora och små kunder, sannolikheten för nya kunder, etc.) och utvärdera försäljningsvolymer per produkter, territorier, kunder, marknadssegment, distribution kanaler och orderstorlekar. Dessa riktningar bildar koordinatnätet för den flerdimensionella representationen av försäljning - strukturen för dess dimensioner.

Eftersom verksamheten i ett företag fortsätter i tid, är den första frågan som uppstår i analysen frågan om dynamiken i affärsutveckling. Den korrekta organisationen av tidsaxeln kommer att ge ett kvalitativt svar på denna fråga. Vanligtvis är tidsaxeln uppdelad i år, kvartal och månader. Kanske ännu mer uppdelad i veckor och dagar. Strukturen för tidsdimensionen bildas med hänsyn till frekvensen av datamottagning; kan också bestämmas av hur ofta informationen begärs.

Dimensionen "varugrupp" är utformad för att så mycket som möjligt återspegla strukturen hos de sålda produkterna. Samtidigt är det viktigt att hålla en viss balans för att å ena sidan undvika överdriven detaljrikedom (antalet grupper ska synas) och å andra sidan inte missa ett betydande marknadssegment.

Dimensionen "Kunder" speglar försäljningsstrukturen per geografiskt område. Varje dimension kan ha sina egna hierarkier, i denna dimension kan det till exempel vara en struktur: Länder - Regioner - Städer - Kunder.

För att analysera avdelningarnas prestanda bör du skapa din egen dimension. Till exempel kan två nivåer av hierarki särskiljas: avdelningar och avdelningar som ingår i dem, vilket bör återspeglas i dimensionen "Underavdelningar".

Faktum är att dimensionerna "Tid", "Produkter", "Kunder" helt definierar utrymmet för ämnesområdet.

Dessutom är det användbart att dela upp detta utrymme i villkorade områden, med de beräknade egenskaperna som bas, till exempel transaktionsvolymintervall i termer av värde. Sedan kan hela verksamheten delas upp i ett antal kostnadsintervall där den bedrivs. I det här exemplet kan du begränsa dig till följande indikatorer: mängden försäljning av varor, antalet sålda varor, mängden inkomst, antalet transaktioner, antalet kunder, volymen av inköp från tillverkare.

OLAP - kuben för analys kommer att se ut (fig. 2):


Figur 2.OLAP– en kub för att analysera försäljningsvolym

Det är just en sådan tredimensionell array i termer av OLAP som kallas en kub. Faktum är att från strikt matematiksynpunkt kommer en sådan array inte alltid att vara en kub: för en riktig kub måste antalet element i alla dimensioner vara detsamma, medan OLAP-kuber inte har en sådan begränsning. En OLAP-kub behöver inte alls vara 3D. Det kan vara både tvådimensionellt och flerdimensionellt – beroende på vilket problem som ska lösas. Seriösa OLAP-produkter är designade för cirka 20 dimensioner. Enklare stationära applikationer stöder cirka 6 dimensioner.

Alla element i kuben ska inte fyllas i: om det inte finns någon information om försäljningen av produkt 2 till kund 3 under det tredje kvartalet, kommer värdet i motsvarande cell helt enkelt inte att fastställas.

Själva kuben är dock inte lämplig för analys. Om det fortfarande är möjligt att adekvat representera eller avbilda en tredimensionell kub, då från sex eller nitton dimensionell saker är mycket värre. Därför extraheras vanliga tvådimensionella tabeller från en flerdimensionell kub före användning. Denna operation kallas att "klippa" kuben. Analytikern, som det var, tar och "klipper" dimensionerna på kuben enligt de märken som är intressanta för honom. På så sätt får analytikern en tvådimensionell del av kuben (rapporten) och arbetar med den. Rapportens struktur visas i figur 3.

Figur 3Analytisk rapportstruktur

Låt oss skära vår OLAP - kub och få en försäljningsrapport för tredje kvartalet, det kommer att se ut så här (Fig. 4).

Figur 4Försäljningsrapport för tredje kvartalet

Du kan skära kuben längs den andra axeln och få en rapport om försäljningen av produktgrupp 2 under året (Fig. 5).

Bild 5Kvartalsrapport för produktförsäljning 2

På samma sätt kan du analysera relationen med klienten 4, skära kuben enligt etiketten Klienter(Fig. 6)

Bild 6Rapport om leverans av varor till kunden 4

Du kan detaljera rapporten per månad eller prata om leverans av varor till en specifik gren av kunden.

Efter att ha kontrollerat informationens fullständighet och tillförlitlighet utförs dess analytiska bearbetning. Det inkluderar definitionen av ett system av indikatorer, vars studie krävs för att uppnå målen för analysen. Dessa indikatorer finns antingen redan i den valda informationen eller beräknas i processen för dess analytiska bearbetning.

Systemet med indikatorer betyder en sådan ordnad uppsättning av dem, där varje indikator ger en kvalitativ och kvantitativ egenskap för en viss aspekt av en ekonomisk enhets verksamhet, är sammankopplad med andra indikatorer, men duplicerar dem inte och har egenskaperna av reducerbarhet och delbarhet.

Antalet indikatorer i processen för analytisk bearbetning av information kan öka nästan obegränsat genom deras differentiering eller integration, beroende på analysprogrammet, studiedjupet av resultaten av aktiviteter och faktorerna som påverkar dem.

Eftersom ekonomiska enheters verksamhet, deras strukturella uppdelningar, såväl som deras olika sammanslutningar i allmänhet är ganska stabila, har systemet av indikatorer med vilket det analyseras en viss stabilitet, men berikas gradvis med nya indikatorer när nya uppgifter uppstår, förändringar i den allmänna ekonomiska situationen, externa och interna verksamhetsförhållanden för ekonomiska enheter.

En nödvändig förutsättning för utvecklingen av ett system av analytiska indikatorer och dess korrekta tillämpning är grupperingen av dessa indikatorer enligt olika kriterier (se fig. 4.1).

Indelning av indikatorer i absolut och släktingär avgörande för att bestämma omfattningen och komplexiteten av analytisk bearbetning av information.

Informationen som samlas in från olika källor innehåller huvudsakligen absoluta indikatorer som kännetecknar aktivitetsvolymen för den analyserade ekonomiska enheten (till exempel volymen av försäljning av varor, mängden kostnader för produktion av varor eller tjänster, volymen av grossist eller detaljhandel handel, mängden avancerade




Ris. 4.1. Klassificering av analytiska indikatorer enligt olika

grupperingsegenskaper

kapital, beloppet av vinst eller förlust, antalet anställda, kostnaden för anläggningstillgångar, storleken på varulagret).

Relativa indikatorer, som är av största vikt för att bedöma resultatet av den analyserade organisationen som helhet eller dess interna strukturella uppdelningar, beräknas redan av olika matematiska operationer i processen för analytisk bearbetning av information. Sådan analytisk bearbetning kan delvis tillhandahållas av de relevanta bestämmelserna som uppgifterna för redovisningsavdelningen och andra interna strukturella avdelningar av en ekonomisk enhet (till exempel fastställande av kostnaden för enskilda produkter, vinstnivån i förhållande till kapitalet, beräkningen av ekonomiska standarder som en del av rapportering från affärsbanker).

Beräkningen av relativa indikatorer förbättrar jämförbarheten av data för olika kronologiska perioder, eftersom alla absoluta indikatorer som används för detta ändamål i matematiska formler är beräknade i en valuta som har samma köpkraft, d.v.s. inflationens inflytande elimineras. Dessutom bildas alla absoluta indikatorer relaterade till en given period under påverkan av samma interna och externa situation. Därför görs dynamiska och rumsliga jämförelser i analysen till övervägande del med relativa snarare än absoluta indikatorer.

För att förbättra jämförbarheten av data används de där det är möjligt, naturlig och omvandlas till naturliga med hjälp av särskilt fastställda koefficienter, de s.k villkorligt naturligt meter. För samma ändamål ges i vissa fall företräde till arbetskraft och elementkostnad meter, vilket gör det möjligt att vid behov eliminera inflytandet på absoluta indikatorer för förändringar i varukostnaden och i relativa indikatorer härledda från detta värde, skillnader i varukostnaden orsakad av fluktuationer i förhållandet mellan den överförda kostnaden för anläggningstillgångar, löner för levande arbete och vinst i priset på produkter. Det bör beaktas att även när en hård utländsk valuta används för kostnadsmätning av absoluta indikatorer, elimineras inte effekten av strukturella förändringar på bedömningen av volymen av en ekonomisk enhets verksamhet och dess kvalitativa egenskaper. Därför, i följande presentation, kommer frågorna och användningen av olika naturliga, villkorligt naturliga, arbets- och icke-fullkostnadsmätare att särskilt beaktas för att uppnå vissa mål med analysen.

Gruppering av analytiska indikatorer i kvantitativ och kvalitet ligger mycket nära deras indelning i absolut och relativ, men sammanfaller inte helt med den. Till exempel är det totala vinstbeloppet en kvantitativ indikator, men när det gäller dess ekonomiska innehåll hänvisar den till de kvalitativa egenskaperna hos objektets aktivitet, eftersom själva faktumet att göra en vinst och inte en förlust, även utan att härleda relativ lönsamhet indikatorer, verkar redan vara ett positivt resultat av aktiviteten.

En oerhört viktig roll i ekonomisk analys spelar uppdelningen av indikatorer enl generalisera och privat.

Sammanfattande indikatorer anses vara indikatorer med hjälp av vilka ges sammanfattande egenskaper den analyserade ekonomiska enhetens tillstånd, graden av användning av de resurser som står till dess förfogande och effektiviteten i förvaltningen, uttryckt i uppnåendet av de eftersträvade målen. De primära målen kan vara att få en högre vinst jämfört med refinansieringsräntan eller med annat alternativa sätt användning av det kapital som är tillgängligt för försökspersonen; uppnå en högre kvalitet på varor och tjänster än konkurrenter till samma eller lägre kostnadsnivå för deras produktion och cirkulation; på grundval av detta, erövringen av nya marknader och ökningen av företagets pris. Generaliserande indikatorer inkluderar också indikatorer som generellt kännetecknar en viss sida eller inriktning av företaget eller dess individuella strukturella divisioner, storleken på de resurser de använder och deras omsättning. Varje generaliserande indikator kan delas upp i ett antal särskilda indikatorer som spelar en underordnad roll i förhållande till den. Dessa privata indikatorer bidrar till identifiering och mätning av påverkan av individuella interna och externa faktorer som bestämmer storleken och dynamiken hos den generaliserande indikatorn. Med hjälp av privata indikatorer uppnås underordnandet av de lokala målen för enskilda enheter och aktiviteter för en ekonomisk enhet till de allmänna målen för dess funktion. Det allmänna målet för en ekonomisk enhets funktion är inte entydigt, det innebär att ett antal mål samtidigt och sammankopplade uppnås, och därför återspeglas graden av dess uppnående inte av en utan av ett helt system av generaliserande och särskilda indikatorer. .

För att hantera verksamheten för en ekonomisk enhet som helhet, dess individuella områden och handlingar för varje utförare, utvecklas först en modell för denna verksamhet. Det beskrivs av ett system med generaliserande och särskilda indikatorer som fastställs i affärsplanen, vars nivå och sammankoppling bör säkerställa att de planerade prestationsresultaten uppnås.

Systemet med planerade indikatorer är som regel sämre än systemet med redovisningsindikatorer, eftersom redovisningen återspeglar effekten av inte bara faktorer som kan förutses i förväg, utan också många oförutsägbara faktorer - objektiva och subjektiva, till exempel naturkatastrofer , oärlighet av artister, bedrägeri och stöld. Följaktligen återspeglar redovisningen inverkan på generalisering och särskilda indikatorer för hela mångfalden av verkligheten.

Systemet med analytiska indikatorer är till och med bredare än i plan och redovisning, eftersom det bör ge en återspegling av förvaltningens resultat och en bedömning av nivån på dess effektivitet inom alla planerade områden och många mål, och inte bara som helhet för relativt oberoende ekonomiska system som studeras (företag, affärsbank), men också för dess stora och små divisioner; identifiera enskilda enheters roll i slutresultat verksamhet och olika faktorers inverkan på den ekonomiska utvecklingen. Därför inkluderar systemet med analytiska indikatorer både generaliserande indikatorer (resultat) differentierade efter verksamhetsområden och privata (faktoriella) indikatorer.

Partiella indikatorer bildade genom nedbrytning av en generaliserande indikator eller aggregerade i en generaliserande indikator kallas också faktorindikatorer i analysen av ekonomisk aktivitet, eftersom deras användning gör det möjligt att avslöja och mäta inverkan av vissa ekonomiska faktorer på generaliserande indikatorer. Som du vet sker förändringar i det analyserade objektets tillstånd under inverkan av ekonomiska och sociala faktorer. Vanligtvis används termen "orsak" på en grupp faktorer, vars inverkan kan fastställas direkt från redovisnings- och rapporteringsdata. Med den ytterligare nedbrytningen av gruppen i dess komponenter kallas de erhållna partialfaktorindikatorerna också orsaker, om deras koppling till den analyserade indikatorn är funktionell och de kan beräknas genom att utföra olika matematiska operationer på rapporteringsindikatorerna.

I de fall då påverkan på den analyserade indikatorn för andra relaterade till den i en korrelation avslöjas och mäts, och styrkan av deras inflytande mäts med statistiska och matematiska metoder, kallas de särskilda indikatorer som erhållits för att detaljera analysen vanligtvis inte längre orsaker, men faktorer.

Därför är skillnaden mellan termerna "orsak" och "faktor" mycket villkorad. Den är huvudsakligen baserad på möjligheterna att direkt eller indirekt mäta deras inflytande, med hänsyn tagen till vilken typ av samband med den analyserade generaliserande indikatorn.

Exempelvis kan avvikelser från produktionsvolymplanen orsakas av en diskrepans mellan planen för antalet och sammansättningen av personal och samtidigt den genomsnittliga produktionen per arbetare för den analyserade perioden. Värdena för ovanstående aggregerade grupper av faktorer och deras avvikelser från planen återspeglas direkt i rapporteringen och kallas i analysen skäl till avvikelser. Var och en av dessa orsaker kan dock betraktas som en funktion av många variabler. Så förändringen av antalet anställda är detaljerad per personalkategori, produktionen per anställd presenteras som produkten av produktionen per arbetare och andelen arbetare av det totala antalet anställda. Dessa analytiska indikatorer kan beräknas genom att direkt använda rapporteringsdata och därför kallas de också för mer differentierade skäl för att ändra den sammanfattande indikatorn.

Låt oss anta att analysen fördjupas ytterligare för att ta reda på påverkan på förändringen av den generaliserande indikatorn - produktionsvolymen av faktorer som i sin tur påverkar uppfyllandet av planen för produktion per arbetare, vars förhållande med denna indikator kan inte fastställas direkt. Till exempel är uppgiften att bestämma inverkan på den genomsnittliga produktionsnivån för den arbetande organisatoriska och tekniska produktionsnivån (graden av mekanisering och automatisering av de viktigaste tekniska processer och hjälparbete, införande av metoder för vetenskaplig organisation av arbetet, externt samarbete, etc.) och personliga faktorer (allmän och specialutbildning, arbetslivserfarenhet, kön, ålder).

Enligt de generaliserade uppgifterna för redovisning och statistisk redovisning är det omöjligt att mäta påverkan av de listade faktorerna på produktionen och genom den på produktionsvolymen eller på dess tillväxttakt. För detta ändamål samlas primära redovisnings- och dokumentationsdata in och bearbetas med särskilda ekonomiska och matematiska metoder (främst korrelation). tekniska tjänster, avdelningar för personal, arbete och löner, samt speciellt insamlad extra redovisningsinformation (enkätundersökning, fotografier och självfotografier av arbetsdagen, protokoll från produktionsmöten, etc.). Med sådan ytterligare detaljering av orsakerna kallas deras egenskaper redan faktorer.

Mätning av individuella faktorers inflytande på dynamiken i ekonomisk utveckling, resultaten av genomförandet av planen och effektiviteten i förvaltningen hjälper till att fastställa deras relativa betydelse i företagets arbete, fokusera på de viktigaste och avgörande och öka analysens effektivitet för att identifiera reserver.

Enheten i systemet med indikatorer och metoden för deras beräkning bör säkerställas för företag med samma profil. Försök att tillämpa samma uppskattade indikatorer i ekonomiska enheter i olika sektorer av den nationella ekonomin förverkligades inte, eftersom det inte är identiteten på de använda indikatorerna som krävs, utan deras överensstämmelse med den grundläggande strategin för att bedöma resultaten som uppnåtts av de analyserade ur synvinkeln av målen för dess verksamhet, lokala och globala kriterier för deras uppnående.

Företaget lyckas inte alltid uppnå alla sina mål och lösa alla de uppgifter som tilldelats det. Dessutom, tillsammans med genomförandet av planen för vissa indikatorer, kan ett negativt resultat för andra erhållas. I detta avseende, när man bestämmer betyget för en ekonomisk enhet, dess strukturella uppdelningar, är det tillrådligt att beräkna en villkorad integrerad indikator, vars nivå skulle återspegla både graden av uppfyllelse av planerade mål för var och en av indikatorerna och deras relativa värde.

Den integrerade indikatorn, härledd på grundval av ett antal andra mycket olika i deras ekonomiska innehåll och praktiska syfte, kännetecknar inte de specifika resultaten av arbetet med det analyserade ämnet och graden av uppnående av de många mål som ställts upp för honom. Denna indikator kan användas för att bestämma betyget. I alla andra fall motsvarar dess användning inte mångsidigheten hos ekonomiska enheters funktion.

För att bedöma genomförandet av planen och dessutom nivån på ekonomisk effektivitet är det nödvändigt att ta hänsyn till alla indikatorer som ingår i systemet, eftersom överuppfyllelse av planen för en av dem inte befriar den analyserade ekonomiska kopplingen från skyldighet att säkerställa uppnåendet av den planerade nivån för andra indikatorer. En ovan planerad förbättring av en av indikatorerna kompenserar vanligtvis inte för den skada som orsakas av en eftersläpning i en annan indikator, vilket återspeglar misslyckandet med att uppfylla, kanske, en ännu viktigare uppgift som tilldelats denna ekonomiska enhet. Till exempel utesluter inte ett betydande överskott av den planerade produktionsnivån av varor (arbeten, tjänster) behovet av att säkerställa en given kostnadsnivå per produktionsenhet; överuppfyllelse av planen i fråga om produktionsvolym och vinst kan inte kompensera för underlåtenhet att uppfylla planen för idrifttagande av reningsanläggningar och andra miljöskyddsåtgärder.

Det mest acceptabla sättet att konstruera en integrerad indikator är att lösa det matematiska problemet med att beräkna avstånden mellan punkter som kännetecknar värdena för samma indikatorer på de jämförda ekonomiska enheterna och på det villkorade bästa företaget för alla dessa indikatorer, dvs. kallas utvecklingsstandard, och på detta sätt bestämma indikatorn för "utvecklingsnivån" var och en av dem. Dess fördel gentemot andra metoder för att beräkna den integrala indikatorn är objektiviteten hos uppskattningar, eftersom den är baserad på matematiska beräkningar.

Andra sätt att aggregera indikatorer är inte tillräckligt objektiva. Till exempel, vid beräkning av en integral indikator, kan betydelsen av en eller annan indikator i deras allmänna system också bestämmas med hjälp av en poängsättning. Så om på grund av bristen på använda sällsynta metaller är deras mest ekonomiska användning särskilt viktig, tilldelas den högsta poängen till indikatorn för att minska materialintensiteten i produktionen för dessa metaller. Om det först och främst är nödvändigt att säkerställa ytterligare utvidgning av sortimentet, genom att tilldela en högre poäng till denna indikator, presenteras den i första hand i ett antal utvärderingsindikatorer. Trots det faktum att bedömningen av produktionseffektiviteten i enskilda sektorer av den nationella ekonomin och deras företag baseras på samma system av indikatorer, kan var och en av dem tilldelas olika poäng även i samma bransch eller företag under olika perioder av tid. Poängsättningen för varje indikator bör återspegla dess betydelse för att uppnå målen för de analyserade ekonomiska enheternas funktion. Samtidigt, som alla subjektiva bedömningar, kan dessa punkter sättas godtyckligt.

För den period som omfattas finns det indikatorer som fastställer tillståndet för den analyserade ekonomiska enheten och resultaten av dess verksamhet, eller de anställdas handlingar i ett visst område med ett visst antal, dvs. i statisk, eller för den analyserade perioden, dvs. i dynamik. Till exempel återspeglar balansräkningen det finansiella tillståndet, fördelningen av egendom, källorna till dess bildande vid sammanställningsdatumet, och kassaflödesanalysen täcker deras saldon, intäkter och avyttringar, d.v.s. deras dynamik under hela den analyserade perioden.

I förhållande till den analyserade ekonomiska enhetens verksamhet och möjligheterna att påverka dess resultat, visar indikatorer som speglar objektivt oberoende skäl och subjektiv beroende på det.

I analysprocessen är det mycket viktigt att eliminera påverkan av faktorer av en objektiv ordning, som inte kan tillskrivas användbara resultat eller omvänt till bristerna i den ekonomiska enhetens verksamhet.

Tillsammans med valet av ett system av indikatorer för analys enligt det planerade programmet stor betydelse har en generalisering av information i analytiska tabeller och figurer. Analytiska tabeller används för att jämföra analytiskt bearbetade data efter kronologiska perioder och på grundval av detta bestämma dynamiken hos de studerade indikatorerna, jämföra deras uppnådda eller förutspådda värden med basdata, som kan vara motsvarande indikatorer för planen för tidigare och förutspådda framtida perioder, obligatoriska normer, indikatorer för andra ekonomiska enheter, branschgenomsnitt eller något annat valt av analytikern baserat på syftet med studien.

För sådana jämförelser används vanligtvis horisontella rader i en analytisk tabell, där namnen på jämförda data och deras absoluta och relativa värden anges. Sådana jämförelser över tabellrader kallas horisontell analys.

Enligt kolumnerna i den analytiska tabellen jämförs de generaliserande indikatorerna med deras komponenter - särskilda indikatorer - för att identifiera relativa värde dessa privata indikatorer i bildandet av generaliserande sådana, i synnerhet strukturen för generaliserande indikatorer bestäms. Detta sätt att reflektera analytiskt bearbetad information kallas vertikal eller strukturell analys.

Den analytiska tabellen har text (vänster) och numeriska (höger) delar. För datorbehandling av information kan textdelen av tabellen krypteras med hjälp av alfabetiska eller numeriska beteckningar. Siffrorna placeras i tabellens kolumner på separata linjer som korsar dem.

Den vänstra sidan av tabellen, där namnen på dess rader är placerade, kallas "ämnet", och den högra, bestående av kolumner, ovanför vilka deras namn också anges, kallas "predikatet".

Generalisering insamlad information i sammanlänkade, kompletterande eller detaljerade analytiska tabeller möjliggör varandra den så kallade textlösa analysen; noggrant analytiskt bearbetad information som placeras i tabellerna gör det möjligt att dra de nödvändiga slutsatserna och ta fram sunda förvaltningsbeslut. I dessa fall finns det inget behov av att presentera resultatet av analysen i form av en text, eller samma text presenteras extremt kortfattat.

Förberedelse av en uppsättning analytiska tabeller, som med tillräcklig objektivitet och fullständighet skulle återspegla alla frågor i analysprogrammet och dess resultat, kräver hög professionalism från utvecklarna av layouterna för dessa tabeller och instruktioner för att fylla i dem.

Därför används i praktiken standardmetoder för detta ändamål och endast ändringar görs i de tabeller som rekommenderas i dem som härrör från de individuella egenskaperna hos den analyserade ekonomiska enheten eller den situation som har utvecklats på den.

Genom att använda analytiska tabeller och särskilt göra ändringar i dem är det nödvändigt att följa de allmänna reglerna för deras design:

1) ovanför tabellen bör dess namn och serienummer placeras;

2) om samma måttenheter används i alla rader och kolumner i tabellen, är det inom parentes under tabellens namn i högra hörnet nödvändigt att placera standardbeteckningen för måttenheten, till exempel (tusen rubel) eller ($). Om olika måttenheter används i tabellens rader, placeras deras beteckningar i radrubrikerna, åtskilda av ett kommatecken efter dess namn. Om olika måttenheter används i kolumnerna, bör de också anges i kolumnrubrikerna;

3) tabellens kolumner numreras sekventiellt, med början från den första, där radnumren anges. I de fall då indikatorerna för olika kolumner beräknas på basis av värdena som visas i de föregående kolumnerna, förutom namnet och serienumret för denna kolumn, bör en beräkningsalgoritm ges som anger numren på kolumnerna som innehåller initiala data, såväl som de matematiska åtgärder som bör utföras med dem för att erhålla de värden som anges i denna kolumn, till exempel: [(kolumn 4 - kolumn 3) ∙ 100: 3];

4) rubriker i "predikatet" är enkla i de fall där dess kolumner inte har ett gemensamt innehåll, eller komplexa - när innehållet som är gemensamt för flera kolumner är detaljerat i var och en av dem. Då indikeras rubriken i form av flera nivåer, till exempel:

För att öka synligheten för materialen i analysen används den ofta grafiska metoder. Till exempel, tabeller som registrerar dynamiken hos indikatorer åtföljs av figurer där denna dynamik presenteras i form av kurvor eller staplar. Strukturen av generaliserande indikatorer i kolumnerna i analytiska tabeller illustreras i form av cirkeldiagram. Andra former av diagram används också.