Hastighet i big data-egenskaper. Big Data - vad är big data-system? Utveckling av Big Data-teknik. Big Data om lag och ordning

Den ständiga accelerationen av datatillväxt är en integrerad del av dagens verklighet. Sociala nätverk, Mobil enheter, data från mätenheter, affärsinformation – det här är bara några typer av källor som kan generera enorma mängder data.

För närvarande har begreppet Big Data (Big data) blivit ganska vanligt. Långt ifrån alla är fortfarande medvetna om hur snabbt och djupgående teknologier för att bearbeta stora mängder data förändrar de mest skilda aspekterna av samhället. Förändringar sker inom olika områden, vilket ger upphov till nya problem och utmaningar, bland annat inom området informationssäkerhet, där så viktiga aspekter som sekretess, integritet, tillgänglighet etc. bör stå i förgrunden.

Tyvärr tar många moderna företag till Big Data-teknik utan att skapa den rätta infrastrukturen för detta, vilket skulle kunna tillhandahålla säker förvaring enorma mängder data som de samlar in och lagrar. Å andra sidan utvecklas blockchain-tekniken för närvarande snabbt, som är utformad för att lösa detta och många andra problem.

Vad är Big Data?

I själva verket ligger definitionen av termen på ytan: "big data" betyder hantering av mycket stora mängder data, såväl som deras analys. Om man tittar bredare så är detta information som inte kan bearbetas med klassiska metoder på grund av dess stora volymer.

Själva begreppet Big Data (big data) dök upp relativt nyligen. Enligt tjänsten Google Trends faller den aktiva ökningen av termens popularitet i slutet av 2011:

2010 började de första produkterna och lösningarna som är direkt relaterade till bearbetning av big data dyka upp. År 2011 använder de flesta av de största IT-företagen, inklusive IBM, Oracle, Microsoft och Hewlett-Packard, aktivt termen Big Data i sina affärsstrategier. Gradvis marknadsanalytiker informationsteknik påbörja aktiv forskning om detta koncept.

För närvarande har denna term vunnit stor popularitet och används aktivt inom en mängd olika områden. Det kan dock inte sägas med säkerhet att Big Data är något slags fundamentalt nytt fenomen – tvärtom har stora datakällor funnits i många år. Inom marknadsföring kan de vara databaser över kundköp, kredithistorik, livsstilar etc. Genom åren har analytiker använt denna data för att hjälpa företag att förutsäga framtida kundbehov, bedöma risker, forma konsumenternas preferenser med mera.

För närvarande har situationen förändrats i två aspekter:

— Mer sofistikerade verktyg och metoder har dykt upp för att analysera och jämföra olika datamängder.
— Analysverktyg har kompletterats med många nya datakällor, drivna av en utbredd digitalisering, samt nya metoder för att samla in och mäta data.

Forskare förutspår att Big Data-teknik kommer att användas mest aktivt inom tillverkning, sjukvård, handel, offentlig förvaltning och inom andra mycket olika områden och industrier.

Big Data är inte en specifik samling av data, utan en uppsättning metoder för att bearbeta dem. Det avgörande kännetecknet för big data är inte bara deras volym, utan även andra kategorier som kännetecknar de arbetsintensiva processerna för databearbetning och analys.

De initiala uppgifterna för bearbetning kan till exempel vara:

— Loggar för Internetanvändares beteende;
— Sakernas internet;
- sociala media;
— Meteorologiska data.
— Digitaliserade böcker från de största biblioteken.
- GPS-signaler från Fordon;
— Information om bankkunders transaktioner.
- abonnentens platsdata mobila nätverk;
— information om inköp i stora detaljhandelskedjor m.m.

Med tiden växer mängden data och antalet deras källor ständigt, och mot denna bakgrund dyker nya metoder för informationsbehandling upp och befintliga metoder för informationsbehandling förbättras.

Grundläggande principer för Big Data:

- Horisontell skalbarhet - datamatriser kan vara enorma och detta innebär att big data-behandlingssystemet dynamiskt måste expandera när deras volymer ökar.
- Feltolerans - även om vissa delar av utrustningen går sönder måste hela systemet förbli i drift.
— Datalokal. I stora distribuerade system distribueras data vanligtvis över ett betydande antal maskiner. Men när det är möjligt och för att spara resurser, behandlas data ofta på samma server som den lagras.

För att alla tre principerna ska fungera stabilt och följaktligen den höga effektiviteten i att lagra och bearbeta big data, behövs nya banbrytande teknologier, som till exempel blockchain.

Vad är big data till för?

Omfattningen av Big Data utökas ständigt:

— Big data kan användas inom medicin. Så det är möjligt att fastställa en diagnos för en patient, inte bara baserat på data från analysen av medicinsk historia, utan också med hänsyn till andra läkares erfarenheter, information om den ekologiska situationen i patientens bostadsområde och många andra faktorer.
— Big Data-teknik kan användas för att organisera förflyttning av obemannade fordon.
— Genom att bearbeta stora datamängder är det möjligt att känna igen ansikten i foto- och videomaterial.
- Big Data-tekniker kan användas av återförsäljare - handelsföretag kan aktivt använda datamatriser från sociala nätverk för effektiv anpassning sina annonskampanjer, som maximalt kan fokuseras på ett eller annat konsumentsegment.
Denna teknik används aktivt i organiseringen av valkampanjer, bland annat för analys av politiska preferenser i samhället.
— Användningen av Big Data-teknik är relevant för lösningar för inkomstförsäkring (RA), som inkluderar verktyg för att upptäcka inkonsekvenser och djupgående dataanalyser som möjliggör snabb identifiering av sannolika förluster eller förvrängningar av information som kan leda till minskade ekonomiska resultat .
— Telekommunikationsleverantörer kan aggregera big data, inklusive geolokaliseringsdata. i sin tur kan denna information vara av kommersiellt intresse för reklambyråer, som kan använda den för att visa riktad och lokal reklam, såväl som för återförsäljare och banker.
"Big data kan spela en viktig roll för att bestämma om man ska öppna en butik på en viss plats baserat på data om närvaron av ett kraftfullt riktat flöde av människor.

Den mest uppenbara praktiska tillämpningen av Big Data-teknik ligger alltså inom marknadsföringsområdet. Tack vare utvecklingen av Internet och spridningen av alla typer av kommunikationsenheter blir beteendedata (som antalet samtal, shoppingvanor och köp) tillgänglig i realtid.

Big data-teknik kan också effektivt användas inom finans, sociologisk forskning och många andra områden. Experter hävdar att alla dessa möjligheter att använda big data bara är den synliga delen av isberget, eftersom dessa tekniker används i mycket större volymer inom underrättelse- och kontraspionage, i militära angelägenheter, såväl som i allt som vanligtvis kallas informationskrig.

Generellt sett består sekvensen av att arbeta med Big Data av att samla in data, strukturera den mottagna informationen med hjälp av rapporter och dashboards och sedan formulera rekommendationer för åtgärder.

Låt oss kort överväga möjligheterna att använda Big Data-tekniker i marknadsföring. Som du vet, för en marknadsförare är information det främsta verktyget för att prognostisera och lägga strategier. Big data-analys har länge använts framgångsrikt för att fastställa målgrupp konsumenternas intressen, efterfrågan och aktivitet. Speciellt stordataanalys gör det möjligt att visa reklam (baserad på RTB-auktionsmodellen - Real Time Bidding) endast för de konsumenter som är intresserade av en produkt eller tjänst.

Användningen av Big Data i marknadsföring gör det möjligt för affärsmän att:

- bättre känna igen dina konsumenter, locka en liknande publik på Internet;
- utvärdera graden av kundnöjdhet;
— För att förstå om den föreslagna tjänsten uppfyller förväntningarna och behoven.
- hitta och implementera nya sätt att öka kundernas förtroende;
— skapa projekt som efterfrågas osv.

Till exempel kan Google.trends-tjänsten ge en marknadsförare en prognos över säsongsbetonad efterfrågeaktivitet för en viss produkt, fluktuationer och geografi för klick. Om du jämför denna information med statistiken som samlas in av motsvarande plugin på din egen webbplats, kan du göra en plan för fördelningen av reklambudgeten, som anger månad, region och andra parametrar.

Enligt många forskare är det i segmenteringen och användningen av Big Data som framgången för Trumpkampanjen ligger. Teamet för den framtida amerikanska presidenten kunde korrekt dela upp publiken, förstå dess önskningar och visa exakt det budskap som väljarna vill se och höra. Så, enligt Irina Belysheva från Data-Centric Alliance, berodde Trumps seger till stor del på ett icke-standardiserat förhållningssätt till internetmarknadsföring, som baserades på Big Data, psykologisk beteendeanalys och personlig reklam.

Trumps politiska teknologer och marknadsförare använde en specialdesignad matematisk modell, vilket gjorde det möjligt att djupgående analysera data från alla amerikanska väljare och systematisera dem, vilket gjorde ultraprecis inriktning inte bara utifrån geografiska särdrag, utan också utifrån avsikter, väljarnas intressen, deras psykotyp, beteendeegenskaper etc. Efter det, marknadsförare organiserade personlig kommunikation med var och en av gruppens medborgare baserat på deras behov, humör, politiska åsikter, psykologiska egenskaper och även hudfärg, med hjälp av deras eget budskap för nästan varje enskild väljare.

När det gäller Hillary Clinton använde hon "tidstestade" metoder baserade på sociologiska data och standardmarknadsföring i sin kampanj, och delade bara in väljarna i formellt homogena grupper (män, kvinnor, afroamerikaner, latinamerikaner, fattiga, rika, etc.).

Som ett resultat var vinnaren den som uppskattade potentialen hos nya tekniker och analysmetoder. Noterbart var Hillary Clintons kampanjutgifter dubbelt så mycket som hennes motståndare:

Data: Pew Research

De största problemen med att använda Big Data

Utöver den höga kostnaden är en av huvudfaktorerna som hindrar införandet av Big Data inom olika områden problemet med att välja vilken data som ska behandlas: det vill säga att bestämma vilken data som behöver extraheras, lagras och analyseras, och vilka bör inte beaktas.

Ett annat problem med Big Data är etiskt. Det finns med andra ord berättigad fråga: kan sådan datainsamling (särskilt utan användarens vetskap) betraktas som en kränkning av integritetsgränserna?

Det är ingen hemlighet att informationen lagras i sökmotorer Googles system och Yandex, gör det möjligt för IT-jättar att ständigt förbättra sina tjänster, göra dem användarvänliga och skapa nya interaktiva applikationer. För att göra detta samlar sökmotorer in användardata om användaraktivitet på Internet, IP-adresser, geolokaliseringsdata, intressen och onlineköp, personuppgifter, e-postmeddelanden, etc. Allt detta gör det möjligt att visa kontextuell reklam i enlighet med användarbeteende på Internet. Samtidigt efterfrågas vanligtvis inte användarnas samtycke för detta, och valet av vilken information om sig själva som ska lämnas ges inte. Det vill säga som standard samlas allt i Big Data som sedan kommer att lagras på sajternas dataservrar.

Av detta följer följande viktigt problem om säkerheten för lagring och användning av data. Till exempel är en viss analysplattform som konsumenter i automatiskt lägeöverföra deras data? Dessutom noterar många företagsrepresentanter en brist på högt kvalificerade analytiker och marknadsförare som effektivt kan hantera stora mängder data och lösa specifika affärsproblem med deras hjälp.

Trots alla svårigheter med implementeringen av Big Data avser verksamheten att öka investeringarna inom detta område. Enligt en Gartner-studie är ledarna för branscher som investerar i Big Data media, detaljhandel, telekom, bank och tjänsteföretag.

Utsikter för interaktion mellan blockchain-teknologier och Big Data

Integration med Big Data har en synergistisk effekt och öppnar ett brett utbud av nya möjligheter för företag, inklusive att tillåta:

— få tillgång till detaljerad information om konsumentpreferenser, på grundval av vilken du kan bygga detaljerad analytiska profiler för specifika leverantörer, varor och produktkomponenter;
- Integrera detaljerade uppgifter om transaktioner och statistik om konsumtion av vissa varugrupper av olika kategorier av användare;
- få detaljerade analytiska data om leverans- och konsumtionskedjor, kontrollera produktförluster under transport (till exempel viktminskning på grund av krympning och avdunstning av vissa typer av varor);
– motverka förfalskade produkter, öka effektiviteten i kampen mot penningtvätt och bedrägerier m.m.

Tillgång till detaljerad data om användning och konsumtion av varor kommer till stor del att frigöra potentialen hos Big Data-teknik för att optimera viktiga affärsprocesser, minska regulatoriska risker och öppna upp nya möjligheter för intäktsgenerering och skapa produkter som bäst möter nuvarande konsumentpreferenser.

Som ni vet visar representanter för de största finansinstituten redan ett betydande intresse för blockkedjeteknik, inklusive etc. Enligt Oliver Bussmann, IT-chef för det schweiziska finansbolaget UBS, kan blockkedjeteknik "minska transaktionsbehandlingstiden från flera dagar till flera minuter”.

Potentialen för analys från blockkedjan med hjälp av Big Data-teknik är enorm. Distribuerad registerteknik säkerställer informationens integritet, samt tillförlitlig och transparent lagring av hela transaktionshistoriken. Big Data tillhandahåller i sin tur nya verktyg för effektiv analys, prognoser, ekonomisk modellering och öppnar följaktligen upp nya möjligheter för att fatta mer välgrundade förvaltningsbeslut.

Den tandem av blockchain och Big Data kan framgångsrikt användas inom vården. Som ni vet ökar ofullständiga och ofullständiga uppgifter om patientens hälsa ibland risken för att ställa en felaktig diagnos och felaktigt ordinerad behandling. Kritiska uppgifter om hälsan hos klienter vid medicinska institutioner bör vara så säkra som möjligt, ha egenskaperna av oföränderlighet, kunna verifieras och inte vara föremål för någon manipulation.

Informationen i blockkedjan uppfyller alla ovanstående krav och kan fungera som högkvalitativ och tillförlitlig källdata för djupgående analys med hjälp av nya Big Data-teknologier. Dessutom kan medicinska institutioner med hjälp av blockkedjan utbyta tillförlitlig data med försäkringsbolag, rättsliga myndigheter, arbetsgivare, vetenskapliga institutioner och andra organisationer i behov av medicinsk information.

Big Data och informationssäkerhet

I en vid mening är informationssäkerhet skydd av information och stödjande infrastruktur från oavsiktliga eller avsiktliga negativa effekter av naturlig eller artificiell karaktär.

Inom området informationssäkerhet står Big Data inför följande utmaningar:

— Problem med dataskydd och att säkerställa deras integritet.
— Risken för yttre störningar och läckage av konfidentiell information.
— felaktig lagring av konfidentiell information.
- risken för informationsförlust, till exempel på grund av någons illvilliga handlingar;
— risken för missbruk av personuppgifter från tredje part osv.

Ett av de största problemen med big data som blockkedjan är designad för att lösa ligger inom området informationssäkerhet. Genom att säkerställa överensstämmelse med alla dess grundläggande principer kan distribuerad reskontrateknologi garantera datas integritet och tillförlitlighet, och på grund av frånvaron av en enda felpunkt gör blockchain arbetet stabilt. informationssystem. Distribuerad registerteknik kan hjälpa till att lösa problemet med dataförtroende, samt ge möjlighet till universellt utbyte dem.

Information är en värdefull tillgång, vilket innebär att huvudaspekterna av informationssäkerhet bör ligga i framkant. För att överleva i konkurrensen måste företag hänga med i tiden, vilket gör att de inte kan bortse från de potentiella möjligheter och fördelar som blockkedjeteknik och Big Data-verktyg innehåller.

I den rysktalande miljön används det som en term stora data och begreppet "big data". Termen "big data" är en spårning av en engelsk term. Big data har ingen strikt definition. Det är omöjligt att dra en tydlig gräns - är det 10 terabyte eller 10 megabyte? Namnet i sig är väldigt subjektivt. Ordet "stor" är som "en, två, många" bland primitiva stammar.

Det finns dock en etablerad uppfattning att big data är en uppsättning tekniker som är designade för att utföra tre operationer. För det första att bearbeta större mängder data jämfört med "standardscenarier". För det andra att kunna arbeta med snabba inkommande data i mycket stora volymer. Det vill säga, det finns inte bara mycket data, utan det blir hela tiden fler och fler av dem. För det tredje måste de kunna arbeta med strukturerad och dåligt strukturerad data parallellt i olika aspekter. Big data förutsätter att algoritmer tar emot en ström av information som inte alltid är strukturerad och att mer än en idé kan extraheras från den.

Ett typiskt exempel på big data är information som kommer från olika fysiska experimentanläggningar – till exempel från , som producerar en enorm mängd data och gör det hela tiden. Installationen producerar kontinuerligt stora mängder data, och forskarna använder dem för att lösa många problem parallellt.

Uppkomsten av big data i det offentliga rummet berodde på att dessa data påverkade nästan alla människor, och inte bara det vetenskapliga samfundet, där sådana problem har lösts under lång tid. In i teknikens offentliga område stora data kom ut när det började prata om ett mycket specifikt antal - antalet invånare på planeten. 7 miljarder insamling i sociala nätverk och andra projekt som samlar människor. Youtube, Facebook, I kontakt med, där antalet människor mäts i miljarder, och antalet operationer som de utför samtidigt är enormt. Dataflödet i det här fallet är användaråtgärder. Till exempel data från samma värd Youtube, som flyter över nätet i båda riktningarna. Bearbetning innebär inte bara tolkning, utan också förmågan att korrekt bearbeta var och en av dessa åtgärder, det vill säga placera den på rätt plats och göra denna information tillgänglig för varje användare snabbt, eftersom sociala nätverk inte tolererar att vänta.

Mycket av det som rör big data, de metoder som används för att analysera det, har faktiskt funnits länge. Till exempel bearbetning av bilder från övervakningskameror, när vi inte talar om en bild, utan om en dataström. Eller navigationsrobotar. Allt detta har funnits i decennier, just nu har uppgifterna för databehandling påverkat ett mycket större antal människor och idéer.

Många utvecklare är vana vid att arbeta med statiska objekt och tänka i termer av tillstånd. Inom big data är paradigmet annorlunda. Du måste kunna arbeta med en oupphörlig ström av data, och det här är en intressant uppgift. Det påverkar allt fler områden.

I våra liv börjar mer och mer hårdvara och mjukvara generera en stor mängd data - till exempel "Internet of Things".

Saker och ting skapar redan enorma informationsflöden. Potok-polissystemet skickar information från alla kameror och låter dig hitta bilar med hjälp av denna data. Fler och fler träningsarmband, GPS-spårare och andra saker som tjänar en persons och företags uppgifter kommer på modet.

Moscow Department of Informatization rekryterar ett stort antal dataanalytiker, eftersom det finns mycket statistik om människor och det är multikriterier (det vill säga statistik samlas in om varje person, om varje grupp av människor enligt en mycket stor antal kriterier). Det är nödvändigt att hitta regelbundenheter och tendenser i dessa uppgifter. För sådana uppgifter behövs matematiker med IT-utbildning. För i slutändan lagras data i strukturerat DBMS, och du behöver kunna komma åt det och få information.

Tidigare ansåg vi inte big data som en uppgift av den enkla anledningen att det inte fanns någon plats att lagra den och det fanns inga nätverk för att överföra den. När dessa möjligheter dök upp fyllde uppgifterna omedelbart hela volymen som de fick. Men hur man än expanderar genomströmning och möjligheten att lagra data kommer det alltid att finnas källor, t.ex. fysiska experiment, aerodynamiska modelleringsexperiment som kommer att producera mer information än vi kan förmedla. Enligt Moores lag, utförandet av modern parallell datorsystemökar stadigt och hastigheten på dataöverföringsnäten ökar också. Data måste dock snabbt kunna sparas och hämtas från media ( hårddisk och andra typer av minne), och detta är en annan utmaning inom big data-behandling.

Big data är en bred term för de innovativa strategier och teknologier som krävs för att samla in, organisera och bearbeta information från stora datamängder. Även om problemet med att hantera data som överstiger beräkningskraften eller lagringskapaciteten för en enskild dator inte är nytt, har omfattningen och värdet av denna typ av beräkningar expanderat avsevärt de senaste åren.

I den här artikeln hittar du huvudkoncepten som du kan stöta på när du utforskar big data. Den diskuterar också några av de processer och tekniker som för närvarande används inom detta område.

Vad är big data?

En exakt definition av "big data" är svår att definiera eftersom projekt, leverantörer, praktiker och affärsmän använder den på väldigt olika sätt. Med detta i åtanke kan big data definieras som:

  • Stora datamängder.
  • En kategori av beräkningsstrategier och tekniker som används för att bearbeta stora datamängder.

I detta sammanhang avser "stor datamängd" en datamängd som är för stor för att kunna bearbetas eller lagras med traditionella verktyg eller på en enda dator. Detta innebär att den övergripande omfattningen av stora datamängder ständigt förändras och kan variera avsevärt från fall till fall.

Big data system

De grundläggande kraven för att arbeta med big data är desamma som för alla andra dataset. Den enorma skalan, bearbetningshastigheten och dataegenskaperna som påträffas vid varje steg i processen innebär dock nya allvarliga utmaningar i verktygsutvecklingen. Målet med de flesta big data-system är att förstå och kommunicera med stora mängder heterogen data på ett sätt som inte skulle vara möjligt med konventionella metoder.

2001 introducerade Gartners Doug Laney "three Vs of big data" för att beskriva några av de egenskaper som gör att big data-behandling skiljer sig från andra typer av databehandling:

  1. Volym (datavolym).
  2. Hastighet (hastighet för dataackumulering och bearbetning).
  3. Variety (mängd typer av bearbetade data).

Datavolym

Den exceptionella omfattningen av den information som bearbetas hjälper till att definiera big data-system. Dessa datauppsättningar kan vara storleksordningar större än traditionella datauppsättningar, och kräver mer uppmärksamhet i varje steg av bearbetning och lagring.

Eftersom kraven överstiger kapaciteten hos en enskild dator, uppstår ofta problemet med att slå samman, distribuera och koordinera resurser från grupper av datorer. Klusterhantering och algoritmer som kan dela upp uppgifter i mindre delar blir allt viktigare inom detta område.

Ackumulerings- och bearbetningshastighet

Den andra egenskapen som väsentligt skiljer big data från andra datasystem är hastigheten med vilken information rör sig genom systemet. Data kommer ofta in i systemet från flera källor och måste bearbetas i realtid för att uppdateras Nuvarande tillstånd system.

Denna betoning på omedelbar feedback har fått många utövare att överge det batchorienterade tillvägagångssättet till förmån för ett realtidsströmningssystem. Data läggs ständigt till, bearbetas och analyseras för att hänga med i inflödet av ny information och få värdefull data i ett tidigt skede när det är som mest relevant. Detta kräver robusta system med högt tillgängliga komponenter för att skydda mot fel längs datapipelinen.

Olika typer av bearbetade data

Big data har många unika utmaningar relaterade till det breda utbudet av bearbetade källor och deras relativa kvalitet.

Data kan komma från interna system som applikations- och serverloggar, sociala medier och andra externa API:er, sensorer för fysiska enheter och andra källor. Målet med big data-system är att behandla potentiellt användbar data, oavsett ursprung, genom att kombinera all information till ett enda system.

Medieformat och -typer kan också variera avsevärt. Mediafiler (bilder, video och ljud) slås samman med textfiler, strukturerade loggar, etc. Mer traditionella databehandlingssystem förväntar sig att data kommer in i pipelinen redan taggade, formaterade och organiserade, men big data-system accepterar och lagrar vanligtvis data i ett försök att bevara dess ursprungliga tillstånd. I idealfallet kommer alla transformationer eller modifieringar av rådata att ske i minnet under bearbetning.

Andra egenskaper

Med tiden har individer och organisationer föreslagit att utöka de ursprungliga "tre Vs", även om dessa innovationer tenderar att beskriva problem snarare än egenskaper hos big data.

  • Sannhet: Mångfalden av källor och komplexiteten i bearbetningen kan leda till problem med att bedöma kvaliteten på data (och därmed kvaliteten på den resulterande analysen).
  • Variabilitet (datavariabilitet): förändring av data leder till omfattande kvalitetsförändringar. Att identifiera, bearbeta eller filtrera data av låg kvalitet kan kräva ytterligare resurser för att förbättra kvaliteten på data.
  • Värde: Slutmålet med big data är värde. Ibland är system och processer mycket komplexa, vilket gör det svårt att använda data och extrahera faktiska värden.

Big data livscykel

Så hur hanteras egentligen big data? Det finns flera olika implementeringsmetoder, men det finns likheter mellan strategier och mjukvara.

  • Mata in data i systemet
  • Sparar data till lagring
  • Databeräkning och analys
  • Visualisering av resultat

Innan vi tittar på dessa fyra kategorier av arbetsflöden i detalj, låt oss prata om klusterberäkning, en viktig strategi som används av många verktyg för bearbetning av stora data. Att skapa ett datorkluster är ryggraden i den teknik som används i varje skede av livscykeln.

Cluster Computing

På grund av kvaliteten på big data är enskilda datorer inte lämpliga för databehandling. Kluster är mer lämpade för detta, eftersom de kan hantera lagrings- och datorbehoven för big data.

Programvara för klustring av stora data samlar resurserna hos många små maskiner, i syfte att ge ett antal fördelar:

  • Samla resurser: Att bearbeta stora datamängder kräver en stor mängd CPU- och minnesresurser, samt mycket tillgängligt lagringsutrymme.
  • Hög tillgänglighet: Kluster kan ge olika nivåer av motståndskraft och tillgänglighet så att dataåtkomst och databearbetning inte påverkas av hårdvaru- eller mjukvarufel. Detta är särskilt viktigt för realtidsanalyser.
  • Skalbarhet: Kluster stöder snabb horisontell skalning (lägger till nya maskiner i klustret).

För att arbeta i ett kluster behöver du verktyg för att hantera klustermedlemskap, koordinera resursallokering och planera arbete med enskilda noder. Klustermedlemskap och resursallokering kan hanteras med program som Hadoop YARN (Yet Another Resource Negotiator) eller Apache Mesos.

Ett prefabricerat datorkluster fungerar ofta som en bas med vilken en annan interagerar för att bearbeta data. programvara. Maskinerna som deltar i ett beräkningskluster är också vanligtvis associerade med distribuerad lagringshantering.

Hämtar data

Dataintag är processen att lägga till rådata till systemet. Komplexiteten i denna operation beror till stor del på formatet och kvaliteten på datakällorna och på hur data uppfyller kraven för bearbetning.

Du kan lägga till big data till systemet med hjälp av Specialverktyg. Tekniker som Apache Sqoop kan ta befintlig data från relationsdatabaser och lägga till den i ett big data-system. Du kan också använda Apache Flume och Apache Chukwa - projekt utformade för att aggregera och importera applikations- och serverloggar. Meddelandeförmedlare som Apache Kafka kan användas som ett gränssnitt mellan olika datageneratorer och ett big datasystem. Ramverk som Gobblin kan kombinera och optimera produktionen av alla verktyg i slutet av pipelinen.

Vid dataintag utförs vanligtvis analys, sortering och märkning. Denna process kallas ibland ETL (extrahera, transformera, ladda), vilket betyder extrahera, transformera och ladda. Medan termen vanligtvis hänvisar till äldre lagringsprocesser, används den ibland även för stora datasystem. typiska operationer inkluderar modifiering av inkommande data för formatering, kategorisering och märkning, filtrering eller validering av data.

Helst genomgår inkommande data minimal formatering.

Datalagring

När den väl mottagits överförs data till komponenterna som hanterar lagringen.

Vanligtvis används distribuerade filsystem för att lagra rådata. Lösningar som Apache Hadoops HDFS låter dig skriva stora mängder data till flera noder i ett kluster. Detta system ger beräkningsresurser åtkomst till data, kan ladda data till kluster-RAM för minnesoperationer och hantera komponentfel. Andra distribuerade filsystem kan användas istället för HDFS, inklusive Ceph och GlusterFS.

Data kan också importeras till andra distribuerade system för mer strukturerad åtkomst. Distribuerade databaser, särskilt NoSQL-databaser, är väl lämpade för denna roll eftersom de kan hantera heterogen data. Det finns många olika typer av distribuerade databaser, beroende på hur du vill organisera och presentera data.

Databeräkning och analys

När uppgifterna är tillgängliga kan systemet börja bearbeta. Beräkningsnivån är kanske den friaste delen av systemet, eftersom kraven och tillvägagångssätten här kan skilja sig markant beroende på typ av information. Data omarbetas ofta, antingen med ett enda verktyg eller med en rad verktyg för att bearbeta olika typer av data.

Batchbearbetning är en av beräkningsmetoderna i stora datamängder. Denna process innebär att bryta ner data i mindre bitar, schemalägga varje del för att bearbetas på en separat maskin, ordna om data baserat på mellanresultat och sedan beräkna och samla in det slutliga resultatet. Denna strategi använder MapReduce från Apache Hadoop. Batchbearbetning är mest användbar när man arbetar med mycket stora datamängder som kräver en hel del beräkning.

Andra arbetsbelastningar kräver bearbetning i realtid. Samtidigt ska informationen behandlas och förberedas omedelbart och systemet ska svara i tid när ny information blir tillgänglig. Ett sätt att implementera realtidsbearbetning är att bearbeta en kontinuerlig ström av data bestående av enskilda element. En till generella egenskaper realtidsprocessorer - detta är beräkningen av data i klustrets minne, vilket undviker behovet av att skriva till disk.

Apache Storm, Apache Flink och Apache Spark erbjuder olika sättngar. Dessa flexibla tekniker gör att du kan välja det bästa tillvägagångssättet för varje enskilt problem. Generellt sett är realtidsbehandling bäst lämpad för att analysera små databitar som ändras eller snabbt läggs till i systemet.

Alla dessa program är ramverk. Det finns dock många andra sätt att beräkna eller analysera data i ett big data-system. Dessa verktyg ansluts ofta till ovanstående ramverk och tillhandahåller ytterligare gränssnitt för att interagera med de underliggande lagren. Till exempel tillhandahåller Apache Hive ett datalagergränssnitt för Hadoop, Apache Pig tillhandahåller ett frågegränssnitt och interaktioner med SQL-data försedd med Apache Drill, Apache Impala, Apache Spark SQL och Presto. Maskininlärning använder Apache SystemML, Apache Mahout och MLlib från Apache Spark. För direkt analytisk programmering, som stöds brett av dataekosystemet, används R och Python.

Visualisering av resultat

Ofta är det viktigare att känna igen trender eller förändringar i data över tid än de erhållna värdena. Datavisualisering är ett av de mest användbara sätten att identifiera trender och organisera ett stort antal datapunkter.

Realtidsbehandling används för att visualisera applikations- och servermått. Data ändras ofta, och stora variationer i mätvärden indikerar vanligtvis en betydande inverkan på systemens eller organisationers hälsa. Projekt som Prometheus kan användas för att bearbeta dataströmmar och tidsserier och visualisera denna information.

Ett populärt sätt att visualisera data är Elastic-stacken, tidigare känd som ELK-stacken. Logstash används för datainsamling, Elasticsearch för dataindexering och Kibana för visualisering. Elastic-stacken kan arbeta med big data, visualisera resultaten av beräkningar eller interagera med råa mätvärden. En liknande stack kan erhållas genom att slå samman Apache Solr för att indexera en gaffel av Kibana som kallas Banana för visualisering. En sådan stack kallas Silk.

Dokument är en annan visualiseringsteknik för interaktivt dataarbete. Sådana projekt tillåter interaktiv forskning och visualisering av data i ett format lämpligt för delning och presentation av data. Populära exempel på denna typ av gränssnitt är Jupyter Notebook och Apache Zeppelin.

Ordlista över big data

  • Big data är en bred term för datauppsättningar som inte kan bearbetas korrekt av konventionella datorer eller verktyg på grund av deras storlek, hastighet och variation. Termen används också ofta för tekniker och strategier för att hantera sådana data.
  • Batchbearbetning är en beräkningsstrategi som involverar bearbetning av data i stora uppsättningar. Denna metod är vanligtvis idealisk för att hantera icke-brådskande data.
  • Clustered computing är metoden att slå samman resurserna från flera maskiner och hantera deras kombinerade kapacitet för att utföra uppgifter. Detta kräver ett klusterhanteringsskikt som hanterar kommunikation mellan enskilda noder.
  • En datasjö är ett stort lager av insamlad data i ett relativt rått tillstånd. Termen används ofta för att referera till ostrukturerad och ofta föränderlig stordata.
  • Data mining är en bred term för olika metoder för att hitta mönster i stora datamängder. Det är ett försök att organisera en mängd data till en mer begriplig och sammanhängande uppsättning information.
  • Ett datalager är ett stort, organiserat arkiv för analys och rapportering. Till skillnad från en datasjö består ett lager av formaterad och välorganiserad data som är integrerad med andra källor. Datalager hänvisas ofta till i relation till big data, men de är ofta komponenter i konventionella databehandlingssystem.
  • ETL (extrahera, transformera och ladda) - extrahera, transformera och ladda data. Så här ser processen att erhålla och förbereda rådata för användning ut. Det är förknippat med datalager, men egenskaperna hos denna process finns också i pipelines av big data-system.
  • Hadoop är ett Apache-projekt med öppen källkod för big data. Den består av distribuerade filsystem kallas HDFS och en kluster- och resursplanerare som heter YARN. Batchbearbetningsmöjligheter tillhandahålls av beräkningsmotorn MapReduce. Med MapReduce kan moderna Hadoop-distributioner köra andra dator- och analyssystem.
  • In-memory compute är en strategi som går ut på att flytta de fungerande datamängderna helt och hållet in i klustrets minne. Mellanliggande beräkningar skrivs inte till disk utan lagras i minnet. Detta ger system en enorm hastighetsfördel jämfört med I/O-bundna system.
  • Maskininlärning är studiet och övningen av att designa system som kan lära sig, ställa in och förbättra baserat på den data som de matas in. Vanligtvis innebär detta implementeringen av prediktiva och statistiska algoritmer.
  • Map reduce (inte att förväxla med Hadoops MapReduce) är en schemaläggningsalgoritm för datorkluster. Processen inkluderar att dela upp uppgiften mellan noder och få mellanliggande resultat, blanda och sedan mata ut ett enda värde för varje uppsättning.
  • NoSQL är en bred term för databaser utformade utanför den traditionella relationsmodellen. NoSQL-databaser är väl lämpade för big data på grund av deras flexibilitet och distribuerade arkitektur.
  • Streaming är praxis att beräkna enskilda dataelement när de rör sig genom systemet. Detta möjliggör dataanalys i realtid och är lämpligt för bearbetning av tidskritiska transaktioner med hjälp av höghastighetsmått.
Taggar: ,

Bara den lata pratar inte om Big data, men han förstår knappt vad det är och hur det fungerar. Låt oss börja med det enklaste - terminologi. På ryska är Big data en mängd olika verktyg, tillvägagångssätt och metoder för att bearbeta både strukturerad och ostrukturerad data för att kunna använda dem för specifika uppgifter och ändamål.

Ostrukturerad data är information som inte har en förutbestämd struktur eller som inte är organiserad i en viss ordning.

Termen "big data" myntades av Nature-redaktören Clifford Lynch redan 2008 i ett specialnummer om den explosiva tillväxten av världens informationsvolymer. Även om själva big data såklart fanns tidigare. Enligt experter tillhör majoriteten av dataflöden över 100 GB per dag kategorin Big data.

Läs också:

Idag döljer denna enkla term bara två ord - datalagring och bearbetning.

Big data - med enkla ord

modern värld Big data är ett socioekonomiskt fenomen som är förknippat med att nya tekniska möjligheter har dykt upp för att analysera en enorm mängd data.

Läs också:

För att underlätta förståelsen, föreställ dig en stormarknad där alla varor inte är i den ordning du är van vid. Bröd bredvid frukt, tomatpuré bredvid en fryst pizza, tändvätska bredvid ett ställ med tamponger som har bland annat avokado, tofu eller shiitakesvamp. Big data sätter allt på sin plats och hjälper dig att hitta nötmjölk, ta reda på kostnad och utgångsdatum, och även vem, förutom du, som köper sådan mjölk och hur den är bättre än komjölk.

Kenneth Cookier: Big data är bättre data

Big data-teknik

Enorma mängder data bearbetas så att en person kan få specifika och nödvändiga resultat för sin vidare effektiva tillämpning.

Läs också:

Faktum är att Big data är en problemlösare och ett alternativ till traditionella datahanteringssystem.

Tekniker och analysmetoder som är tillämpliga på Big data enligt McKinsey:

  • datautvinning;
  • crowdsourcing;
  • Blandning och dataintegration;
  • Maskininlärning;
  • Artificiellt nervsystem;
  • Mönsterigenkänning;
  • Prediktiv analys;
  • simuleringsmodellering;
  • Rumslig analys;
  • Statistisk analys;
  • Visualisering av analytisk data.

Horisontell skalbarhet som möjliggör databehandling är grundprincipen för big data-behandling. Data distribueras till datornoder och bearbetning sker utan prestandaförsämring. McKinsey inkluderade också relationshanteringssystem och Business Intelligence i samband med tillämpbarhet.

Teknologi:

  • NoSQL;
  • MapReduce;
  • Hadoop;
  • Hårdvarulösningar.

Läs också:

För big data finns det traditionella definierande egenskaper utvecklade av Meta Group redan 2001, som kallas " Tre V»:

  1. Volym- värdet av den fysiska volymen.
  2. Hastighet- tillväxttakt och behovet av snabb databehandling för att få resultat.
  3. Mängd- förmågan att samtidigt bearbeta olika typer data.

Big data: tillämpning och möjligheter

Volymerna av heterogen och snabbt inkommande digital information kan inte bearbetas med traditionella verktyg. Analysen av själva data låter dig se vissa och omärkliga mönster som en person inte kan se. Detta gör att vi kan optimera alla områden i våra liv – från regeringskontrollerad till tillverkning och telekommunikation.

Till exempel skyddade vissa företag för några år sedan sina kunder från bedrägerier, och att ta hand om kundens pengar är att ta hand om sina egna pengar.

Susan Atliger: Hur är det med big data?

Lösningar baserade på Big data: Sberbank, Beeline och andra företag

Beeline har en enorm mängd data om abonnenter, som de använder inte bara för att arbeta med dem, utan också för att skapa analytiska produkter, såsom extern konsultation eller IPTV-analys. Beeline segmenterade databasen och skyddade kunder från penningbedrägerier och virus genom att använda HDFS och Apache Spark för lagring och Rapidminer och Python för databehandling.

Läs också:

Eller kom ihåg Sberbank med deras gamla fall som heter AS SAFI. Detta är ett system som analyserar foton för att identifiera bankkunder och förhindra bedrägerier. Systemet introducerades redan 2014, systemet bygger på att jämföra bilder från databasen som kommer dit från webbkameror på ställ tack vare datorseende. Grunden för systemet är en biometrisk plattform. Tack vare detta minskade bedrägerifallen med 10 gånger.

Big data i världen

År 2020 kommer mänskligheten enligt prognoser att bilda 40-44 zettabyte information. Och till 2025 kommer den att växa 10 gånger, enligt The Data Age 2025-rapport, som utarbetades av IDC-analytiker. Rapporten noterar att det mesta av data kommer att genereras av företagen själva, inte vanliga konsumenter.

Analytiker av studien tror att data kommer att bli en viktig tillgång och säkerhet - en kritisk grund i livet. Författarna till arbetet är också övertygade om att tekniken kommer att förändra det ekonomiska landskapet, och vanlig användare kommer att kommunicera med anslutna enheter cirka 4800 gånger om dagen.

Big data-marknad i Ryssland

Under 2017 bör de globala intäkterna på big data-marknaden nå 150,8 miljarder dollar, vilket är 12,4 % mer än förra året. På en global skala är den ryska marknaden för stora datatjänster och teknologier fortfarande mycket liten. Det amerikanska företaget IDC uppskattade det till 340 miljoner dollar 2014. I Ryssland används tekniken inom bank, energi, logistik, offentlig sektor, telekom och industri.

Läs också:

När det gäller datamarknaden är den bara i sin linda i Ryssland. Inom RTB-ekosystemet är dataleverantörer ägare till programmatiska datahanteringsplattformar (DMP) och datautbyten. Telekomoperatörer pilot delar konsumentinformation om potentiella låntagare med banker.

Vanligtvis kommer big data från tre källor:

  • Internet (sociala nätverk, forum, bloggar, media och andra webbplatser);
  • Företagsarkiv av dokument;
  • Indikationer på sensorer, instrument och andra enheter.

Big data i banker

Utöver det ovan beskrivna systemet, i Sberbanks strategi för 2014-2018. talar om vikten av att analysera superdatauppsättningar för kvalitativ kundservice, riskhantering och kostnadsoptimering. Banken använder nu Big Data för att hantera risker, bekämpa bedrägerier, segmentera och bedöma kundernas kreditvärdighet, hantera personal, förutsäga köer på kontor, beräkna bonusar för anställda och andra uppgifter.

VTB24 använder big data för att segmentera och hantera kundförlust, generera bokslut och analysera feedback på sociala nätverk och forum. För att göra detta använder han Teradata, SAS Visual Analytics och SAS Marketing Optimizer-lösningar.

Vi snubblar regelbundet över buzzwords och definitioner, vars innebörd verkar vara intuitivt tydlig för oss, men vi har ingen klar bild av vad det är och hur det fungerar.

Ett av dessa begrepp är Big Data, på ryska kan du ibland hitta en bokstavlig översättning - "big data", men oftare säger och skriver folk som det är: Big Data. Alla har säkert hört eller åtminstone träffat den här frasen på Internet, och den verkar vara enkel, men exakt vad som menas är inte alltid klart för kontorshumanister som befinner sig långt ifrån den digitala världens krångligheter.

Ett utmärkt försök att fylla denna lucka i hjärnan på det bredaste spektrumet av användare är artikeln av en av våra favoritförfattare Bernard Marr, som kallas "Vad är Big Data? Superenkel förklaring för alla". Utan abstru jargong i det enda syftet att förklara nyckelidéerna för detta fenomen för alla, oavsett utbildning och verksamhetsområde.

Under de senaste åren har vi faktiskt redan levt i en värld genomsyrad av Big Data, men vi fortsätter att bli förvirrade när det gäller att förstå vad det är på samma sätt. Detta beror delvis på att själva konceptet Big Data ständigt omvandlas och omprövas, eftersom världen av högteknologier och bearbetning av stora mängder information förändras mycket snabbt, inklusive fler och fler nya alternativ. Och volymen av denna information växer ständigt.

Så, vad betyder Big Data - 2017?

Allt började med den explosiva tillväxten i mängden data vi skapar från början digital ålder. Detta har möjliggjorts till stor del av ökningen av antalet och kraften hos datorer, utvidgningen av Internet och utvecklingen av teknologier som kan fånga information från den verkliga, fysiska värld där vi alla lever och omvandla den till digital data.

Under 2017 producerar vi data när vi går online, när vi använder våra GPS-utrustade smartphones, när vi chattar med vänner på sociala nätverk, när vi laddar ner mobilapplikationer eller musik när du handlar.

Man kan säga att vi lämnar många digitala fotspår efter oss, oavsett vad vi gör, om våra handlingar inkluderar några digitala transaktioner. Det är nästan alltid och överallt.

Dessutom växer mängden data som genereras av maskinerna själva i en enorm takt. Data skapas och överförs när våra smarta enheter kommunicerar med varandra. Tillverkningsanläggningar runt om i världen är utrustade med utrustning som samlar in och överför data dag och natt.

Inom en snar framtid kommer våra gator att fyllas med självkörande bilar, självdirigering baserad på 4D-kartor genererade i realtid.

Vad kan Big Data göra?

En oändligt växande ström av sensorisk information, fotografier, textmeddelanden, ljud- och videodata är kärnan i Big Data, som vi kan använda på sätt som var otänkbara även för några år sedan.

Just nu hjälper projekt baserade på Big Data:

- Behandla sjukdomar och förebygga cancer. Big Data-baserad medicin analyserar en enorm mängd journaler och bilder, vilket möjliggör mycket tidig diagnos och bidrar till skapandet av nya behandlingar.

- Bekämpa hungern. Jordbruket upplever en sann Big Data-revolution, som tillåter användning av resurser på ett sätt som maximerar avkastningen med minimal störning av ekosystemet och optimerar användningen av maskiner och utrustning.

- Upptäck avlägsna planeter. NASA analyserar till exempel enorma mängder data och bygger modeller för framtida uppdrag till avlägsna världar med deras hjälp.

- Förutse nödsituationer olika karaktär och minimera eventuella skador. Data från många sensorer kan förutsäga var och när nästa jordbävning kommer att inträffa eller det möjliga beteendet hos människor i nödsituation vilket ökar chanserna att överleva.

- Förebygga brott genom användning av teknik som möjliggör en effektivare allokering av resurser och styr dem dit de behövs som mest.

Och det som ligger närmast de flesta av oss: Big Data skapar liv vanlig person enklare och bekvämare - det här är onlineshopping, reseplanering och navigering i en metropol.

Välja lämpligast tid att köpa flygbiljetter och bestämma vilken film eller serie man ska se har blivit mycket lättare tack vare Big Datas arbete.

Hur det fungerar?

Big Data arbetar utifrån principen att ju mer du vet om något, desto mer exakt kan du förutsäga vad som kommer att hända i framtiden. Jämförelse av individuella data och relationer mellan dem (vi talar om en enorm mängd data och ett otroligt stort antal möjliga kopplingar mellan dem) avslöjar tidigare dolda mönster. Detta gör det möjligt att se inuti problemet och i slutändan förstå hur vi kan hantera den eller den processen.

Oftast innebär processen att bearbeta stora mängder information att bygga modeller baserade på insamlad data och köra simuleringar, under vilka ständigt förändras nyckelinställningar, medan systemet varje gång övervakar hur "ändringen av inställningar" påverkar det möjliga resultatet.

Denna process är helt automatiserad, eftersom vi talar om analys av miljontals simuleringar, uppräkning av alla alternativ upp till ögonblicket tills mönstret (det önskade schemat) hittas eller tills "upplysning" inträffar, vilket kommer att hjälpa till att lösa problemet för vilket allt startades.

Till skillnad från världen av objekt och beräkningar som vi känner till, tas data emot i en ostrukturerad form, det vill säga det är svårt att skjuta in dem i tabeller med celler och kolumner som är bekanta för oss, människor. En enorm mängd data överförs som bilder eller videor: från satellitbilder till selfies som du lägger upp på Instagram eller Facebook - precis som e-post- och meddelandeposter eller telefonsamtal.

För att göra allt detta oändliga och brokiga dataflöde praktiskt meningsfullt använder Big Data ofta de mest avancerade analysteknikerna, som inkluderar artificiell intelligens och maskininlärning(det är när ett program i en dator lär ut andra program).

Datorer lär sig själva att avgöra vad den eller den informationen representerar – till exempel att känna igen bilder, språk – och de kan göra detta mycket snabbare än människor.

Storebror?

I proportion till de oöverträffade möjligheter som Big Data ger oss idag, växer antalet bekymmer och frågor förknippade med dess användning.

SEKRETESS FÖR PERSONUPPGIFTER. Big Data samlar in en enorm mängd information om vårt privatliv. Det finns mycket information som vi helst vill hålla hemlig.

SÄKERHET. Även om vi beslutar att det inte är något fel med att överföra alla våra personuppgifter till en maskin för något specifikt ändamål som är fördelaktigt för oss, kan vi vara säkra på att våra uppgifter lagras på en säker plats?
Vem och hur kan vi garantera detta?

DISKRIMINERING. När allt är känt, är det acceptabelt att diskriminera människor baserat på vad man vet om dem tack vare Big Data? Banker använder din kredithistorik och försäkringsbolag prissätter bilförsäkringar baserat på vad de vet om dig. Hur långt kan detta gå?

Det kan antas att för att minimera företagets risker, statliga organ och även individer kommer att använda det de kan lära sig om oss och av någon anledning begränsa vår tillgång till resurser och information.

Med alla fördelar måste vi inse att alla dessa problem också är en integrerad del av Big Data. Fram till nyligen har forskare undrat över svaren, men nu har tiden kommit då vågen har nått ett företag som vill använda fördelarna med Big Data för sina egna syften. Och detta kan vara kantat av katastrofala konsekvenser.