Rýchlosť vo vlastnostiach veľkých dát. Big Data – čo sú veľké dátové systémy? Vývoj Big Data technológií. Big Data o ochrane zákona a poriadku

Neustále zrýchľovanie rastu dát je neoddeliteľnou súčasťou dnešnej reality. Sociálne siete, mobilné zariadenia, dáta z meracích prístrojov, obchodné informácie – to je len niekoľko typov zdrojov, ktoré dokážu generovať obrovské množstvo dát.

V súčasnosti sa pomerne zaužíval pojem Big Data (Big Data). Zďaleka nie každý si stále uvedomuje, ako rýchlo a hlboko menia technológie na spracovanie veľkého množstva údajov najrozmanitejšie aspekty spoločnosti. V rôznych oblastiach prebiehajú zmeny, ktoré vyvolávajú nové problémy a výzvy, a to aj v oblasti informačná bezpečnosť, kde by mali byť v popredí také dôležité aspekty ako dôvernosť, integrita, dostupnosť atď.

Bohužiaľ, veľa moderných spoločností sa uchýli k technológii Big Data bez toho, aby na to vytvorila vhodnú infraštruktúru, ktorú by im mohla poskytnúť bezpečné skladovanie obrovské množstvo údajov, ktoré zhromažďujú a uchovávajú. Na druhej strane sa v súčasnosti rýchlo rozvíja technológia blockchain, ktorá je určená na riešenie tohto a mnohých ďalších problémov.

Čo sú veľké dáta?

V skutočnosti je definícia tohto pojmu na povrchu: „veľké údaje“ znamenajú správu veľmi veľkého množstva údajov, ako aj ich analýzu. Ak sa pozriete širšie, tak ide o informácie, ktoré sa pre veľký objem nedajú spracovať klasickými metódami.

Samotný pojem Big Data (veľké dáta) sa objavil pomerne nedávno. Podľa služby Google Trends aktívny rast popularity výrazu pripadá na koniec roka 2011:

V roku 2010 sa začali objavovať prvé produkty a riešenia priamo súvisiace so spracovaním veľkých dát. Do roku 2011 bude väčšina najväčších IT spoločností vrátane IBM, Oracle, Microsoft a Hewlett-Packard aktívne používať termín Big Data vo svojich obchodných stratégiách. Postupne analytici trhu informačných technológií začať aktívny výskum tohto konceptu.

V súčasnosti si tento výraz získal značnú popularitu a aktívne sa používa v rôznych oblastiach. Nedá sa však s istotou povedať, že Big Data sú nejakým zásadne novým fenoménom – naopak, veľké dátové zdroje existujú už mnoho rokov. V marketingu to môžu byť databázy nákupov zákazníkov, úverová história, životný štýl atď. V priebehu rokov analytici tieto údaje používali na pomoc spoločnostiam predpovedať budúce potreby zákazníkov, posudzovať riziká, formovať preferencie spotrebiteľov a podobne.

V súčasnosti sa situácia zmenila v dvoch smeroch:

— Objavili sa sofistikovanejšie nástroje a metódy na analýzu a porovnávanie rôznych súborov údajov;
— Analytické nástroje boli doplnené mnohými novými zdrojmi údajov poháňanými rozsiahlou digitalizáciou, ako aj novými metódami zberu a merania údajov.

Výskumníci predpovedajú, že technológie Big Data budú najaktívnejšie využívané vo výrobe, zdravotníctve, obchode, verejnej správe a v ďalších veľmi rôznorodých oblastiach a odvetviach.

Big Data nie sú špecifické pole údajov, ale súbor metód na ich spracovanie. Charakteristickým znakom veľkých dát je nielen ich objem, ale aj ďalšie kategórie, ktoré charakterizujú náročné procesy spracovania a analýzy dát.

Počiatočné údaje na spracovanie môžu byť napr.

— denníky správania používateľov internetu;
— Internet vecí;
- sociálne médiá;
— meteorologické údaje;
— digitalizované knihy najväčších knižníc;
- GPS signály z Vozidlo;
— informácie o transakciách klientov bánk;
- údaje o polohe účastníka mobilné siete;
— informácie o nákupoch vo veľkých obchodných reťazcoch a pod.

Postupom času množstvo údajov a počet ich zdrojov neustále rastie a na tomto pozadí sa objavujú nové spôsoby spracovania informácií a zdokonaľujú sa existujúce spôsoby spracovania informácií.

Základné princípy Big Data:

- Horizontálna škálovateľnosť – dátové polia môžu byť obrovské a to znamená, že systém spracovania veľkých dát sa musí dynamicky rozširovať, keď sa ich objemy zvyšujú.
- Odolnosť voči chybám - aj keď niektoré zariadenie zlyhá, celý systém musí zostať funkčný.
— Údaje o lokalite. Vo veľkých distribuovaných systémoch sú dáta zvyčajne distribuované cez značný počet strojov. Vždy, keď je to možné a kvôli šetreniu zdrojov, sa však údaje často spracúvajú na rovnakom serveri, na ktorom sú uložené.

Pre stabilné fungovanie všetkých troch princípov, a teda aj vysokú efektivitu ukladania a spracovania veľkých dát, sú potrebné nové prelomové technológie, ako je napríklad blockchain.

Na čo sú veľké dáta?

Rozsah veľkých dát sa neustále rozširuje:

— Veľké dáta sa dajú využiť v medicíne. Preto je možné stanoviť diagnózu pre pacienta nielen na základe údajov z analýzy anamnézy, ale aj s prihliadnutím na skúsenosti iných lekárov, informácie o ekologickej situácii v oblasti pobytu pacienta. a mnoho ďalších faktorov.
— Technológie veľkých dát možno použiť na organizáciu pohybu bezpilotných vozidiel.
— Spracovaním veľkého množstva údajov je možné rozpoznať tváre vo fotografických a video materiáloch.
- Big Data technológie môžu využívať maloobchodníci - obchodné spoločnosti môžu aktívne využívať dátové polia z sociálne siete pre efektívne prispôsobenie ich reklamné kampane, ktoré môžu byť maximálne zamerané na ten či onen spotrebiteľský segment.
— Táto technológia sa aktívne využíva pri organizácii volebných kampaní vrátane analýzy politických preferencií v spoločnosti.
— Používanie technológií veľkých dát je relevantné pre riešenia triedy zabezpečenia príjmu (RA), ktoré zahŕňajú nástroje na zisťovanie nezrovnalostí a hĺbkovú analýzu dát, ktorá umožňuje včasnú identifikáciu pravdepodobných strát alebo skreslení informácií, ktoré môžu viesť k zníženiu finančných výsledkov. .
— Poskytovatelia telekomunikácií môžu agregovať veľké dáta vrátane geolokačných údajov; tieto informácie môžu byť zasa komerčne zaujímavé pre reklamné agentúry, ktoré ich môžu použiť na zobrazovanie cielenej a miestnej reklamy, ako aj pre maloobchodníkov a banky.
„Veľké dáta môžu hrať dôležitú úlohu pri rozhodovaní, či otvoriť maloobchodnú predajňu v konkrétnej lokalite na základe údajov o prítomnosti silného cieleného toku ľudí.

Najočividnejšie praktické využitie technológie Big Data teda leží v oblasti marketingu. Vďaka rozvoju internetu a šíreniu všetkých druhov komunikačných zariadení sa údaje o správaní (ako sú počet hovorov, nákupné návyky a nákupy) stávajú dostupnými v reálnom čase.

Big data technológie sa dajú efektívne využiť aj vo financiách, sociologickom výskume a mnohých ďalších oblastiach. Odborníci tvrdia, že všetky tieto možnosti využitia veľkých dát sú len viditeľnou časťou ľadovca, keďže tieto technológie sa v oveľa väčšej miere využívajú v spravodajstve a kontrarozviedke, vo vojenských záležitostiach, ako aj vo všetkom, čo sa bežne nazýva informačná vojna. .

Vo všeobecnosti postupnosť práce s veľkými údajmi pozostáva zo zhromažďovania údajov, štruktúrovania prijatých informácií pomocou správ a panelov a následnej formulácie odporúčaní na akciu.

Pozrime sa stručne na možnosti využitia Big Data technológií v marketingu. Ako viete, pre obchodníka sú informácie hlavným nástrojom na prognózovanie a tvorbu stratégií. Analýza veľkých dát sa už dlho úspešne používa na určenie cieľové publikum záujmy, dopyt a činnosť spotrebiteľov. Najmä analýza veľkých dát umožňuje zobrazovať reklamu (na základe aukčného modelu RTB - Real Time Bidding) len tým spotrebiteľom, ktorí majú záujem o produkt alebo službu.

Použitie veľkých dát v marketingu umožňuje podnikateľom:

- lepšie rozpoznať svojich spotrebiteľov, prilákať podobné publikum na internete;
- hodnotiť mieru spokojnosti zákazníka;
— pochopiť, či navrhovaná služba spĺňa očakávania a potreby;
- nájsť a implementovať nové spôsoby na zvýšenie dôvery zákazníkov;
— vytvárať projekty, po ktorých je dopyt atď.

Napríklad služba Google.trends môže obchodníkovi povedať predpoveď sezónneho dopytu po konkrétnom produkte, kolísanie a geografickú polohu kliknutí. Ak porovnáte tieto informácie so štatistikami zhromaždenými príslušným doplnkom na vašej vlastnej stránke, môžete si vytvoriť plán rozdelenia reklamného rozpočtu s uvedením mesiaca, regiónu a ďalších parametrov.

Podľa mnohých výskumníkov je úspech Trumpovej kampane práve v segmentácii a využívaní veľkých dát. Tím budúceho prezidenta USA dokázal správne rozdeliť publikum, pochopiť jeho túžby a ukázať presne to posolstvo, ktoré chcú voliči vidieť a počuť. Takže podľa Iriny Belysheva z Data-Centric Alliance bolo víťazstvo Trumpa z veľkej časti spôsobené neštandardným prístupom k internetovému marketingu, ktorý bol založený na veľkých dátach, psychologicko-behaviorálnej analýze a personalizovanej reklame.

Trumpovi politickí technológovia a marketéri použili špeciálne navrhnutý matematický model, ktorá umožnila hĺbkovú analýzu údajov všetkých amerických voličov a ich systematizáciu, vďaka čomu bolo možné ultrapresné zacielenie nielen podľa geografických prvkov, ale aj zámerov, záujmov voličov, ich psychotypu, charakteristík správania atď. organizovali personalizovanú komunikáciu s občanmi každej zo skupín na základe ich potrieb, nálad, politických názorov, psychologických charakteristík a dokonca aj farby pleti, pričom používali svoj vlastný odkaz pre takmer každého jednotlivého voliča.

Hillary Clintonová vo svojej kampani použila „časom overené“ metódy založené na sociologických údajoch a štandardnom marketingu, čím rozdelila voličov len na formálne homogénne skupiny (muži, ženy, Afroameričania, Hispánci, chudobní, bohatí atď.).

Výsledkom bolo, že víťazom sa stal ten, kto ocenil potenciál nových technológií a metód analýzy. Je pozoruhodné, že výdavky Hillary Clintonovej na kampaň boli dvakrát vyššie ako výdavky jej protikandidáta:

Údaje: Pew Research

Hlavné problémy používania veľkých dát

Okrem vysokých nákladov je jedným z hlavných faktorov, ktoré bránia zavedeniu veľkých dát v rôznych oblastiach, problém výberu dát, ktoré sa majú spracovať: teda určiť, ktoré dáta je potrebné extrahovať, uložiť a analyzovať a ktoré. by sa nemali brať do úvahy.

Ďalší problém veľkých dát je etický. Inými slovami, existuje legitímna otázka: možno takýto zber údajov (najmä bez vedomia používateľa) považovať za porušenie hraníc súkromia?

Nie je žiadnym tajomstvom, že informácie uložené vo vyhľadávačoch systémy Google a Yandex, umožňuje IT gigantom neustále zlepšovať svoje služby, vytvárať ich užívateľsky prívetivé a vytvárať nové interaktívne aplikácie. Vyhľadávače na tento účel zhromažďujú údaje používateľov o aktivite používateľov na internete, IP adresy, geolokačné údaje, záujmy a online nákupy, osobné údaje, e-mailové správy atď. To všetko umožňuje zobrazovať kontextovú reklamu v súlade so správaním používateľov na internete. Zároveň sa na to zvyčajne nevyžaduje súhlas používateľov a nie je daná voľba, aké informácie o sebe poskytnúť. To znamená, že predvolene sa všetko zhromažďuje vo veľkých údajoch, ktoré sa potom uložia na dátové servery stránok.

Z toho vyplýva nasledovné dôležitý problém o bezpečnosti uchovávania a používania údajov. Ide napríklad o konkrétnu analytickú platformu, ktorú spotrebitelia v automatický režim preniesť svoje údaje? Okrem toho mnohí obchodní zástupcovia zaznamenávajú nedostatok vysokokvalifikovaných analytikov a obchodníkov, ktorí sú schopní efektívne spracovať veľké množstvo údajov a s ich pomocou riešiť špecifické obchodné problémy.

Napriek všetkým ťažkostiam s implementáciou Big Data má biznis v úmysle zvýšiť investície do tejto oblasti. Podľa štúdie Gartner sú lídrami v odvetviach investujúcich do veľkých dát mediálne, maloobchodné, telekomunikačné, bankové a servisné spoločnosti.

Vyhliadky na interakciu medzi blockchainovými technológiami a veľkými dátami

Integrácia s veľkými údajmi má synergický efekt a otvára široké spektrum nových príležitostí pre podniky, vrátane umožnenia:

— získate prístup k podrobným informáciám o preferenciách spotrebiteľov, na základe ktorých môžete zostaviť podrobné informácie analytické profily pre konkrétnych dodávateľov, tovar a komponenty produktov;
- integrovať podrobné údaje o transakciách a štatistiky o spotrebe určitých skupín tovaru rôznymi kategóriami používateľov;
- získať podrobné analytické údaje o dodávateľských a spotrebných reťazcoch, kontrolovať straty produktov počas prepravy (napríklad úbytok hmotnosti v dôsledku zmršťovania a vyparovania určitých druhov tovaru);
– boj proti falšovaným výrobkom, zvýšenie účinnosti boja proti praniu špinavých peňazí a podvodom atď.

Prístup k detailným údajom o používaní a spotrebe tovarov do značnej miery odomkne potenciál technológie Big Data na optimalizáciu kľúčových obchodných procesov, zníženie regulačných rizík a otvorenie nových príležitostí na monetizáciu a vytváranie produktov, ktoré budú najlepšie spĺňať aktuálne preferencie spotrebiteľov.

Ako viete, zástupcovia najväčších finančných inštitúcií už prejavujú značný záujem o technológiu blockchain, vrátane atď. Podľa Olivera Bussmanna, IT manažéra švajčiarskeho finančného holdingu UBS, môže technológia blockchain „skrátiť čas spracovania transakcií z niekoľkých dní na niekoľko minúty“.

Potenciál analýzy z blockchainu pomocou technológie Big Data je obrovský. Technológia distribuovaných registrov zabezpečuje integritu informácií, ako aj spoľahlivé a transparentné uchovávanie celej histórie transakcií. Big Data zase poskytujú nové nástroje na efektívnu analýzu, prognózovanie, ekonomické modelovanie, a teda otvárajú nové príležitosti na prijímanie informovanejších manažérskych rozhodnutí.

Tandem blockchainu a Big Data sa dá úspešne využiť v zdravotníctve. Ako viete, nedokonalé a neúplné údaje o zdravotnom stave pacienta niekedy zvyšujú riziko stanovenia nesprávnej diagnózy a nesprávne predpísanej liečby. Kritické údaje o zdravotnom stave klientov zdravotníckych zariadení by mali byť čo najbezpečnejšie, mali by mať vlastnosti nemennosti, byť overiteľné a nemali by podliehať žiadnej manipulácii.

Informácie v blockchaine spĺňajú všetky vyššie uvedené požiadavky a môžu slúžiť ako vysokokvalitné a spoľahlivé zdrojové dáta pre hĺbkovú analýzu pomocou nových technológií Big Data. Okrem toho si môžu zdravotnícke inštitúcie pomocou blockchainu vymieňať spoľahlivé údaje s poisťovňami, justičnými orgánmi, zamestnávateľmi, akademickými inštitúciami a ďalšími organizáciami, ktoré potrebujú lekárske informácie.

Big Data a informačná bezpečnosť

V širšom zmysle je informačná bezpečnosť ochrana informácií a podpornej infraštruktúry pred náhodnými alebo úmyselnými negatívnymi vplyvmi prírodného alebo umelého charakteru.

V oblasti informačnej bezpečnosti čelia Big Data nasledujúcim výzvam:

— Problémy ochrany údajov a zabezpečenia ich integrity;
— riziko vonkajšieho zasahovania a úniku dôverných informácií;
— nesprávne uchovávanie dôverných informácií;
- riziko straty informácií, napríklad v dôsledku niekoho zlomyseľného konania;
— riziko zneužitia osobných údajov tretími stranami a pod.

Jeden z hlavných problémov veľkých dát, ktorý má blockchain riešiť, spočíva v oblasti informačnej bezpečnosti. Technológia distribuovanej účtovnej knihy, ktorá zabezpečuje súlad so všetkými svojimi základnými princípmi, môže zaručiť integritu a spoľahlivosť údajov a vďaka absencii jediného bodu zlyhania robí blockchain prácu stabilnou. informačné systémy. Technológia distribuovaných registrov môže pomôcť vyriešiť problém dôvery v údaje, ako aj poskytnúť možnosť univerzálna výmena ich.

Informácie sú cenným aktívom, čo znamená, že hlavné aspekty informačnej bezpečnosti by mali byť v popredí. Aby spoločnosti prežili v konkurencii, musia držať krok s dobou, čo znamená, že nemôžu ignorovať potenciálne príležitosti a výhody, ktoré technológia blockchain a nástroje Big Data obsahujú.

V rusky hovoriacom prostredí sa používa ako termín veľké dáta a pojem „veľké údaje“. Pojem „veľké údaje“ je odvodením od anglického výrazu. Veľké dáta nemajú striktnú definíciu. Nie je možné nakresliť jasnú hranicu - je to 10 terabajtov alebo 10 megabajtov? Samotný názov je veľmi subjektívny. Slovo „veľký“ je medzi primitívnymi kmeňmi ako „jeden, dva, mnoho“.

Existuje však zaužívaný názor, že veľké dáta sú súborom technológií, ktoré sú určené na vykonávanie troch operácií. Po prvé, na spracovanie väčšieho množstva údajov v porovnaní so „štandardnými“ scenármi. Po druhé, aby bolo možné pracovať s rýchlo prichádzajúcimi dátami vo veľmi veľkých objemoch. To znamená, že údajov nie je len veľa, ale neustále ich pribúda. Po tretie, musia byť schopní paralelne pracovať so štruktúrovanými a slabo štruktúrovanými údajmi v rôznych aspektoch. Veľké dáta predpokladajú, že algoritmy dostávajú prúd informácií, ktoré nie sú vždy štruktúrované a že z nich možno extrahovať viac ako jednu myšlienku.

Typickým príkladom veľkých dát sú informácie pochádzajúce z rôznych fyzikálnych experimentálnych zariadení – napríklad z , ktorá produkuje obrovské množstvo dát a robí to stále. Inštalácia nepretržite produkuje veľké množstvo údajov a vedci ich využívajú na paralelné riešenie mnohých problémov.

Vznik veľkých dát vo verejnom priestore bol spôsobený tým, že tieto dáta zasiahli takmer všetkých ľudí a nielen vedeckú komunitu, kde sa takéto problémy riešia dlhodobo. Do verejnej sféry technológií veľké dáta vyšlo, keď sa začalo hovoriť o veľmi konkrétnom čísle – počte obyvateľov planéty. 7 miliárd sa zhromažďuje na sociálnych sieťach a iných projektoch, ktoré zhromažďujú ľudí. YouTube, Facebook, V kontakte s, kde sa počet ľudí meria v miliardách a počet operácií, ktoré vykonávajú súčasne, je obrovský. Dátovým tokom sú v tomto prípade akcie používateľa. Napríklad údaje toho istého hostingu YouTube, ktoré pretekajú sieťou v oboch smeroch. Spracovanie znamená nielen interpretáciu, ale aj schopnosť správne spracovať každú z týchto akcií, to znamená umiestniť ju na správne miesto a rýchlo sprístupniť tieto údaje každému používateľovi, keďže sociálne siete netolerujú čakanie.

Veľa z toho, čo sa týka veľkých dát, prístupov, ktoré sa používajú na ich analýzu, v skutočnosti existuje už dlho. Napríklad spracovanie obrazu z kamier, keď nehovoríme o jednom obrázku, ale o dátovom toku. Alebo navigačné roboty. Toto všetko existuje už desaťročia, práve teraz úlohy spracovania dát zasiahli oveľa väčší počet ľudí a nápadov.

Mnoho vývojárov je zvyknutých pracovať so statickými objektmi a myslieť v podmienkach stavov. Vo veľkých dátach je paradigma iná. Musíte vedieť pracovať s neutíchajúcim prúdom dát, a to je zaujímavá úloha. Ovplyvňuje čoraz viac oblastí.

V našich životoch čoraz viac hardvéru a softvéru začína generovať veľké množstvo dát – napríklad „internet vecí“.

Veci už generujú obrovské toky informácií. Policajný systém Potok odosiela informácie zo všetkých kamier a umožňuje pomocou týchto údajov nájsť autá. Do módy prichádza stále viac fitness náramkov, GPS trackerov a iných vecí, ktoré slúžia úlohám človeka a biznisu.

Moskovské ministerstvo informatizácie prijíma veľké množstvo dátových analytikov, pretože existuje veľa štatistík o ľuďoch a sú založené na viacerých kritériách (to znamená, že štatistiky sa zhromažďujú o každej osobe, o každej skupine ľudí podľa veľmi veľkého počet kritérií). V týchto údajoch je potrebné nájsť zákonitosti a tendencie. Na takéto úlohy sú potrební matematici s IT vzdelaním. Pretože v konečnom dôsledku sú údaje uložené v štruktúrovanom DBMS a musíte mať k nim prístup a získať informácie.

Predtým sme veľké dáta nepovažovali za úlohu z jednoduchého dôvodu, že ich nebolo kam uložiť a neexistovali siete na ich prenos. Keď sa tieto príležitosti objavili, údaje okamžite zaplnili celý objem, ktorý im bol poskytnutý. Ale bez ohľadu na to, ako expandujete priepustnosť a schopnosť ukladať dáta, vždy budú existovať zdroje, napr. fyzikálne experimenty, experimenty s aerodynamickým modelovaním, ktoré vytvoria viac informácií, ako dokážeme sprostredkovať. Podľa Moorovho zákona výkon modernej paralely výpočtových systémov sa neustále zvyšuje a rastie aj rýchlosť sietí na prenos dát. Údaje však musia byť schopné rýchlo uložiť a získať z média ( pevný disk a iné typy pamäte) a to je ďalšia výzva pri spracovaní veľkých dát.

Veľké údaje sú široký pojem pre inovatívne stratégie a technológie potrebné na zhromažďovanie, organizovanie a spracovanie informácií z veľkých súborov údajov. Hoci problém narábania s údajmi, ktoré presahujú výpočtový výkon alebo úložnú kapacitu jedného počítača, nie je nový, rozsah a hodnota tohto typu výpočtovej techniky sa v posledných rokoch výrazne rozšírili.

V tomto článku nájdete hlavné pojmy, s ktorými sa môžete stretnúť pri skúmaní veľkých dát. Rozoberá tiež niektoré procesy a technológie, ktoré sa v súčasnosti v tejto oblasti používajú.

Čo sú veľké dáta?

Presnú definíciu „veľkých údajov“ je ťažké definovať, pretože projekty, predajcovia, praktici a obchodní profesionáli ich používajú veľmi odlišnými spôsobmi. S ohľadom na to možno veľké dáta definovať ako:

Veľké súbory údajov.
Kategória výpočtových stratégií a technológií, ktoré sa používajú na spracovanie veľkých súborov údajov.

V tejto súvislosti „veľký súbor údajov“ znamená súbor údajov, ktorý je príliš veľký na to, aby sa dal spracovať alebo uložiť pomocou tradičných nástrojov alebo na jednom počítači. To znamená, že celkový rozsah veľkých súborov údajov sa neustále mení a môže sa výrazne líšiť od prípadu k prípadu.

Veľké dátové systémy

Základné požiadavky na prácu s veľkými dátami sú rovnaké ako pre akýkoľvek iný dátový súbor. Obrovský rozsah, rýchlosť spracovania a dátové charakteristiky, s ktorými sa stretávame v každom kroku procesu, však predstavujú vážne nové výzvy vo vývoji nástrojov. Cieľom väčšiny systémov veľkých dát je porozumieť veľkému množstvu heterogénnych dát a komunikovať s nimi spôsobom, ktorý by konvenčnými metódami nebol možný.

V roku 2001 Doug Laney zo spoločnosti Gartner predstavil „tri Vs veľkých dát“, aby opísal niektoré z charakteristík, ktoré odlišujú spracovanie veľkých dát od iných typov spracovania dát:

Objem (objem dát).
Rýchlosť (rýchlosť akumulácie a spracovania dát).
Rôznorodosť (rozmanitosť typov spracovávaných údajov).

Objem dát

Výnimočný rozsah spracovávaných informácií pomáha definovať veľké dátové systémy. Tieto súbory údajov môžu byť rádovo väčšie ako tradičné súbory údajov, čo si vyžaduje väčšiu pozornosť v každej fáze spracovania a ukladania.

Pretože požiadavky presahujú kapacitu jedného počítača, často vzniká problém združovania, distribúcie a koordinácie zdrojov zo skupín počítačov. Riadenie klastrov a algoritmy schopné rozdeliť úlohy na menšie časti sú v tejto oblasti čoraz dôležitejšie.

Rýchlosť akumulácie a spracovania

Druhou vlastnosťou, ktorá výrazne odlišuje veľké dáta od iných dátových systémov, je rýchlosť, akou sa informácia pohybuje systémom. Údaje často vstupujú do systému z viacerých zdrojov a na aktualizáciu musia byť spracované v reálnom čase Aktuálny stav systémov.

Tento dôraz na okamžitú spätnú väzbu viedol mnohých odborníkov k opusteniu dávkovo orientovaného prístupu v prospech systému streamovania v reálnom čase. Údaje sa neustále pridávajú, spracúvajú a analyzujú, aby sme držali krok s prílevom nových informácií a získali cenné údaje v ranom štádiu, keď sú najrelevantnejšie. To si vyžaduje robustné systémy s vysoko dostupnými komponentmi na ochranu pred zlyhaniami pozdĺž dátového potrubia.

Rôzne typy spracovávaných údajov

Veľké dáta majú mnoho jedinečných výziev súvisiacich so širokou škálou spracovávaných zdrojov a ich relatívnou kvalitou.

Údaje môžu pochádzať z interných systémov, ako sú denníky aplikácií a serverov, informačné kanály sociálnych médií a iné externé rozhrania API, senzory fyzických zariadení a iné zdroje. Cieľom veľkých dátových systémov je spracovávať potenciálne užitočné dáta bez ohľadu na ich pôvod spojením všetkých informácií do jedného systému.

Formáty a typy médií sa tiež môžu značne líšiť. Mediálne súbory (obrázky, video a zvuk) sa zlúčia textové súbory, štruktúrované protokoly atď. Tradičnejšie systémy spracovania údajov očakávajú, že údaje vstúpia do kanála už označené, naformátované a usporiadané, ale systémy veľkých údajov zvyčajne prijímajú a ukladajú údaje, pričom sa snažia zachovať ich pôvodný stav. V ideálnom prípade sa akékoľvek transformácie alebo úpravy nespracovaných údajov uskutočnia v pamäti počas spracovania.

Iné vlastnosti

Postupom času jednotlivci a organizácie navrhli rozšírenie pôvodných „tri V“, hoci tieto inovácie majú tendenciu popisovať skôr problémy než charakteristiky veľkých dát.

Pravdivosť: Rôznorodosť zdrojov a zložitosť spracovania môže viesť k problémom pri posudzovaní kvality údajov (a tým aj kvality výslednej analýzy).
Variabilita (premenlivosť údajov): zmena údajov vedie k veľkým zmenám v kvalite. Identifikácia, spracovanie alebo filtrovanie údajov nízkej kvality môže vyžadovať dodatočné zdroje na zlepšenie kvality údajov.
Hodnota: Konečným cieľom veľkých dát je hodnota. Niekedy sú systémy a procesy veľmi zložité, čo sťažuje používanie údajov a získavanie skutočných hodnôt.

Životný cyklus veľkých dát

Ako sa teda vlastne s veľkými dátami narába? Existuje niekoľko rôznych implementačných prístupov, ale medzi stratégiami a softvérom existujú spoločné znaky.

Zadávanie údajov do systému
Ukladanie údajov do úložiska
Výpočet a analýza údajov
Vizualizácia výsledkov

Predtým, ako sa podrobne pozrieme na tieto štyri kategórie pracovných postupov, povedzme si o cluster computingu, dôležitej stratégii používanej mnohými nástrojmi na spracovanie veľkých dát. Nastavenie výpočtového klastra je chrbtovou kosťou technológie používanej v každej fáze životného cyklu.

Cluster Computing

Vzhľadom na kvalitu veľkých dát nie sú jednotlivé počítače vhodné na spracovanie dát. Na to sú vhodnejšie klastre, pretože dokážu zvládnuť úložné a výpočtové potreby veľkých dát.

Softvér na klastrovanie veľkých dát zhromažďuje zdroje mnohých malých strojov s cieľom poskytnúť množstvo výhod:

Konsolidácia zdrojov: Spracovanie veľkých množín údajov vyžaduje veľké množstvo CPU a pamäťových zdrojov, ako aj veľa dostupného priestoru na ukladanie údajov.
Vysoká dostupnosť: Klastre môžu poskytovať rôzne úrovne odolnosti a dostupnosti, takže prístup k údajom a ich spracovanie nie je ovplyvnené zlyhaniami hardvéru alebo softvéru. Toto je obzvlášť dôležité pre analýzu v reálnom čase.
Škálovateľnosť: Klastre podporujú rýchle horizontálne škálovanie (pridávanie nových počítačov do klastra).

Ak chcete pracovať v klastri, potrebujete nástroje na správu členstva v klastri, koordináciu prideľovania zdrojov a plánovanie práce s jednotlivými uzlami. Členstvo v klastri a prideľovanie zdrojov je možné riešiť pomocou programov ako Hadoop YARN (Et Another Resource Negotiator) alebo Apache Mesos.

Prefabrikovaný výpočtový klaster často funguje ako základňa, s ktorou iná interaguje pri spracovaní údajov. softvér. Počítače zúčastňujúce sa výpočtového klastra sú tiež zvyčajne spojené s riadením distribuovaného úložiska.

Získavanie údajov

Príjem údajov je proces pridávania nespracovaných údajov do systému. Zložitosť tejto operácie do značnej miery závisí od formátu a kvality zdrojov údajov a od toho, ako údaje spĺňajú požiadavky na spracovanie.

Veľké dáta môžete do systému pridať pomocou špeciálne nástroje. Technológie ako Apache Sqoop môžu prevziať existujúce údaje z relačných databáz a pridať ich do systému veľkých údajov. Môžete tiež použiť Apache Flume a Apache Chukwa - projekty určené na agregáciu a import protokolov aplikácií a serverov. Sprostredkovatelia správ, ako je Apache Kafka, môžu byť použité ako rozhranie medzi rôznymi generátormi údajov a systémom veľkých údajov. Rámce ako Gobblin môžu kombinovať a optimalizovať výstup všetkých nástrojov na konci procesu.

Počas prijímania údajov sa zvyčajne vykonáva analýza, triedenie a označovanie. Tento proces sa niekedy označuje ako ETL (extract, transform, load), čo znamená extrahovať, transformovať a načítať. Aj keď sa tento výraz zvyčajne vzťahuje na staršie procesy ukladania, niekedy sa používa aj na systémy veľkých dát. typické operácie zahŕňajú úpravu prichádzajúcich údajov na formátovanie, kategorizáciu a označovanie, filtrovanie alebo overovanie údajov.

V ideálnom prípade prichádzajúce údaje podliehajú minimálnemu formátovaniu.

Úložisko dát

Po prijatí sa údaje prenesú do komponentov, ktoré spravujú úložisko.

Na ukladanie nespracovaných údajov sa zvyčajne používajú distribuované súborové systémy. Riešenia, ako je HDFS Apache Hadoop, vám umožňujú zapisovať veľké množstvá údajov do viacerých uzlov v klastri. Tento systém poskytuje výpočtovým prostriedkom prístup k údajom, môže načítať údaje do klastrovej RAM pre operácie s pamäťou a riešiť zlyhania komponentov. Namiesto HDFS možno použiť iné distribuované súborové systémy, vrátane Ceph a GlusterFS.

Údaje je možné importovať aj do iných distribuovaných systémov pre štruktúrovanejší prístup. Distribuované databázy, najmä databázy NoSQL, sú pre túto úlohu veľmi vhodné, pretože dokážu spracovať heterogénne údaje. Existuje mnoho rôznych typov distribuovaných databáz v závislosti od toho, ako chcete údaje organizovať a prezentovať.

Výpočet a analýza údajov

Keď sú údaje dostupné, systém môže začať spracovávať. Výpočtová úroveň je možno najvoľnejšou časťou systému, pretože požiadavky a prístupy sa tu môžu výrazne líšiť v závislosti od typu informácií. Údaje sa často opätovne spracúvajú, a to buď pomocou jediného nástroja, alebo pomocou množstva nástrojov na spracovanie rôznych typov údajov.

Dávkové spracovanie je jednou z metód výpočtu vo veľkých súboroch údajov. Tento proces zahŕňa rozdelenie údajov na menšie časti, naplánovanie spracovania každej časti na samostatnom stroji, preusporiadanie údajov na základe medzivýsledkov a potom výpočet a zhromaždenie konečného výsledku. Táto stratégia využíva MapReduce z Apache Hadoop. Dávkové spracovanie je najužitočnejšie pri práci s veľmi veľkými množinami údajov, ktoré vyžadujú pomerne veľa výpočtov.

Ostatné úlohy vyžadujú spracovanie v reálnom čase. Informácie zároveň musia byť spracované a pripravené okamžite a systém musí reagovať včas, keď budú k dispozícii nové informácie. Jedným zo spôsobov, ako implementovať spracovanie v reálnom čase, je spracovávať nepretržitý tok údajov pozostávajúci z jednotlivé prvky. Ďalší všeobecné charakteristiky procesory v reálnom čase – ide o výpočet dát v pamäti klastra, čím sa vyhnete potrebe zapisovania na disk.

Ponuka Apache Storm, Apache Flink a Apache Spark rôznymi spôsobmi implementácie spracovania v reálnom čase. Tieto flexibilné technológie vám umožňujú zvoliť si najlepší prístup pre každý individuálny problém. Vo všeobecnosti je spracovanie v reálnom čase najvhodnejšie na analýzu malých častí údajov, ktoré sa menia alebo sa rýchlo pridávajú do systému.

Všetky tieto programy sú rámce. Existuje však mnoho ďalších spôsobov, ako vypočítať alebo analyzovať údaje v systéme veľkých údajov. Tieto nástroje sa často zapájajú do vyššie uvedených rámcov a poskytujú ďalšie rozhrania na interakciu so základnými vrstvami. Napríklad Apache Hive poskytuje rozhranie dátového skladu pre Hadoop, Apache Pig poskytuje rozhranie dotazov a interakcie s SQL dáta dodávané s Apache Drill, Apache Impala, Apache Spark SQL a Presto. Strojové učenie používa Apache SystemML, Apache Mahout a MLlib od Apache Spark. Na priame analytické programovanie, ktoré je široko podporované dátovým ekosystémom, sa používa R a Python.

Vizualizácia výsledkov

Rozpoznanie trendov alebo zmien údajov v priebehu času je často dôležitejšie ako získané hodnoty. Vizualizácia údajov je jedným z najužitočnejších spôsobov identifikácie trendov a organizácie veľkého počtu údajových bodov.

Spracovanie v reálnom čase sa používa na vizualizáciu metrík aplikácií a serverov. Údaje sa často menia a veľké rozdiely v metrikách zvyčajne naznačujú významný vplyv na zdravie systémov alebo organizácií. Projekty ako Prometheus môžu byť použité na spracovanie dátových tokov a časových radov a vizualizáciu týchto informácií.

Jedným z populárnych spôsobov vizualizácie údajov je elastický zásobník, predtým známy ako zásobník ELK. Logstash sa používa na zber údajov, Elasticsearch na indexovanie údajov a Kibana na vizualizáciu. Elastic stack dokáže pracovať s veľkými dátami, vizualizovať výsledky výpočtov alebo interagovať s nespracovanými metrikami. Podobný zásobník možno získať zlúčením Apache Solr na indexovanie vidlice Kibana s názvom Banana na vizualizáciu. Takýto stoh sa nazýva hodváb.

Dokumenty sú ďalšou vizualizačnou technológiou pre interaktívnu prácu s dátami. Takéto projekty umožňujú interaktívne štúdium a vizualizáciu údajov vo formáte vhodnom pre zdieľanie a prezentáciu údajov. Populárnymi príkladmi tohto typu rozhrania sú Jupyter Notebook a Apache Zeppelin.

Slovník veľkých dát

Veľké údaje sú široký pojem pre súbory údajov, ktoré nie je možné správne spracovať bežnými počítačmi alebo nástrojmi z dôvodu ich veľkosti, rýchlosti a rozmanitosti. Tento termín sa bežne používa aj pri technológiách a stratégiách narábania s takýmito údajmi.
Dávkové spracovanie je výpočtová stratégia, ktorá zahŕňa spracovanie údajov vo veľkých súboroch. Táto metóda je zvyčajne ideálna na spracovanie údajov, ktoré nie sú naliehavé.
Clustered computing je prax združovania zdrojov viacerých strojov a riadenia ich kombinovaných schopností vykonávať úlohy. To si vyžaduje vrstvu správy klastrov, ktorá sa stará o komunikáciu medzi jednotlivými uzlami.
Dátové jazero je veľké úložisko zozbieraných údajov v relatívne surovom stave. Tento termín sa často používa na označenie neštruktúrovaných a často sa meniacich veľkých dát.
Data mining je široký pojem pre rôzne praktiky hľadania vzorov vo veľkých súboroch údajov. Ide o pokus usporiadať množstvo údajov do zrozumiteľnejšieho a súvislejšieho súboru informácií.
Dátový sklad je veľké, organizované úložisko na analýzu a podávanie správ. Na rozdiel od dátového jazera sklad pozostáva z formátovaných a dobre usporiadaných údajov, ktoré sú integrované s inými zdrojmi. Dátové sklady sú často označované v súvislosti s veľkými dátami, ale často sú súčasťou konvenčných systémov spracovania dát.
ETL (extrah, transform, and load) - extrahovanie, transformácia a načítanie dát. Takto vyzerá proces získavania a prípravy nespracovaných dát na použitie. Je spojený s dátovými skladmi, ale charakteristiky tohto procesu sa nachádzajú aj v potrubiach veľkých dátových systémov.
Hadoop je open source projekt Apache pre veľké dáta. Pozostáva z distribuovaných systém súborov s názvom HDFS a plánovač klastrov a zdrojov s názvom YARN. Možnosti dávkového spracovania poskytuje výpočtový stroj MapReduce. S MapReduce môžu moderné nasadenia Hadoop spúšťať ďalšie výpočtové a analytické systémy.
In-memory computing je stratégia, ktorá zahŕňa presun pracovných množín údajov úplne do pamäte klastra. Priebežné výpočty sa nezapisujú na disk, ale ukladajú sa do pamäte. To dáva systémom obrovskú výhodu rýchlosti oproti systémom viazaným na I/O.
Strojové učenie je štúdium a prax navrhovania systémov, ktoré sa môžu učiť, ladiť a zlepšovať na základe údajov, ktoré dostávajú. Zvyčajne to znamená implementáciu prediktívnych a štatistických algoritmov.
Map reduction (nezamieňať s MapReduce od Hadoopu) je algoritmus plánovania klastra. Proces zahŕňa rozdelenie úlohy medzi uzly a získanie medzivýsledkov, premiešanie a potom výstup jednej hodnoty pre každú množinu.
NoSQL je široký pojem pre databázy navrhnuté mimo tradičného relačného modelu. NoSQL databázy sú vhodné pre veľké dáta vďaka svojej flexibilite a distribuovanej architektúre.
Streamovanie je prax výpočtu jednotlivých položiek údajov, keď sa pohybujú systémom. To umožňuje analýzu údajov v reálnom čase a je vhodné na spracovanie časovo kritických transakcií pomocou vysokorýchlostných metrík.

Značky: ,

Len ten lenivý nehovorí o Big data, ale takmer nerozumie, čo to je a ako to funguje. Začnime tým najjednoduchším – terminológiou. Keď hovoríme po rusky, veľké údaje sú rôzne nástroje, prístupy a metódy na spracovanie štruktúrovaných aj neštruktúrovaných údajov s cieľom použiť ich na konkrétne úlohy a účely.

Neštruktúrované údaje sú informácie, ktoré nemajú vopred určenú štruktúru alebo nie sú usporiadané v určitom poradí.

Termín „veľké dáta“ zaviedol editor Nature Clifford Lynch v roku 2008 v špeciálnom vydaní o explozívnom raste svetového objemu informácií. Aj keď, samozrejme, samotné veľké dáta existovali aj predtým. Väčšina dátových tokov nad 100 GB za deň patrí podľa odborníkov do kategórie Big data.

Prečítajte si tiež:

Dnes sa pod týmto jednoduchým pojmom ukrývajú len dve slová – ukladanie a spracovanie dát.

Veľké dáta – jednoduchými slovami

AT modernom svete Veľké dáta sú sociálno-ekonomický fenomén, ktorý súvisí so skutočnosťou, že sa objavili nové technologické príležitosti na analýzu obrovského množstva dát.

Prečítajte si tiež:

Pre ľahšie pochopenie si predstavte supermarket, v ktorom nie je všetok tovar v poradí, na aké ste zvyknutí. Chlieb vedľa ovocia, paradajkový pretlak vedľa mrazenej pizze, ľahšia tekutina vedľa stojana s tampónmi, ktorý obsahuje okrem iného avokádo, tofu alebo huby shiitake. Big data dajú všetko na svoje miesto a pomôžu vám nájsť orechové mlieko, zistiť cenu a dátum spotreby a tiež, kto okrem vás takéto mlieko kupuje a v čom je lepšie ako kravské.

Kenneth Cookier: Veľké dáta sú lepšie dáta

Technológia veľkých dát

Spracováva sa obrovské množstvo údajov, aby človek mohol získať konkrétne a potrebné výsledky pre ich ďalšiu efektívnu aplikáciu.

Prečítajte si tiež:

V skutočnosti sú Big data riešením problémov a alternatívou k tradičným systémom správy údajov.

Techniky a metódy analýzy použiteľné pre veľké dáta podľa McKinseyho:

dolovanie údajov;
crowdsourcing;
Miešanie a integrácia údajov;
strojové učenie;
Umelé neurónové siete;
Rozpoznávanie vzorov;
Prediktívna analytika;
simulačné modelovanie;
Priestorová analýza;
Štatistická analýza;
Vizualizácia analytických údajov.

Horizontálna škálovateľnosť, ktorá umožňuje spracovanie dát, je základným princípom spracovania veľkých dát. Údaje sú distribuované do výpočtových uzlov a spracovanie prebieha bez zníženia výkonu. McKinsey do kontextu použiteľnosti zahrnul aj systémy relačného riadenia a Business Intelligence.

Technológia:

NoSQL;
MapReduce;
hadoop;
Hardvérové riešenia.

Prečítajte si tiež:

Pre veľké dáta existujú tradičné definujúce charakteristiky vyvinuté skupinou Meta už v roku 2001, ktoré sa nazývajú „ Tri V»:

Objem- hodnota fyzického objemu.
Rýchlosť- rýchlosť rastu a potreba rýchleho spracovania údajov na získanie výsledkov.
Rozmanitosť- schopnosť súčasne spracovávať odlišné typyúdajov.

Veľké dáta: aplikácia a príležitosti

Objemy heterogénnych a rýchlo prichádzajúcich digitálnych informácií nie je možné spracovať tradičnými nástrojmi. Samotná analýza údajov vám umožňuje vidieť určité a nepostrehnuteľné vzorce, ktoré človek nevidí. To nám umožňuje optimalizovať všetky oblasti nášho života – od kontrolovaná vládou do výroby a telekomunikácií.

Niektoré firmy napríklad pred pár rokmi chránili svojich zákazníkov pred podvodmi a starať sa o peniaze klienta je starostlivosť o vlastné peniaze.

Susan Atliger: A čo veľké dáta?

Riešenia založené na veľkých dátach: Sberbank, Beeline a ďalšie spoločnosti

Beeline má obrovské množstvo údajov o predplatiteľoch, ktoré využívajú nielen na prácu s nimi, ale aj na vytváranie analytických produktov, ako sú externé poradenstvo alebo analytika IPTV. Beeline segmentoval databázu a chránil klientov pred peňažnými podvodmi a vírusmi pomocou HDFS a Apache Spark na ukladanie a Rapidminer a Python na spracovanie údajov.

Prečítajte si tiež:

Alebo si spomeňte na Sberbank s ich starým prípadom s názvom AS SAFI. Ide o systém, ktorý analyzuje fotografie s cieľom identifikovať klientov bánk a predchádzať podvodom. Systém bol predstavený ešte v roku 2014, systém je založený na porovnávaní fotografií z databázy, ktoré sa tam dostanú z webkamier na stojanoch vďaka počítačovému videniu. Základom systému je biometrická platforma. Vďaka tomu sa prípady podvodov znížili 10-krát.

Veľké dáta vo svete

Do roku 2020 podľa predpovedí ľudstvo vytvorí 40-44 zettabajtov informácií. A do roku 2025 porastie 10-krát, podľa správy The Data Age 2025, ktorú pripravili analytici IDC. V správe sa uvádza, že väčšinu údajov vygenerujú samotné podniky, nie bežní spotrebitelia.

Analytici štúdie veria, že údaje sa stanú životne dôležitým aktívom a bezpečnosť - kritickým základom života. Autori práce sú tiež presvedčení, že technológie zmenia ekonomickú krajinu a bežný používateľ bude komunikovať s pripojenými zariadeniami približne 4800-krát denne.

Veľký dátový trh v Rusku

V roku 2017 by mali globálne príjmy na trhu s veľkými dátami dosiahnuť 150,8 miliardy dolárov, čo je o 12,4 % viac ako minulý rok. V globálnom meradle je ruský trh pre veľké dátové služby a technológie stále veľmi malý. V roku 2014 to americká spoločnosť IDC odhadla na 340 miliónov dolárov.V Rusku sa technológia používa v bankovníctve, energetike, logistike, verejnom sektore, telekomunikáciách a priemysle.

Prečítajte si tiež:

Čo sa týka dátového trhu, ten je v Rusku len v plienkach. V rámci ekosystému RTB sú poskytovatelia údajov vlastníkmi platforiem na správu programových údajov (DMP) a výmeny údajov. Telekomunikační operátori pilotne zdieľajú spotrebiteľské informácie o potenciálnych dlžníkoch s bankami.

Veľké dáta zvyčajne pochádzajú z troch zdrojov:

Internet (sociálne siete, fóra, blogy, médiá a iné stránky);
Firemné archívy dokumentov;
Indikácie snímačov, prístrojov a iných zariadení.

Veľké dáta v bankách

Okrem vyššie opísaného systému v stratégii Sberbank na roky 2014-2018. hovorí o dôležitosti analýzy súborov super dát pre kvalitný zákaznícky servis, riadenie rizík a optimalizáciu nákladov. Banka teraz používa Big Data na riadenie rizík, boj proti podvodom, segmentáciu a hodnotenie bonity zákazníkov, riadenie personálu, predpovedanie radov na pobočkách, výpočet bonusov pre zamestnancov a ďalšie úlohy.

VTB24 používa veľké dáta na segmentáciu a správu odchodu zákazníkov, generovanie finančných výkazov a analýzu recenzií na sociálnych sieťach a fórach. Na tento účel používa riešenia Teradata, SAS Visual Analytics a SAS Marketing Optimizer.

Pravidelne narážame na buzzwordy a definície, ktorých význam sa nám zdá byť intuitívne jasný, no nemáme jasnú predstavu o tom, čo je to jedno a ako to funguje.

Jedným z týchto pojmov sú Big Data, v ruštine niekedy nájdete doslovný preklad - „veľké dáta“, ale ľudia častejšie hovoria a píšu tak, ako to je: Big Data. Túto frázu na internete už asi každý počul alebo sa aspoň stretol a zdá sa, že je to jednoduché, no kancelárskym humanistom, ktorí majú ďaleko od spletitosti digitálneho sveta, nie je vždy jasné, o čo presne ide.

Výborným pokusom vyplniť túto medzeru v mozgoch najširšieho okruhu používateľov je článok jedného z našich obľúbených autorov Bernarda Marra, ktorý sa tzv. „Čo sú veľké dáta? Super jednoduché vysvetlenie pre každého“. Bez nejasného žargónu s jediným cieľom vysvetliť kľúčové myšlienky tohto fenoménu pre každého, bez ohľadu na vzdelanie a oblasť pôsobenia.

V skutočnosti už niekoľko posledných rokov žijeme vo svete, ktorý je skrz-naskrz preniknutý veľkými dátami, no stále sme zmätení v chápaní toho, čo je to isté. Čiastočne je to spôsobené tým, že samotný koncept Big Data sa neustále transformuje a prehodnocuje, pretože svet špičkových technológií a spracovania veľkého množstva informácií sa veľmi rýchlo mení, vrátane stále nových a nových možností. A objem týchto informácií neustále rastie.

Čo teda znamenajú Big Data – 2017?

Všetko to začalo prudkým nárastom množstva údajov, ktoré vytvárame od začiatku digitálna doba. Umožnil to najmä rast počtu a výkonu počítačov, rozšírenie internetu a rozvoj technológií schopných zachytiť informácie z reálneho, fyzického sveta, v ktorom všetci žijeme, a previesť ich na digitálne dáta.

V roku 2017 produkujeme údaje, keď sme online, keď používame naše smartfóny vybavené GPS, keď chatujeme s priateľmi na sociálnych sieťach, keď sťahujeme mobilných aplikácií alebo hudbu pri nakupovaní.

Dá sa povedať, že zanechávame za sebou množstvo digitálnych stôp, nech robíme čokoľvek, ak naše činy zahŕňajú akékoľvek digitálne transakcie. To je takmer vždy a všade.

Množstvo dát generovaných samotnými strojmi navyše rastie obrovskou rýchlosťou. Údaje sa vytvárajú a prenášajú, keď naše inteligentné zariadenia medzi sebou komunikujú. Výrobné závody po celom svete sú vybavené zariadením, ktoré zbiera a prenáša dáta vo dne aj v noci.

V blízkej budúcnosti sa naše ulice zaplnia samojazdiacimi autami, ktoré sa sami riadia na základe 4D máp generovaných v reálnom čase.

Čo dokážu veľké dáta?

Nekonečne rastúci prúd zmyslových informácií, fotografií, textové správy, audio a video dáta sú jadrom Big Data, ktoré môžeme využiť spôsobmi, ktoré boli ešte pred niekoľkými rokmi nepredstaviteľné.

Práve teraz projekty založené na veľkých dátach pomáhajú:

- Liečiť choroby a predchádzať rakovine. Medicína založená na veľkých dátach analyzuje obrovské množstvo lekárskych záznamov a obrázkov, čo umožňuje veľmi skorú diagnostiku a prispieva k vytvoreniu nových liečebných postupov.

- Bojujte s hladom. Poľnohospodárstvo zažíva skutočnú revolúciu veľkých dát, ktorá umožňuje využívať zdroje spôsobom, ktorý maximalizuje výnosy s minimálnym zásahom do ekosystému a optimalizuje využitie strojov a zariadení.

- Objavte vzdialené planéty. NASA napríklad analyzuje obrovské množstvo údajov a s ich pomocou vytvára modely budúcich misií do vzdialených svetov.

- Predvídať núdzové situácie iného charakteru a minimalizovať možné škody. Údaje z mnohých senzorov môžu predpovedať, kde a kedy dôjde k ďalšiemu zemetraseniu alebo možnému správaniu ľudí v núdzovýčo zvyšuje šance na prežitie.

- Zabrániť kriminalite pomocou technológií, ktoré umožňujú efektívnejšie prideľovanie zdrojov a nasmerujú ich tam, kde sú najviac potrebné.

A čo je väčšine z nás najbližšie: Big Data tvoria život obyčajný človek jednoduchšie a pohodlnejšie – to je online nakupovanie, plánovanie ciest a navigácia v metropole.

Vyberte si najlepší čas Kúpa leteniek a rozhodovanie o tom, ktorý film alebo seriál si pozriete, je vďaka práci Big Data oveľa jednoduchšie.

Ako to funguje?

Big Data fungujú na princípe, že čím viac o niečom viete, tým presnejšie viete predpovedať, čo sa stane v budúcnosti. Porovnanie jednotlivých údajov a vzťahov medzi nimi (hovoríme o obrovskom množstve údajov a neskutočne veľkom množstve možných súvislostí medzi nimi) odhaľuje doteraz skryté vzorce. To umožňuje nahliadnuť do vnútra problému a v konečnom dôsledku pochopiť, ako môžeme riadiť ten či onen proces.

Proces spracovania veľkého množstva informácií najčastejšie zahŕňa vytváranie modelov na základe zozbieraných údajov a spúšťanie simulácií, počas ktorých sa premenné neustále menia. kľúčové nastavenia, pričom zakaždým systém sleduje, ako „zmena nastavení“ vplýva na možný výsledok.

Tento proces je plne automatizovaný, pretože hovoríme o analýze miliónov simulácií, o výpočte všetkých možnosti až do okamihu, kým sa nenájde vzor (požadovaná schéma) alebo kým nedôjde k „osvieteniu“, čo pomôže vyriešiť problém, pre ktorý sa všetko začalo.

Na rozdiel od nám známeho sveta objektov a výpočtov sa údaje prijímajú v neštruktúrovanej forme, to znamená, že je ťažké ich vložiť do tabuliek s bunkami a stĺpcami, ktoré poznáme my, ľudia. Obrovské množstvo údajov sa prenáša ako obrázky alebo videá: od satelitných snímok až po selfie, ktoré uverejníte na Instagrame alebo Facebooku – rovnako ako záznamy v e-mailoch a messengeroch alebo telefonáty.

Aby celý tento nekonečný a pestrý tok údajov mal praktický zmysel, Big Data často používajú najpokročilejšie analytické technológie, medzi ktoré patrí umelá inteligencia a strojové učenie(to je, keď program v počítači učí iné programy).

Samotné počítače sa učia určovať, čo tá či oná informácia predstavuje – napríklad rozpoznávať obrázky, jazyk – a dokážu to oveľa rýchlejšie ako ľudia.

Veľký brat?

Úmerne s bezprecedentnými možnosťami, ktoré nám dnes Big Data poskytujú, rastie počet obáv a otázok spojených s ich využívaním.

SÚKROMIE OSOBNÝCH ÚDAJOV. Big Data zhromažďujú obrovské množstvo informácií o našom súkromnom živote. Je veľa informácií, ktoré by sme najradšej utajili.

BEZPEČNOSŤ. Aj keď sa rozhodneme, že nie je nič zlé na prenose všetkých našich osobných údajov do stroja na nejaký konkrétny účel, ktorý je pre nás výhodný, môžeme si byť istí, že naše údaje sú uložené na bezpečnom mieste?
Kto a ako to môžeme zaručiť?

DISKRIMINÁCIA. Keď je všetko známe, je prijateľné diskriminovať ľudí na základe toho, čo sa o nich vie vďaka Big Data? Banky používajú vašu úverovú históriu a poisťovne stanovujú ceny poistenia auta na základe toho, čo o vás vedia. Ako ďaleko to môže zájsť?

Dá sa predpokladať, že v záujme minimalizácie rizík spoločnosti, vládne orgány a dokonca aj jednotlivci využijú to, čo sa o nás môžu dozvedieť, a z nejakého dôvodu obmedzia náš prístup k zdrojom a informáciám.

So všetkými výhodami musíme uznať, že všetky tieto obavy sú tiež neoddeliteľnou súčasťou veľkých dát. Vedci si donedávna lámali hlavu nad odpoveďami, no teraz prišiel čas, keď vlna zasiahla biznis, ktorý chce výhody Big Data využiť na svoje účely. A to môže byť plné katastrofálnych následkov.