Скорост в свойствата на големи данни. Big Data - какво представляват системите за големи данни? Развитие на Big Data технологии. Големи данни за охраната на реда и закона

Постоянното ускоряване на растежа на данните е неразделна част от днешните реалности. Социални мрежи, мобилни устройства, данни от измервателни уреди, бизнес информация - това са само няколко вида източници, които могат да генерират огромни количества данни.

В момента терминът Големи данни (Големи данни) стана доста разпространен. Далеч не всеки все още е наясно колко бързо и дълбоко технологиите за обработка на големи количества данни променят най-разнообразните аспекти на обществото. Промените настъпват в различни области, пораждайки нови проблеми и предизвикателства, включително в областта на информационна сигурност, където такива важни аспекти като конфиденциалност, интегритет, наличност и т.н. трябва да бъдат на преден план.

За съжаление, много съвременни компании прибягват до технологията Big Data, без да създадат подходящата инфраструктура за това, която биха могли да осигурят сигурно съхранениеогромни количества данни, които събират и съхраняват. От друга страна, в момента бързо се развива блокчейн технологията, която е предназначена да реши този и много други проблеми.

Какво е Big Data?

Всъщност дефиницията на термина лежи на повърхността: „големи данни“ означава управление на много големи количества данни, както и техния анализ. Ако погледнете по-широко, това е информация, която не може да бъде обработена с класически методи поради големия си обем.

Самият термин Big Data (големи данни) се появи сравнително наскоро. Според услугата Google Trends активният растеж на популярността на термина пада в края на 2011 г.:

През 2010 г. започнаха да се появяват първите продукти и решения, пряко свързани с обработката на големи данни. До 2011 г. повечето от най-големите ИТ компании, включително IBM, Oracle, Microsoft и Hewlett-Packard, активно използват термина Big Data в своите бизнес стратегии. Постепенно пазарни анализатори информационни технологиизапочва активно изследване на тази концепция.

В момента този термин придоби значителна популярност и се използва активно в различни области. Въпреки това не може да се каже със сигурност, че Big Data е някакъв принципно нов феномен - напротив, големите източници на данни съществуват от много години. В маркетинга те могат да бъдат бази данни за покупки на клиенти, кредитна история, начин на живот и др. През годините анализаторите са използвали тези данни, за да помогнат на компаниите да предскажат бъдещи нужди на клиентите, да оценят риска, да оформят потребителските предпочитания и др.

В момента ситуацията се е променила в два аспекта:

— Появиха се по-сложни инструменти и методи за анализиране и сравняване на различни масиви от данни;
— Инструментите за анализ бяха допълнени от много нови източници на данни, водени от широко разпространената цифровизация, както и нови методи за събиране и измерване на данни.

Изследователите прогнозират, че технологиите за големи данни ще се използват най-активно в производството, здравеопазването, търговията, публичната администрация и в други много разнообразни области и индустрии.

Big Data не е конкретен масив от данни, а набор от методи за тяхната обработка. Определящата характеристика на големите данни е не само техният обем, но и други категории, които характеризират трудоемките процеси на обработка и анализ на данни.

Изходните данни за обработка могат да бъдат например:

— дневници на поведението на интернет потребителите;
— интернет на нещата;
- социална медия;
— метеорологични данни;
— дигитализирани книги на най-големите библиотеки;
- GPS сигнали от Превозно средство;
— информация за транзакции на банкови клиенти;
- данни за местоположението на абоната мобилни мрежи;
— информация за покупки в големи търговски вериги и др.

С течение на времето количеството данни и броят на техните източници непрекъснато нараства и на този фон се появяват нови методи за обработка на информация и се подобряват съществуващите методи за обработка на информация.

Основни принципи на Big Data:

- Хоризонтална мащабируемост - масивите от данни могат да бъдат огромни и това означава, че системата за обработка на големи данни трябва динамично да се разширява с нарастването на техните обеми.
- Устойчивост на грешки - дори ако някои части от оборудването се повредят, цялата система трябва да остане работеща.
— Локалност на данните. В големите разпределени системи данните обикновено се разпределят върху значителен брой машини. Въпреки това, когато е възможно и с цел пестене на ресурси, данните често се обработват на същия сървър, на който се съхраняват.

За стабилната работа на трите принципа и съответно високата ефективност на съхранение и обработка на големи данни са необходими нови пробивни технологии, като например блокчейн.

За какво са големи данни?

Обхватът на Big Data непрекъснато се разширява:

— Големите данни могат да се използват в медицината. По този начин е възможно да се установи диагноза за пациент не само въз основа на данните от анализа на медицинската история, но и като се вземе предвид опитът на други лекари, информация за екологичната ситуация в района на пребиваване на пациента , както и много други фактори.
— Технологиите за големи данни могат да се използват за организиране на движението на безпилотни превозни средства.
— Чрез обработка на големи количества данни е възможно да се разпознават лица във фотографски и видео материали.
- Big Data технологиите могат да се използват от търговците на дребно - търговските компании могат активно да използват масиви от данни от социални мрежиза ефективно персонализиранетехните рекламни кампании, които могат да бъдат максимално фокусирани върху един или друг потребителски сегмент.
Тази технологиясе използва активно при организирането на предизборни кампании, включително за анализ на политическите предпочитания в обществото.
— Използването на технологии за големи данни е подходящо за решения от класа за осигуряване на доходи (RA), които включват инструменти за откриване на несъответствия и задълбочен анализ на данни, които позволяват своевременно идентифициране на вероятни загуби или изкривявания на информация, които могат да доведат до намаляване на финансовите резултати .
— Доставчиците на телекомуникационни услуги могат да събират големи данни, включително данни за геолокация; от своя страна тази информация може да бъде от търговски интерес за рекламните агенции, които могат да я използват за показване на целева и местна реклама, както и за търговци на дребно и банки.
„Големите данни могат да играят важна роля при вземането на решение дали да отворите търговски обект на определено място въз основа на данни за наличието на мощен целеви поток от хора.

По този начин най-очевидното практическо приложение на технологията Big Data е в областта на маркетинга. Благодарение на развитието на интернет и разпространението на всички видове комуникационни устройства, данните за поведението (като броя на обажданията, навиците за пазаруване и покупките) стават достъпни в реално време.

Технологиите за големи данни могат да се използват ефективно и във финансите, социологическите изследвания и много други области. Експертите твърдят, че всички тези възможности за използване на големи данни са само видимата част от айсберга, тъй като тези технологии се използват в много по-голяма степен в разузнаването и контраразузнаването, във военното дело, както и във всичко, което обикновено се нарича информационна война .

Най-общо последователността на работа с Big Data се състои от събиране на данни, структуриране на получената информация с помощта на отчети и табла за управление и след това формулиране на препоръки за действие.

Нека разгледаме накратко възможностите за използване на технологиите за големи данни в маркетинга. Както знаете, за маркетолога информацията е основният инструмент за прогнозиране и изготвяне на стратегии. Анализът на големи данни отдавна се използва успешно за определяне целева аудитория, интереси, търсене и активност на потребителите. Анализът на големи данни, по-специално, прави възможно показването на реклами (на базата на RTB аукционния модел - Real Time Bidding) само на онези потребители, които се интересуват от продукт или услуга.

Използването на Big Data в маркетинга позволява на бизнесмените да:

- разпознавайте по-добре вашите потребители, привличайте подобна аудитория в интернет;
- оценка на степента на удовлетвореност на клиента;
— да се разбере дали предлаганата услуга отговаря на очакванията и нуждите;
- намиране и прилагане на нови начини за повишаване на доверието на клиентите;
— създаване на проекти, които се търсят и т.н.

Например услугата Google.trends може да каже на маркетолог прогноза за сезонна активност на търсенето за определен продукт, колебания и география на кликванията. Ако сравните тази информация със статистиката, събрана от съответния плъгин на вашия сайт, можете да направите план за разпределение на рекламния бюджет, като посочите месец, регион и други параметри.

Според много изследователи именно в сегментирането и използването на Big Data се крие успехът на кампанията на Тръмп. Екипът на бъдещия президент на САЩ успя правилно да раздели публиката, да разбере нейните желания и да покаже точно посланието, което избирателите искат да видят и чуят. И така, според Ирина Белишева от Data-Centric Alliance, победата на Тръмп до голяма степен се дължи на нестандартен подход към интернет маркетинга, който се основава на големи данни, психолого-поведенчески анализ и персонализирана реклама.

Политическите технолози и търговци на Тръмп използваха специално разработена математически модел, което направи възможно задълбочено анализиране на данните на всички гласоподаватели в САЩ и тяхното систематизиране, като направи ултра прецизно таргетиране не само по географски характеристики, но и по намерения, интереси на избирателите, техния психотип, поведенчески характеристики и т.н. След това маркетолозите организира персонализирана комуникация с всяка от групите граждани въз основа на техните нужди, настроения, политически възгледи, психологически характеристики и дори цвят на кожата, използвайки собствено послание за почти всеки отделен избирател.

Що се отнася до Хилари Клинтън, тя използва „проверени във времето“ методи, базирани на социологически данни и стандартен маркетинг в кампанията си, разделяйки електората само на формално хомогенни групи (мъже, жени, афро-американци, испанци, бедни, богати и т.н.) .

В резултат на това победител беше този, който оцени потенциала на новите технологии и методи за анализ. Трябва да се отбележи, че разходите за кампанията на Хилари Клинтън бяха два пъти по-големи от тези на нейния опонент:

Данни: Pew Research

Основните проблеми при използването на Big Data

В допълнение към високата цена, един от основните фактори, възпрепятстващи въвеждането на големи данни в различни области, е проблемът с избора на данните, които да бъдат обработени: т.е. определянето кои данни трябва да бъдат извлечени, съхранени и анализирани и кои не трябва да се вземат предвид.

Друг проблем на големите данни е етичен. С други думи, има легитимен въпрос: може ли такова събиране на данни (особено без знанието на потребителя) да се счита за нарушаване на границите на поверителност?

Не е тайна, че информацията, съхранявана в търсачките Google системии Yandex, позволява на ИТ гигантите непрекъснато да подобряват услугите си, да ги правят лесни за използване и да създават нови интерактивни приложения. За целта търсачките събират потребителски данни за активността на потребителите в Интернет, IP адреси, данни за геолокация, интереси и онлайн покупки, лични данни, имейл съобщения и др. Всичко това позволява показване на контекстна реклама в съответствие с поведението на потребителите в Интернет. В същото време обикновено не се иска съгласието на потребителите за това и не се дава избор каква информация за себе си да предостави. Тоест по подразбиране всичко се събира в Big Data, които след това ще се съхраняват на сървърите за данни на сайтовете.

От това следва следното важен проблемотносно сигурността на съхранението и използването на данни. Например, е конкретна платформа за анализ, която потребителите в автоматичен режимпрехвърляне на техните данни? Освен това много представители на бизнеса отбелязват недостиг на висококвалифицирани анализатори и търговци, които са в състояние ефективно да работят с големи количества данни и да решават конкретни бизнес проблеми с тяхна помощ.

Въпреки всички трудности с внедряването на Big Data, бизнесът възнамерява да увеличи инвестициите в тази област. Според проучване на Gartner лидерите на индустриите, инвестиращи в Big Data, са медии, търговия на дребно, телекомуникации, банкиране и компании за услуги.

Перспективи за взаимодействие между блокчейн технологиите и Big Data

Интегрирането с големи данни има синергичен ефект и отваря широка гама от нови възможности за бизнеса, включително позволявайки:

— получите достъп до подробна информация за потребителските предпочитания, въз основа на която можете да изградите подробна информация аналитични профилиза конкретни доставчици, стоки и продуктови компоненти;
- интегриране на подробни данни за транзакции и статистика за потреблението на определени групи стоки от различни категории потребители;
- получаване на подробни аналитични данни за веригите за доставка и потребление, контрол на загубите на продукти по време на транспортиране (например загуба на тегло поради свиване и изпаряване на определени видове стоки);
– противодействие на фалшивите продукти, повишаване на ефективността на борбата с прането на пари и измамите и др.

Достъпът до подробни данни за използването и потреблението на стоки до голяма степен ще отключи потенциала на технологията Big Data за оптимизиране на ключови бизнес процеси, намаляване на регулаторните рискове и отваряне на нови възможности за монетизация и създаване на продукти, които най-добре ще отговарят на текущите потребителски предпочитания.

Както знаете, представители на най-големите финансови институции вече проявяват значителен интерес към блокчейн технологията, включително и т.н. Според Оливър Бусман, ИТ мениджър на швейцарския финансов холдинг UBS, блокчейн технологията може да „намали времето за обработка на транзакции от няколко дни до няколко минути”.

Потенциалът за анализ от блокчейн с помощта на технологията Big Data е огромен. Технологията на разпределения регистър гарантира целостта на информацията, както и надеждно и прозрачно съхранение на цялата история на транзакциите. Големите данни от своя страна предоставят нови инструменти за ефективен анализ, прогнозиране, икономическо моделиране и съответно откриват нови възможности за вземане на по-информирани управленски решения.

Тандемът между блокчейн и Big Data може успешно да се използва в здравеопазването. Както знаете, несъвършените и непълни данни за здравословното състояние на пациента в пъти увеличават риска от поставяне на неправилна диагноза и неправилно предписано лечение. Критичните данни за здравето на клиентите на лечебните заведения трябва да бъдат максимално защитени, да притежават свойствата на неизменност, да могат да бъдат проверявани и да не подлежат на манипулации.

Информацията в блокчейна отговаря на всички горепосочени изисквания и може да служи като висококачествен и надежден източник на данни за задълбочен анализ с помощта на новите технологии за големи данни. В допълнение, използвайки блокчейн, медицинските институции биха могли да обменят надеждни данни със застрахователни компании, правосъдни органи, работодатели, академични институции и други организации, които се нуждаят от медицинска информация.

Големи данни и информационна сигурност

В широк смисъл информационната сигурност е защитата на информацията и поддържащата инфраструктура от случайни или умишлени отрицателни въздействия от естествен или изкуствен характер.

В областта на информационната сигурност Big Data е изправен пред следните предизвикателства:

— Проблеми със защитата на данните и гарантирането на тяхната цялост;
— риска от външна намеса и изтичане на поверителна информация;
— неправилно съхранение на поверителна информация;
- риск от загуба на информация, например поради нечии злонамерени действия;
— риск от злоупотреба с лични данни от трети страни и др.

Един от основните проблеми на големите данни, които блокчейнът е предназначен да реши, е в областта на информационната сигурност. Осигурявайки съответствие с всички свои основни принципи, технологията на разпределената книга може да гарантира целостта и надеждността на данните и поради липсата на една точка на повреда, блокчейн прави работата стабилна. информационни системи. Технологията на разпределения регистър може да помогне за решаването на проблема с доверието на данните, както и да предостави възможност за универсален обментях.

Информацията е ценен актив, което означава, че основните аспекти на информационната сигурност трябва да бъдат на преден план. За да оцелеят в конкуренцията, компаниите трябва да са в крак с времето, което означава, че не могат да пренебрегнат потенциалните възможности и предимства, които блокчейн технологията и инструментите за големи данни съдържат.

В рускоезичната среда се използва като термин голяма информацияи концепцията за „големи данни“. Терминът "големи данни" е следа от английски термин. Големите данни нямат строго определение. Невъзможно е да се постави ясна граница - 10 терабайта ли са или 10 мегабайта? Самото име е много субективно. Думата "голям" е като "един, два, много" сред първобитните племена.

Съществува обаче утвърдено мнение, че големите данни са набор от технологии, които са предназначени да извършват три операции. Първо, за обработка на по-големи количества данни в сравнение със "стандартните" сценарии. Второ, да можете да работите с бързо входящи данни в много големи обеми. Тоест има не просто много данни, но постоянно се увеличават и увеличават. Трето, те трябва да могат да работят паралелно със структурирани и лошо структурирани данни в различни аспекти. Големите данни предполагат, че алгоритмите получават поток от информация, който не винаги е структуриран и че от него могат да бъдат извлечени повече от една идея.

Типичен пример за големи данни е информацията, идваща от различни физически експериментални съоръжения - например от , която произвежда огромно количество данни и го прави през цялото време. Инсталацията непрекъснато произвежда големи количества данни и учените ги използват за решаване на много проблеми паралелно.

Появата на големи данни в публичното пространство се дължи на факта, че тези данни засягат почти всички хора, а не само научната общност, където подобни проблеми са решени отдавна. В общественото царство на технологиите голяма информацияизлезе, когато започна да се говори за много конкретно число - броят на жителите на планетата. 7 милиарда се събират в социалните мрежи и други проекти, които събират хора. YouTube, Facebook, Във връзка с, където броят на хората се измерва в милиарди, а броят на операциите, които извършват едновременно е огромен. Потокът от данни в този случай е действията на потребителя. Например данните на същия хостинг YouTube, които текат по мрежата в двете посоки. Обработката означава не само интерпретация, но и способността правилно да се обработва всяко от тези действия, тоест да се постави на правилното място и бързо да се направят тези данни достъпни за всеки потребител, тъй като социалните мрежи не толерират чакане.

Голяма част от това, което се отнася до големите данни, подходите, които се използват за анализирането им, всъщност съществуват от дълго време. Например обработката на изображения от камери за наблюдение, когато говорим не за една снимка, а за поток от данни. Или навигационни роботи. Всичко това съществува от десетилетия, просто сега задачите за обработка на данни са засегнали много по-голям брой хора и идеи.

Много разработчици са свикнали да работят със статични обекти и да мислят от гледна точка на състояния. При големите данни парадигмата е различна. Трябва да можете да работите с непрекъснат поток от данни и това е интересна задача. Засяга все повече области.

В живота ни все повече хардуер и софтуер започват да генерират голямо количество данни – например „Интернет на нещата“.

Нещата вече генерират огромни потоци от информация. Полицейската система Potok изпраща информация от всички камери и ви позволява да намирате автомобили, използвайки тези данни. На мода навлизат все повече фитнес гривни, GPS тракери и други неща, които обслужват задачите на човек и бизнес.

Московският отдел по информатизация набира голям брой анализатори на данни, тъй като има много статистика за хората и тя е многокритериална (т.е. статистиката се събира за всеки човек, за всяка група хора според много голяма брой критерии). Необходимо е да се открият закономерности и тенденции в тези данни. За такива задачи са необходими математици с ИТ образование. Защото в крайна сметка данните се съхраняват в структурирана СУБД и вие трябва да имате достъп до тях и да получавате информация.

Преди това не смятахме големите данни за задача по простата причина, че нямаше къде да ги съхраняваме и нямаше мрежи, които да ги предават. Когато се появиха тези възможности, данните веднага запълниха целия предоставен им обем. Но както и да разширявате пропускателна способности способността да съхранявате данни, винаги ще има източници, напр. физически експерименти, експерименти за аеродинамично моделиране, които ще произведат повече информация, отколкото можем да предадем. Според закона на Мур изпълнението на съвременния паралел изчислителни системинепрекъснато нараства, а скоростта на мрежите за предаване на данни също расте. Данните обаче трябва да могат бързо да се запазват и извличат от носителя ( харддиски други видове памет), и това е друго предизвикателство при обработката на големи данни.

Големи данни е широко понятие за иновативните стратегии и технологии, необходими за събиране, организиране и обработка на информация от големи набори от данни. Въпреки че проблемът с работата с данни, които надхвърлят изчислителната мощност или капацитета за съхранение на един компютър, не е нов, мащабът и стойността на този тип изчисления се разшириха значително през последните години.

В тази статия ще намерите основните понятия, които може да срещнете, когато изследвате големи данни. Той също така обсъжда някои от процесите и технологиите, използвани в момента в тази област.

Какво е големи данни?

Точната дефиниция на „големи данни“ е трудна за дефиниране, тъй като проекти, доставчици, практици и бизнес професионалисти ги използват по много различни начини. Като се има предвид това, големите данни могат да бъдат определени като:

  • Големи набори от данни.
  • Категория изчислителни стратегии и технологии, които се използват за обработка на големи набори от данни.

В този контекст „голям набор от данни“ означава набор от данни, който е твърде голям, за да бъде обработен или съхранен с помощта на традиционни инструменти или на един компютър. Това означава, че общият мащаб на големите набори от данни непрекъснато се променя и може да варира значително в зависимост от случая.

Системи за големи данни

Основните изисквания за работа с големи данни са същите като за всички други набори от данни. Въпреки това, огромният мащаб, скоростта на обработка и характеристиките на данните, които се срещат на всяка стъпка от процеса, представляват сериозни нови предизвикателства при разработването на инструменти. Целта на повечето системи за големи данни е да разбират и комуникират с големи количества разнородни данни по начин, който не би бил възможен при използване на конвенционални методи.

През 2001 г. Дъг Лейни от Gartner въведе „трите Vs на големите данни“, за да опише някои от характеристиките, които правят обработката на големи данни различна от другите видове обработка на данни:

  1. Обем (обем на данни).
  2. Скорост (скорост на натрупване и обработка на данни).
  3. Разнообразие (разнообразие от типове обработвани данни).

Обем на данните

Изключителният мащаб на обработваната информация помага да се дефинират системите за големи данни. Тези набори от данни могат да бъдат с порядъци по-големи от традиционните набори от данни, което изисква повече внимание на всеки етап от обработката и съхранението.

Тъй като изискванията надхвърлят капацитета на един компютър, често възниква проблемът с обединяването, разпределянето и координирането на ресурси от групи компютри. Управлението на клъстерите и алгоритмите, способни да разделят задачите на по-малки части, стават все по-важни в тази област.

Скорост на натрупване и обработка

Втората характеристика, която значително отличава големите данни от другите системи за данни, е скоростта, с която информацията се движи през системата. Данните често влизат в системата от множество източници и трябва да се обработват в реално време, за да се актуализират Сегашно състояниесистеми.

Този акцент върху мигновената обратна връзка накара много практици да се откажат от групово-ориентирания подход в полза на система за поточно предаване в реално време. Данните непрекъснато се добавят, обработват и анализират, за да бъдат в крак с притока на нова информация и да получат ценни данни на ранен етап, когато са най-подходящи. Това изисква стабилни системи с високо достъпни компоненти за защита срещу повреди по тръбопровода за данни.

Разнообразие от видове обработвани данни

Големите данни имат много уникални предизвикателства, свързани с широкия диапазон от обработвани източници и тяхното относително качество.

Данните могат да идват от вътрешни системи като регистрационни файлове на приложения и сървъри, емисии на социални медии и други външни API, сензори на физически устройства и други източници. Целта на системите за големи данни е да обработват потенциално полезни данни, независимо от произхода им, като комбинират цялата информация в една система.

Медийните формати и типове също могат да варират значително. Медийните файлове (изображения, видео и аудио) се обединяват с текстови файлове, структурирани регистрационни файлове и т.н. По-традиционните системи за обработка на данни очакват данните да влязат в конвейера вече маркирани, форматирани и организирани, но системите за големи данни обикновено приемат и съхраняват данни, докато се опитват да запазят първоначалното си състояние. В идеалния случай всички трансформации или модификации на необработените данни ще се случват в паметта по време на обработката.

Други характеристики

С течение на времето отделни лица и организации предложиха разширяване на оригиналните „три Vs“, въпреки че тези нововъведения обикновено описват проблеми, а не характеристики на големите данни.

  • Верност: Разнообразието от източници и сложността на обработката могат да доведат до проблеми при оценката на качеството на данните (и следователно качеството на получения анализ).
  • Променливост (променливост на данните): промяната на данните води до големи промени в качеството. Идентифицирането, обработката или филтрирането на данни с ниско качество може да изисква допълнителни ресурси за подобряване на качеството на данните.
  • Стойност: Крайната цел на големите данни е стойността. Понякога системите и процесите са много сложни, което затруднява използването на данни и извличането на действителни стойности.

Жизнен цикъл на големи данни

И така, как всъщност се обработват големи данни? Има няколко различни подхода за внедряване, но има общи черти между стратегиите и софтуера.

  • Въвеждане на данни в системата
  • Запазване на данни в хранилището
  • Изчисляване и анализ на данни
  • Визуализация на резултатите

Преди да разгледаме подробно тези четири категории работни потоци, нека поговорим за клъстерното изчисление, важна стратегия, използвана от много инструменти за обработка на големи данни. Създаването на изчислителен клъстер е гръбнакът на технологията, използвана на всеки етап от жизнения цикъл.

Клъстерни изчисления

Поради качеството на големите данни отделните компютри не са подходящи за обработка на данни. Клъстерите са по-подходящи за това, тъй като могат да се справят със съхранението и изчислителните нужди на големи данни.

Софтуерът за клъстериране на големи данни обединява ресурсите на много малки машини, целяйки да предостави редица предимства:

  • Обединяване на ресурси: Обработката на големи набори от данни изисква голямо количество ресурси на процесора и паметта, както и много налично място за съхранение.
  • Висока наличност: Клъстерите могат да осигурят различни нива на устойчивост и достъпност, така че достъпът и обработката на данни да не се повлияват от хардуерни или софтуерни повреди. Това е особено важно за анализите в реално време.
  • Мащабируемост: Клъстерите поддържат бързо хоризонтално мащабиране (добавяне на нови машини към клъстера).

За да работите в клъстер, имате нужда от инструменти за управление на членството в клъстер, координиране на разпределението на ресурсите и планиране на работа с отделни възли. Членството в клъстера и разпределението на ресурсите могат да се управляват с програми като Hadoop YARN (Yet Another Resource Negotiator) или Apache Mesos.

Сглобяемият изчислителен клъстер често действа като база, с която друг взаимодейства, за да обработва данни. софтуер. Машините, участващи в изчислителен клъстер, също обикновено са свързани с управление на разпределено съхранение.

Получаване на данни

Поглъщането на данни е процес на добавяне на необработени данни към системата. Сложността на тази операция до голяма степен зависи от формата и качеството на източниците на данни и от това как данните отговарят на изискванията за обработка.

Можете да добавите големи данни към системата, като използвате специални инструменти. Технологии като Apache Sqoop могат да вземат съществуващи данни от релационни бази данни и да ги добавят към система за големи данни. Можете също така да използвате Apache Flume и Apache Chukwa - проекти, предназначени за агрегиране и импортиране на регистрационни файлове на приложения и сървъри. Брокери на съобщения като Apache Kafka могат да се използват като интерфейс между различни генератори на данни и система за големи данни. Рамки като Gobblin могат да комбинират и оптимизират изхода на всички инструменти в края на конвейера.

По време на приемането на данни обикновено се извършва анализ, сортиране и етикетиране. Този процес понякога се нарича ETL (extract, transform, load), което означава извличане, трансформиране и зареждане. Докато терминът обикновено се отнася до наследени процеси за съхранение, понякога се прилага и към системи за големи данни. типичните операции включват модифициране на входящи данни за форматиране, категоризиране и етикетиране, филтриране или валидиране на данни.

В идеалния случай входящите данни преминават през минимално форматиране.

Хранилище за данни

Веднъж получени, данните преминават към компонентите, които управляват съхранението.

Обикновено разпределените файлови системи се използват за съхраняване на необработени данни. Решения като HDFS на Apache Hadoop ви позволяват да записвате големи количества данни в множество възли в клъстер. Тази система предоставя изчислителни ресурси с достъп до данни, може да зарежда данни в RAM на клъстера за операции с паметта и да обработва повреди на компоненти. Други разпределени файлови системи могат да се използват вместо HDFS, включително Ceph и GlusterFS.

Данните могат също да бъдат импортирани в други разпределени системи за по-структуриран достъп. Разпределените бази данни, особено базите данни NoSQL, са много подходящи за тази роля, защото могат да обработват разнородни данни. Има много различни видове разпределени бази данни в зависимост от това как искате да организирате и представите данните.

Изчисляване и анализ на данни

След като данните са налични, системата може да започне обработка. Изчислителното ниво е може би най-свободната част от системата, тъй като изискванията и подходите тук могат да се различават значително в зависимост от вида на информацията. Данните често се обработват повторно или с един инструмент, или с набор от инструменти за обработка на различни типове данни.

Пакетната обработка е един от методите за изчисление в големи набори от данни. Този процес включва разбиване на данните на по-малки части, планиране на всяка част за обработка на отделна машина, пренареждане на данните въз основа на междинни резултати и след това изчисляване и събиране на крайния резултат. Тази стратегия използва MapReduce от Apache Hadoop. Пакетната обработка е най-полезна при работа с много големи набори от данни, които изискват доста изчисления.

Други натоварвания изискват обработка в реално време. В същото време информацията трябва да бъде обработена и подготвена незабавно, а системата трябва да реагира своевременно при поява на нова информация. Един от начините за прилагане на обработка в реално време е да се обработва непрекъснат поток от данни, състоящ се от отделни елементи. Друг основни характеристикипроцесори в реално време - това е изчисляването на данните в паметта на клъстера, което избягва необходимостта от запис на диск.

Оферта за Apache Storm, Apache Flink и Apache Spark различни начиниреализации на обработка в реално време. Тези гъвкави технологии ви позволяват да изберете най-добрия подход за всеки отделен проблем. Като цяло обработката в реално време е най-подходяща за анализиране на малки части от данни, които се променят или бързо се добавят към системата.

Всички тези програми са рамки. Въпреки това има много други начини за изчисляване или анализ на данни в система за големи данни. Тези инструменти често се включват в горните рамки и предоставят допълнителни интерфейси за взаимодействие с основните слоеве. Например Apache Hive предоставя интерфейс за хранилище на данни за Hadoop, Apache Pig предоставя интерфейс за заявки и взаимодействия с SQL даннипредоставен с Apache Drill, Apache Impala, Apache Spark SQL и Presto. Машинното обучение използва Apache SystemML, Apache Mahout и MLlib от Apache Spark. За директно аналитично програмиране, което се поддържа широко от екосистемата за данни, се използват R и Python.

Визуализация на резултатите

Често разпознаването на тенденции или промени в данните във времето е по-важно от получените стойности. Визуализацията на данни е един от най-полезните начини за идентифициране на тенденции и организиране на голям брой точки от данни.

Обработката в реално време се използва за визуализиране на показателите на приложението и сървъра. Данните се променят често и големите разлики в показателите обикновено показват значително въздействие върху здравето на системите или организациите. Проекти като Prometheus могат да се използват за обработка на потоци от данни и времеви серии и визуализиране на тази информация.

Един популярен начин за визуализиране на данни е еластичният стек, известен преди като ELK стек. Logstash се използва за събиране на данни, Elasticsearch за индексиране на данни и Kibana за визуализация. Еластичният стек може да работи с големи данни, да визуализира резултатите от изчисленията или да взаимодейства с необработени показатели. Подобен стек може да се получи чрез сливане на Apache Solr за индексиране на разклонение на Kibana, наречено Banana за визуализация. Такъв стек се нарича Silk.

Документите са друга технология за визуализация за интерактивна работа с данни. Такива проекти позволяват интерактивно проучванеи визуализация на данни в подходящ за споделянеи представяне на данни. Популярни примери за този тип интерфейс са Jupyter Notebook и Apache Zeppelin.

Речник на големите данни

  • Големи данни е широко понятие за набори от данни, които не могат да бъдат правилно обработени от конвенционални компютри или инструменти поради техния размер, скорост и разнообразие. Терминът също така често се прилага за технологии и стратегии за работа с такива данни.
  • Пакетната обработка е изчислителна стратегия, която включва обработка на данни в големи набори. Този метод обикновено е идеален за работа с неспешни данни.
  • Клъстерното изчисление е практика за обединяване на ресурсите на множество машини и управление на техните комбинирани възможности за изпълнение на задачи. Това изисква слой за управление на клъстер, който управлява комуникацията между отделните възли.
  • Езерото от данни е голямо хранилище на събрани данни в относително необработено състояние. Терминът често се използва за означаване на неструктурирани и често променящи се големи данни.
  • Извличането на данни е широк термин за различните практики за намиране на модели в големи масиви от данни. Това е опит да се организира маса от данни в по-разбираем и последователен набор от информация.
  • Складът за данни е голямо, организирано хранилище за анализ и отчитане. За разлика от езерото с данни, складът се състои от форматирани и добре организирани данни, които са интегрирани с други източници. Складовете за данни често се споменават във връзка с големи данни, но те често са компоненти на конвенционалните системи за обработка на данни.
  • ETL (extract, transform, and load) - извличане, трансформиране и зареждане на данни. Ето как изглежда процесът на получаване и подготовка на сурови данни за използване. Той е свързан със складове за данни, но характеристиките на този процес се намират и в тръбопроводите на системи за големи данни.
  • Hadoop е проект на Apache с отворен код за големи данни. Състои се от разпределени файлова системанаречен HDFS и планировчик на клъстери и ресурси, наречен YARN. Възможностите за пакетна обработка се предоставят от машината за изчисления MapReduce. С MapReduce модерните внедрявания на Hadoop могат да работят с други изчислителни и аналитични системи.
  • Изчисляването в паметта е стратегия, която включва преместване на работните набори от данни изцяло в паметта на клъстера. Междинните изчисления не се записват на диск, вместо това се съхраняват в паметта. Това дава на системите огромно предимство в скоростта пред I/O-свързаните системи.
  • Машинното обучение е изследване и практика на проектиране на системи, които могат да учат, настройват и подобряват въз основа на данните, които им се подават. Обикновено това означава прилагане на прогнозни и статистически алгоритми.
  • Map reduction (да не се бърка с MapReduce на Hadoop) е алгоритъм за планиране на изчислителен клъстер. Процесът включва разделяне на задачата между възли и получаване на междинни резултати, разбъркване и след това извеждане на една стойност за всеки набор.
  • NoSQL е широко понятие за бази данни, проектирани извън традиционния релационен модел. NoSQL базите данни са много подходящи за големи данни поради тяхната гъвкавост и разпределена архитектура.
  • Поточното предаване е практика за изчисляване на отделни елементи от данни, докато се движат през системата. Това позволява анализ на данни в реално време и е подходящо за обработка на критични за времето транзакции с помощта на високоскоростни показатели.
Етикети: ,

Само мързеливият не говори за Big data, но едва ли разбира какво е и как работи. Да започнем с най-простото - терминологията. Говорейки на руски, Големите данни са различни инструменти, подходи и методи за обработка както на структурирани, така и на неструктурирани данни, за да се използват за конкретни задачи и цели.

Неструктурираните данни са информация, която няма предварително определена структура или не е организирана в определен ред.

Терминът „големи данни“ беше въведен от редактора на Nature Клифърд Линч през 2008 г. в специален брой за експлозивното нарастване на световните обеми информация. Въпреки че, разбира се, самите големи данни съществуваха и преди. Според експерти по-голямата част от потоците от данни над 100 GB на ден принадлежат към категорията Big data.

Прочетете също:

Днес този прост термин крие само две думи - съхранение и обработка на данни.

Големи данни - с прости думи

AT модерен святГолемите данни са социално-икономически феномен, който се свързва с появата на нови технологични възможности за анализиране на огромно количество данни.

Прочетете също:

За по-лесно разбиране си представете супермаркет, в който всички стоки не са в реда, с който сте свикнали. Хляб до плодове, доматено пюре до замразена пица, течност за запалване до решетка тампони с авокадо, тофу или гъби шийтаке и др. Големите данни поставят всичко на мястото си и ви помагат да намерите ядково мляко, да разберете цената и срока на годност, както и кой освен вас купува такова мляко и с какво е по-добро от кравето мляко.

Кенет Кукиър: Големите данни са по-добри данни

Технология за големи данни

Обработват се огромни количества данни, за да може човек да получи конкретни и необходими резултати за по-нататъшното им ефективно приложение.

Прочетете също:

Всъщност Big data е средство за решаване на проблеми и алтернатива на традиционните системи за управление на данни.

Техники и методи за анализ, приложими към големи данни според McKinsey:

  • извличане на данни;
  • краудсорсинг;
  • Смесване и интегриране на данни;
  • Машинно обучение;
  • Изкуствени невронни мрежи;
  • Разпознаване на шаблон;
  • Прогностичен анализ;
  • симулационно моделиране;
  • Пространствен анализ;
  • Статистически анализ;
  • Визуализация на аналитични данни.

Хоризонталната мащабируемост, която позволява обработката на данни, е основният принцип на обработката на големи данни. Данните се разпространяват към изчислителните възли и обработката се извършва без влошаване на производителността. McKinsey също включи системи за релационно управление и Business Intelligence в контекста на приложимостта.

технология:

  • NoSQL;
  • MapReduce;
  • Hadoop;
  • Хардуерни решения.

Прочетете също:

За големите данни съществуват традиционни дефиниращи характеристики, разработени от Meta Group през 2001 г., които се наричат ​​„ Три V»:

  1. Сила на звука- стойността на физическия обем.
  2. Скорост- темп на растеж и необходимост от бърза обработка на данните за получаване на резултати.
  3. Разнообразие- възможността за едновременна обработка различни видоведанни.

Големи данни: приложение и възможности

Обемите разнородна и бързо постъпваща цифрова информация не могат да бъдат обработени с традиционни инструменти. Анализът на самите данни ви позволява да видите определени и незабележими модели, които човек не може да види. Това ни позволява да оптимизираме всички сфери на живота си – от контролирани от правителствотокъм производството и телекомуникациите.

Например, някои компании преди няколко години защитиха клиентите си от измами, а грижата за парите на клиента е грижа за вашите собствени пари.

Сюзън Атлигър: Какво ще кажете за големите данни?

Решения, базирани на големи данни: Sberbank, Beeline и други компании

Beeline разполага с огромно количество данни за абонатите, които те използват не само за работа с тях, но и за създаване на аналитични продукти, като външни консултации или IPTV анализи. Beeline сегментира базата данни и защити клиентите от парични измами и вируси, като използва HDFS и Apache Spark за съхранение и Rapidminer и Python за обработка на данни.

Прочетете също:

Или си спомнете Сбербанк със стария им случай, наречен AS SAFI. Това е система, която анализира снимки, за да идентифицира клиентите на банката и да предотврати измами. Системата беше въведена през 2014 г., системата се основава на сравняване на снимки от базата данни, които стигат до там от уеб камери на стелажи благодарение на компютърното зрение. В основата на системата е биометрична платформа. Благодарение на това случаите на измами са намалели 10 пъти.

Големи данни в света

До 2020 г. според прогнозите човечеството ще формира 40-44 зетабайта информация. А до 2025 г. ще нарасне 10 пъти, според доклада The Data Age 2025, изготвен от анализаторите на IDC. Докладът отбелязва, че повечето от данните ще бъдат генерирани от самите фирми, а не от обикновените потребители.

Анализаторите на проучването вярват, че данните ще се превърнат в жизненоважен актив, а сигурността в критична основа в живота. Авторите на работата също са уверени, че технологията ще промени икономическия пейзаж и редовен потребителще комуникира със свързани устройства около 4800 пъти на ден.

Пазар на големи данни в Русия

През 2017 г. глобалните приходи от големи данни трябва да достигнат 150,8 милиарда долара, което е с 12,4% повече от миналата година. В глобален мащаб руският пазар за услуги и технологии за големи данни все още е много малък. През 2014 г. американската компания IDC я оцени на $340 млн. В Русия технологията се използва в банкирането, енергетиката, логистиката, публичния сектор, телекома и индустрията.

Прочетете също:

Що се отнася до пазара на данни, той е едва в начален стадий в Русия. В RTB екосистемата доставчиците на данни са собственици на програмни платформи за управление на данни (DMP) и обмен на данни. Телекомуникационните оператори пилотно споделят потребителска информация за потенциални кредитополучатели с банките.

Обикновено големите данни идват от три източника:

  • Интернет (социални мрежи, форуми, блогове, медии и други сайтове);
  • Корпоративен архив на документи;
  • Показания на сензори, инструменти и други устройства.

Големи данни в банките

В допълнение към описаната по-горе система, в стратегията на Сбербанк за 2014-2018 г. говори за значението на анализирането на набори от супер данни за качествено обслужване на клиенти, управление на риска и оптимизиране на разходите. Сега банката използва Big Data за управление на рисковете, борба с измамите, сегментиране и оценка на кредитоспособността на клиентите, управление на персонала, прогнозиране на опашки в клонове, изчисляване на бонуси за служители и други задачи.

VTB24 използва големи данни, за да сегментира и управлява оттока на клиенти, да генерира финансови отчети и да анализира обратната връзка в социалните мрежи и форуми. За да направи това, той използва решенията Teradata, SAS Visual Analytics и SAS Marketing Optimizer.

Редовно се натъкваме на модни думи и дефиниции, чието значение изглежда интуитивно ясно за нас, но нямаме ясна представа какво е все едно и как работи.

Едно от тези понятия е Big Data, на руски понякога можете да намерите буквален превод - „големи данни“, но по-често хората казват и пишат така: Big Data. Вероятно всеки е чувал или поне е срещал тази фраза в интернет и тя изглежда проста, но какво точно се има предвид, не винаги е ясно на офис хуманистите, които са далеч от тънкостите на цифровия свят.

Отличен опит да се запълни тази празнина в мозъците на най-широк кръг потребители е статията на един от любимите ни автори Бърнард Мар, т.нар. „Какво е Big Data? Супер просто обяснение за всеки". Без завладяващ жаргон с единствената цел да обясни основните идеи на този феномен за всеки, независимо от образованието и сферата на дейност.

Всъщност през последните няколко години вече живеем в свят, наситен с големи данни, но продължаваме да се объркваме в разбирането какво е това. Това отчасти се дължи на факта, че самата концепция за Big Data непрекъснато се трансформира и преосмисля, тъй като светът на високите технологии и обработката на големи количества информация се променя много бързо, включвайки все повече и повече нови възможности. И обемът на тази информация непрекъснато нараства.

И така, какво означава Big Data - 2017?

Всичко започна с експлозивното нарастване на количеството данни, които създаваме от самото начало дигитална ера. Това стана възможно до голяма степен благодарение на нарастването на броя и мощността на компютрите, разширяването на Интернет и развитието на технологии, способни да улавят информация от реалния, физически свят, в който всички ние живеем, и да я конвертират в цифрови данни.

През 2017 г. произвеждаме данни, когато влизаме онлайн, когато използваме нашите оборудвани с GPS смартфони, когато разговаряме с приятели в социалните мрежи, когато изтегляме мобилни приложенияили музика при пазаруване.

Може да се каже, че оставяме много цифрови отпечатъци след себе си, независимо какво правим, ако действията ни включват някакви цифрови транзакции. Така е почти винаги и навсякъде.

Освен това количеството данни, генерирани от самите машини, нараства с огромна скорост. Данните се създават и предават, когато нашите смарт устройства комуникират помежду си. Производствените предприятия по света са оборудвани с оборудване, което събира и предава данни ден и нощ.

В близко бъдеще нашите улици ще бъдат пълни със самоуправляващи се автомобили, които се ориентират сами на базата на 4D карти, генерирани в реално време.

Какво могат да направят Big Data?

Безкрайно нарастващ поток от сензорна информация, снимки, текстови съобщения, аудио и видео данните са в основата на Big Data, които можем да използваме по начини, които бяха невъобразими дори преди няколко години.

В момента проектите, базирани на Big Data, помагат:

- Лекувайте болести и предотвратявайте рак. Медицината, базирана на големи данни, анализира огромно количество медицински записи и изображения, което прави възможно много ранното диагностициране и допринася за създаването на нови лечения.

- Борба с глада. Селското стопанство преживява истинска революция на големите данни, която позволява използването на ресурсите по начин, който увеличава добивите с минимална намеса в екосистемата и оптимизира използването на машини и оборудване.

- Открийте далечни планети. НАСА например анализира огромни количества данни и с тяхна помощ изгражда модели на бъдещи мисии до далечни светове.

- Предсказвайте извънредни ситуацииразлично естество и минимизиране на възможните щети. Данните от множество сензори могат да предвидят къде и кога ще се случи следващото земетресение или възможното поведение на хората в спешен случайкоето увеличава шансовете за оцеляване.

- Предотвратете престъпносттачрез използването на технологии, които позволяват по-ефективно разпределение на ресурсите и ги насочват там, където са най-необходими.

И най-близкото до повечето от нас: Големите данни правят живота обикновен човекпо-лесно и по-удобно - това е онлайн пазаруване, планиране на пътуване и навигация в мегаполис.

Избирам най-доброто времеда купувате самолетни билети и да решавате кой филм или сериал да гледате стана много по-лесно благодарение на работата на Big Data.

Как работи?

Big Data работи на принципа, че колкото повече знаете за нещо, толкова по-точно можете да предвидите какво ще се случи в бъдеще. Сравнението на отделните данни и връзките между тях (говорим за огромно количество данни и невероятно голям брой възможни връзки между тях) разкрива скрити преди това модели. Това дава възможност да се погледне отвътре на проблема и в крайна сметка да се разбере как можем да управляваме този или онзи процес.

Най-често процесът на обработка на големи количества информация включва изграждане на модели на базата на събраните данни и провеждане на симулации, по време на които променливите постоянно се променят. ключови настройки, като всеки път системата следи как "промяната на настройките" се отразява на възможния резултат.

Този процес е напълно автоматизиран, защото говорим за анализ на милиони симулации, изброяване на всички настроикидо момента, докато се намери моделът (желаната схема) или докато настъпи „просветление“, което ще помогне за решаването на проблема, за който е започнало всичко.

За разлика от познатия ни свят на обекти и изчисления, данните се получават в неструктурирана форма, тоест трудно е да ги вкараме в таблици с клетки и колони, познати на нас, хората. Огромно количество данни се предава като изображения или видеоклипове: от сателитни изображения до селфита, които публикувате в Instagram или Facebook - точно като имейли и записи в месинджъри или телефонни обаждания.

За да направи целия този безкраен и пъстър поток от данни практичен смисъл, Big Data често използва най-модерните технологии за анализ, които включват изкуствен интелект и машинно обучение(това е, когато програма в компютър обучава други програми).

Самите компютри се научават да определят какво представлява тази или онази информация - например да разпознават изображения, език - и те могат да направят това много по-бързо от хората.

Голям брат?

Пропорционално на безпрецедентните възможности, които Big Data ни предоставя днес, броят на опасенията и въпросите, свързани с използването им, нараства.

ПОВЕРИТЕЛНОСТ НА ЛИЧНИТЕ ДАННИ. Big Data събира огромно количество информация за нашия личен живот. Има много информация, която бихме предпочели да запазим в тайна.

БЕЗОПАСНОСТ. Дори ако решим, че няма нищо лошо в това да прехвърлим всички наши лични данни на машина за някаква конкретна цел, която е от полза за нас, можем ли да сме сигурни, че данните ни се съхраняват на сигурно място?
Кой и как можем да гарантираме това?

ДИСКРИМИНАЦИЯ. Когато всичко е известно, приемливо ли е да се дискриминират хората въз основа на това, което се знае за тях благодарение на Big Data? Банките използват вашата кредитна история, а застрахователните компании определят цената на автомобилната застраховка въз основа на това, което знаят за вас. Докъде може да стигне това?

Може да се предположи, че за да се минимизират рисковете на компанията, държавни органии дори отделни лица ще използват това, което могат да научат за нас и по някаква причина ще ограничат достъпа ни до ресурси и информация.

С всички предимства, трябва да признаем, че всички тези опасения също са неразделна част от Big Data. Доскоро учените се озадачаваха над отговорите, но сега дойде моментът, когато вълната достигна бизнес, който иска да използва предимствата на Big Data за свои собствени цели. И това може да бъде изпълнено с катастрофални последици.