سرعت در خواص داده های بزرگ کلان داده - سیستم های کلان داده چیست؟ توسعه فناوری های داده های بزرگ کلان داده در مورد نگهبان قانون و نظم

شتاب مداوم رشد داده ها بخشی جدایی ناپذیر از واقعیت های امروزی است. شبکه های اجتماعی، دستگاه های تلفن همراه، داده های دستگاه های اندازه گیری، اطلاعات تجاری - اینها تنها چند نوع منبع هستند که می توانند حجم عظیمی از داده ها را تولید کنند.

در حال حاضر، اصطلاح Big Data (Big Data) بسیار رایج شده است. هنوز همه نمی دانند که فناوری های پردازش مقادیر زیادی از داده ها چقدر سریع و عمیق در متنوع ترین جنبه های جامعه تغییر می دهند. تغییراتی در حوزه‌های مختلف رخ می‌دهد که مشکلات و چالش‌های جدیدی را از جمله در زمینه ایجاد می‌کند امنیت اطلاعات، که در آن جنبه های مهمی مانند محرمانه بودن، یکپارچگی، در دسترس بودن و غیره باید در پیش زمینه باشد.

متأسفانه بسیاری از شرکت های مدرن بدون ایجاد زیرساخت مناسب برای این کار به فناوری Big Data متوسل می شوند ذخیره سازی امنحجم عظیمی از داده هایی که آنها جمع آوری و ذخیره می کنند. از سوی دیگر، فناوری بلاک چین در حال حاضر به سرعت در حال توسعه است که برای حل این مشکل و بسیاری از مشکلات دیگر طراحی شده است.

کلان داده چیست؟

در واقع، تعریف این اصطلاح در ظاهر نهفته است: "داده های بزرگ" به معنای مدیریت حجم بسیار زیادی از داده ها و همچنین تجزیه و تحلیل آنها است. اگر به طور گسترده تر نگاه کنید، پس این اطلاعاتی است که به دلیل حجم زیاد، با روش های کلاسیک قابل پردازش نیست.

خود اصطلاح Big Data (داده های بزرگ) نسبتاً اخیراً ظاهر شده است. طبق سرویس Google Trends، رشد فعال در محبوبیت این اصطلاح در پایان سال 2011 است:

در سال 2010، اولین محصولات و راه حل های مرتبط با پردازش کلان داده ها شروع به ظهور کردند. تا سال 2011، بسیاری از بزرگترین شرکت های فناوری اطلاعات، از جمله IBM، Oracle، Microsoft و Hewlett-Packard، به طور فعال از واژه Big Data در استراتژی های تجاری خود استفاده می کنند. به تدریج تحلیلگران بازار فناوری اطلاعاتتحقیقات فعال در مورد این مفهوم را آغاز کنید.

در حال حاضر، این اصطلاح محبوبیت قابل توجهی به دست آورده است و به طور فعال در زمینه های مختلف استفاده می شود. با این حال، نمی توان با قاطعیت گفت که داده های بزرگ نوعی پدیده اساساً جدید است - برعکس، منابع داده بزرگ سال هاست که وجود داشته اند. در بازاریابی، آنها می‌توانند پایگاه‌های اطلاعاتی از خرید مشتری، تاریخچه اعتباری، سبک زندگی و موارد دیگر باشند. در طول سال‌ها، تحلیلگران از این داده‌ها برای کمک به شرکت‌ها برای پیش‌بینی نیازهای آینده مشتریان، ارزیابی ریسک، شکل‌دهی ترجیحات مصرف‌کننده و موارد دیگر استفاده کرده‌اند.

در حال حاضر وضعیت از دو جنبه تغییر کرده است:

- ابزارها و روش های پیچیده تری برای تجزیه و تحلیل و مقایسه مجموعه داده های مختلف پدیدار شده اند.
- ابزارهای تجزیه و تحلیل با بسیاری از منابع جدید داده تکمیل شده است که توسط دیجیتالی سازی گسترده و همچنین روش های جدید جمع آوری و اندازه گیری داده ها هدایت می شود.

محققان پیش‌بینی می‌کنند که فناوری‌های کلان داده به طور فعال در تولید، مراقبت‌های بهداشتی، تجارت، مدیریت عمومی و در سایر زمینه‌ها و صنایع بسیار متنوع مورد استفاده قرار خواهند گرفت.

Big Data آرایه خاصی از داده ها نیست، بلکه مجموعه ای از روش ها برای پردازش آنها است. مشخصه تعیین کننده برای کلان داده ها نه تنها حجم آنها، بلکه مقوله های دیگری است که فرآیندهای پر زحمت پردازش و تجزیه و تحلیل داده ها را مشخص می کند.

داده های اولیه برای پردازش می تواند به عنوان مثال:

- سیاهههای مربوط به رفتار کاربر اینترنت؛
- اینترنت اشیا؛
- رسانه های اجتماعی؛
- داده های هواشناسی؛
- کتاب های دیجیتالی شده از بزرگترین کتابخانه ها؛
- سیگنال های GPS از وسیله نقلیه;
- اطلاعات مربوط به معاملات مشتریان بانک؛
- داده های موقعیت مکانی مشترک شبکه های تلفن همراه;
- اطلاعات در مورد خرید در زنجیره های خرده فروشی بزرگ و غیره.

با گذشت زمان، حجم داده ها و تعداد منابع آنها به طور مداوم در حال افزایش است و در این زمینه، روش های جدید پردازش اطلاعات ظاهر می شود و روش های موجود پردازش اطلاعات بهبود می یابد.

اصول اولیه داده های بزرگ:

- مقیاس پذیری افقی - آرایه های داده می توانند بزرگ باشند و این بدان معنی است که سیستم پردازش داده های بزرگ باید به صورت پویا با افزایش حجم آنها گسترش یابد.
- تحمل خطا - حتی اگر برخی از تجهیزات خراب شوند، کل سیستم باید فعال بماند.
- محل داده ها در سیستم های توزیع شده بزرگ، داده ها معمولاً روی تعداد قابل توجهی از ماشین ها توزیع می شوند. با این حال، در صورت امکان و به منظور صرفه جویی در منابع، داده ها اغلب در همان سروری که ذخیره می شوند پردازش می شوند.

برای عملکرد پایدار هر سه اصل و بر این اساس، راندمان بالای ذخیره‌سازی و پردازش کلان داده‌ها، به فن‌آوری‌های پیشرفت جدیدی مانند بلاک چین نیاز است.

کلان داده برای چیست؟

دامنه کلان داده به طور مداوم در حال گسترش است:

- داده های بزرگ را می توان در پزشکی استفاده کرد. بنابراین، می توان نه تنها بر اساس داده های تجزیه و تحلیل تاریخچه پزشکی، بلکه با در نظر گرفتن تجربه سایر پزشکان، اطلاعات در مورد وضعیت اکولوژیکی منطقه سکونت بیمار، تشخیص را برای بیمار ایجاد کرد. ، و بسیاری از عوامل دیگر.
- فناوری های داده های بزرگ را می توان برای سازماندهی حرکت وسایل نقلیه بدون سرنشین استفاده کرد.
- با پردازش مقادیر زیادی داده، تشخیص چهره در مواد عکاسی و ویدئویی امکان پذیر است.
- فن آوری های داده های بزرگ را می توان توسط خرده فروشان استفاده کرد - شرکت های تجاری می توانند به طور فعال از آرایه های داده استفاده کنند شبکه های اجتماعیبرای سفارشی سازی موثرکمپین های تبلیغاتی آنها، که می تواند حداکثر بر یک یا آن بخش مصرف کننده متمرکز شود.
— این تکنولوژیبه طور فعال در سازماندهی مبارزات انتخاباتی، از جمله برای تجزیه و تحلیل ترجیحات سیاسی در جامعه استفاده می شود.
- استفاده از فناوری‌های کلان داده برای راه‌حل‌های کلاس تضمین درآمد (RA) مرتبط است، که شامل ابزارهایی برای تشخیص ناسازگاری‌ها و تجزیه و تحلیل عمیق داده‌ها است که امکان شناسایی به موقع زیان‌های احتمالی یا تحریف اطلاعات را فراهم می‌کند که می‌تواند منجر به کاهش نتایج مالی شود. .
- ارائه دهندگان مخابرات می توانند داده های بزرگ، از جمله داده های موقعیت جغرافیایی را جمع آوری کنند. به نوبه خود، این اطلاعات ممکن است برای آژانس های تبلیغاتی مورد توجه تجاری قرار گیرد، که ممکن است از آن برای نمایش تبلیغات هدفمند و محلی و همچنین خرده فروشان و بانک ها استفاده کنند.
«داده‌های بزرگ می‌توانند نقش مهمی در تصمیم‌گیری برای باز کردن یک فروشگاه خرده‌فروشی در یک مکان خاص بر اساس داده‌های مربوط به حضور یک جریان هدفمند قدرتمند از مردم بازی کنند.

بنابراین، آشکارترین کاربرد عملی فناوری کلان داده در حوزه بازاریابی نهفته است. به لطف توسعه اینترنت و تکثیر انواع وسایل ارتباطی، داده‌های رفتاری (مانند تعداد تماس‌ها، عادت‌های خرید و خرید) در زمان واقعی در دسترس می‌شوند.

فناوری های کلان داده همچنین می توانند به طور موثر در امور مالی، تحقیقات جامعه شناختی و بسیاری از زمینه های دیگر مورد استفاده قرار گیرند. کارشناسان استدلال می کنند که همه این احتمالات استفاده از داده های بزرگ تنها بخش قابل مشاهده کوه یخ است، زیرا این فناوری ها در اطلاعات و ضد جاسوسی، در امور نظامی و همچنین در هر چیزی که معمولاً جنگ اطلاعاتی نامیده می شود، به میزان بسیار بیشتری استفاده می شود. .

به طور کلی، توالی کار با داده های بزرگ شامل جمع آوری داده ها، ساختاردهی اطلاعات دریافتی با استفاده از گزارش ها و داشبوردها و سپس تدوین توصیه هایی برای اقدام است.

اجازه دهید به اختصار امکانات استفاده از فناوری های کلان داده در بازاریابی را بررسی کنیم. همانطور که می دانید برای یک بازاریاب، اطلاعات ابزار اصلی پیش بینی و استراتژی است. تجزیه و تحلیل کلان داده ها مدت هاست با موفقیت برای تعیین استفاده می شود مخاطب هدف، علایق، تقاضا و فعالیت مصرف کنندگان. تجزیه و تحلیل کلان داده، به ویژه، نمایش تبلیغات (بر اساس مدل حراج RTB - مناقصه زمان واقعی) را فقط برای آن دسته از مصرف کنندگانی که به یک محصول یا خدمات علاقه مند هستند، ممکن می سازد.

استفاده از داده های بزرگ در بازاریابی به تجار اجازه می دهد:

- مشتریان خود را بهتر بشناسید، مخاطبان مشابهی را در اینترنت جذب کنید.
- ارزیابی میزان رضایت مشتری؛
- درک اینکه آیا سرویس پیشنهادی انتظارات و نیازها را برآورده می کند یا خیر.
- یافتن و پیاده سازی راه های جدید برای افزایش اعتماد مشتری؛
- ایجاد پروژه های مورد تقاضا و غیره

به عنوان مثال، سرویس Google.trends می تواند پیش بینی فعالیت تقاضای فصلی برای یک محصول خاص، نوسانات و جغرافیای کلیک ها را به بازاریاب بگوید. اگر این اطلاعات را با آمار جمع آوری شده توسط افزونه مربوطه در سایت خود مقایسه کنید، می توانید برنامه ای برای توزیع بودجه تبلیغاتی با ذکر ماه، منطقه و سایر پارامترها تهیه کنید.

به گفته بسیاری از محققان، در تقسیم بندی و استفاده از داده های بزرگ است که موفقیت کمپین ترامپ نهفته است. تیم رئیس جمهور آینده ایالات متحده توانست بینندگان را به درستی تقسیم کند، خواسته های آن را درک کند و دقیقاً پیامی را که رای دهندگان می خواهند ببینند و بشنوند را نشان دهند. بنابراین، به گفته ایرینا بلیشوا از ائتلاف داده محور، پیروزی ترامپ تا حد زیادی به دلیل رویکرد غیر استاندارد بازاریابی اینترنتی بود که مبتنی بر داده های بزرگ، تحلیل روانشناختی-رفتاری و تبلیغات شخصی بود.

فناوران سیاسی و بازاریابان ترامپ از یک طراحی خاص استفاده کردند مدل ریاضی، که امکان تجزیه و تحلیل عمیق داده های همه رای دهندگان ایالات متحده و سیستماتیک کردن آنها را فراهم می کند و هدف گذاری فوق العاده دقیقی را نه تنها بر اساس ویژگی های جغرافیایی، بلکه بر اساس نیات، علایق رای دهندگان، نوع روانی آنها، ویژگی های رفتاری و غیره انجام می دهد. پس از آن، بازاریابان ارتباط شخصی با هر یک از شهروندان گروه ها را بر اساس نیازها، خلق و خوی، دیدگاه های سیاسی، ویژگی های روانی و حتی رنگ پوست سازماندهی کرد و تقریباً برای هر رأی دهنده ای از پیام خود استفاده کرد.

در مورد هیلاری کلینتون، او از روش‌های «آزمایش‌شده زمان» بر اساس داده‌های جامعه‌شناختی و بازاریابی استاندارد در مبارزات انتخاباتی‌اش استفاده کرد و رای‌دهندگان را فقط به گروه‌های رسمی همگن (مردان، زنان، آمریکایی‌های آفریقایی‌تبار، اسپانیایی‌ها، فقیر، ثروتمند و غیره) تقسیم کرد.

در نتیجه، برنده کسی بود که از پتانسیل فن آوری های جدید و روش های تجزیه و تحلیل قدردانی کرد. قابل توجه است که هزینه های انتخاباتی هیلاری کلینتون دو برابر رقیب او بود:

داده ها: Pew Research

مشکلات اصلی استفاده از داده های بزرگ

علاوه بر هزینه بالا، یکی از عوامل اصلی مانع از معرفی کلان داده در حوزه های مختلف، مشکل انتخاب داده های مورد پردازش است: یعنی تعیین اینکه کدام داده ها باید استخراج، ذخیره و تجزیه و تحلیل شوند و کدام یک. نباید در نظر گرفته شود.

یکی دیگر از مشکلات کلان داده، اخلاقی است. به عبارت دیگر وجود دارد سوال مشروع: آیا چنین جمع آوری داده ها (به ویژه بدون اطلاع کاربر) می تواند نقض حریم خصوصی تلقی شود؟

این راز نیست که اطلاعات در موتورهای جستجو ذخیره می شود سیستم های گوگلو Yandex، به غول های فناوری اطلاعات اجازه می دهد تا به طور مداوم خدمات خود را بهبود بخشند، آنها را کاربر پسند کنند و برنامه های کاربردی تعاملی جدیدی ایجاد کنند. برای انجام این کار، موتورهای جستجو داده‌های کاربر را در مورد فعالیت کاربر در اینترنت، آدرس‌های IP، داده‌های موقعیت جغرافیایی، علایق و خریدهای آنلاین، داده‌های شخصی، پیام‌های ایمیل و غیره جمع‌آوری می‌کنند. همه اینها به نمایش تبلیغات متنی مطابق با رفتار کاربر در اینترنت اجازه می‌دهد. در عین حال، معمولاً رضایت کاربران برای این مورد درخواست نمی شود و انتخاب اینکه چه اطلاعاتی در مورد خود ارائه دهند داده نمی شود. یعنی به طور پیش فرض همه چیز در Big Data جمع آوری می شود که سپس در سرورهای داده سایت ها ذخیره می شود.

از این موارد زیر به دست می آید مشکل مهمدر مورد امنیت ذخیره سازی و استفاده از داده ها. به عنوان مثال، یک پلت فرم تجزیه و تحلیل خاص است که مصرف کنندگان در حالت خودکارداده های آنها را منتقل کند؟ علاوه بر این، بسیاری از نمایندگان کسب‌وکار به کمبود تحلیل‌گران و بازاریاب‌های ماهر اشاره می‌کنند که قادرند به طور موثر حجم زیادی از داده‌ها را مدیریت کنند و با کمک آنها مشکلات تجاری خاص را حل کنند.

علیرغم تمام مشکلاتی که در پیاده سازی Big Data وجود دارد، این کسب و کار قصد دارد سرمایه گذاری در این زمینه را افزایش دهد. طبق یک مطالعه گارتنر، رهبران صنایع سرمایه‌گذاری بر روی داده‌های بزرگ رسانه‌ها، خرده‌فروشی‌ها، مخابرات، بانکداری و شرکت‌های خدماتی هستند.

چشم انداز تعامل بین فناوری های بلاک چین و داده های بزرگ

ادغام با داده های بزرگ اثر هم افزایی دارد و طیف گسترده ای از فرصت های جدید را برای مشاغل باز می کند، از جمله اجازه می دهد:

- به اطلاعات دقیق در مورد ترجیحات مصرف کننده دسترسی پیدا کنید، که بر اساس آن می توانید جزئیات را ایجاد کنید پروفایل های تحلیلیبرای تامین کنندگان، کالاها و اجزای محصول خاص؛
- ادغام داده های دقیق تراکنش ها و آمار مصرف گروه های خاصی از کالاها توسط دسته های مختلف کاربران؛
- به دست آوردن داده های تحلیلی دقیق در مورد زنجیره های تامین و مصرف، کنترل تلفات محصول در حین حمل و نقل (به عنوان مثال، کاهش وزن به دلیل انقباض و تبخیر انواع خاصی از کالاها).
- مقابله با محصولات تقلبی، افزایش اثربخشی مبارزه با پولشویی و کلاهبرداری و غیره.

دسترسی به داده‌های دقیق در مورد استفاده و مصرف کالاها تا حد زیادی پتانسیل فناوری Big Data را برای بهینه‌سازی فرآیندهای تجاری کلیدی، کاهش ریسک‌های نظارتی، و باز کردن فرصت‌های جدید برای کسب درآمد و ایجاد محصولاتی که به بهترین وجه ترجیحات مصرف‌کننده را برآورده می‌کنند، باز می‌کند.

همانطور که می دانید، نمایندگان بزرگترین مؤسسات مالی در حال حاضر علاقه زیادی به فناوری بلاک چین از جمله و غیره نشان می دهند. به گفته اولیور باسمن، مدیر فناوری اطلاعات هلدینگ مالی سوئیس UBS، فناوری بلاک چین می تواند زمان پردازش تراکنش را از چند روز به چند روز کاهش دهد. دقیقه».

پتانسیل تجزیه و تحلیل از بلاک چین با استفاده از فناوری Big Data بسیار زیاد است. فناوری رجیستری توزیع شده یکپارچگی اطلاعات و همچنین ذخیره سازی قابل اعتماد و شفاف کل تاریخچه تراکنش را تضمین می کند. داده های بزرگ به نوبه خود ابزارهای جدیدی را برای تجزیه و تحلیل موثر، پیش بینی، مدل سازی اقتصادی فراهم می کند و بر این اساس، فرصت های جدیدی را برای تصمیم گیری های مدیریتی آگاهانه تر باز می کند.

پشت سر هم بلاک چین و کلان داده را می توان با موفقیت در مراقبت های بهداشتی مورد استفاده قرار داد. همانطور که می دانید اطلاعات ناقص و ناقص در مورد سلامت بیمار در مواقعی خطر تشخیص نادرست و درمان نادرست تجویز شده را افزایش می دهد. داده های حیاتی در مورد سلامت مشتریان موسسات پزشکی باید تا حد امکان امن باشد، دارای ویژگی های تغییر ناپذیری باشد، قابل تایید باشد و در معرض هیچ گونه دستکاری قرار نگیرد.

اطلاعات موجود در بلاک چین تمام الزامات فوق را برآورده می کند و می تواند به عنوان داده منبع با کیفیت بالا و قابل اعتماد برای تجزیه و تحلیل عمیق با استفاده از فناوری های جدید Big Data عمل کند. علاوه بر این، با استفاده از بلاک چین، موسسات پزشکی می توانند داده های قابل اعتماد را با شرکت های بیمه، مقامات قضایی، کارفرمایان، موسسات دانشگاهی و سایر سازمان هایی که به اطلاعات پزشکی نیاز دارند مبادله کنند.

کلان داده و امنیت اطلاعات

در یک مفهوم گسترده، امنیت اطلاعات حفاظت از اطلاعات و زیرساخت های پشتیبانی از اثرات منفی تصادفی یا عمدی طبیعی یا مصنوعی است.

در حوزه امنیت اطلاعات، داده های بزرگ با چالش های زیر مواجه است:

- مشکلات حفاظت از داده ها و تضمین یکپارچگی آنها؛
- خطر دخالت خارجی و نشت اطلاعات محرمانه؛
- ذخیره سازی نامناسب اطلاعات محرمانه؛
- خطر از دست دادن اطلاعات، به عنوان مثال، به دلیل اقدامات مخرب شخصی؛
- خطر سوء استفاده از داده های شخصی توسط اشخاص ثالث و غیره

یکی از مشکلات اصلی داده های بزرگ که بلاک چین برای حل آن طراحی شده است در حوزه امنیت اطلاعات نهفته است. فناوری دفتر کل توزیع شده با اطمینان از رعایت تمام اصول اولیه خود، می تواند یکپارچگی و قابلیت اطمینان داده ها را تضمین کند و به دلیل عدم وجود یک نقطه شکست، بلاک چین کار را پایدار می کند. سیستم های اطلاعاتی. فناوری رجیستری توزیع شده می تواند به حل مشکل اعتماد به داده ها کمک کند و همچنین توانایی آن را فراهم کند تبادل جهانیآنها

اطلاعات یک دارایی ارزشمند است، به این معنی که جنبه های اصلی امنیت اطلاعات باید در خط مقدم باشد. برای بقای خود در رقابت، شرکت‌ها باید همگام با زمان باشند، به این معنی که نمی‌توانند فرصت‌ها و مزایای بالقوه‌ای را که فناوری بلاک چین و ابزارهای کلان داده در خود دارد نادیده بگیرند.

در محیط روسی زبان به عنوان یک اصطلاح استفاده می شود اطلاعات بزرگو مفهوم "داده های بزرگ". اصطلاح "داده های بزرگ" ردیابی یک اصطلاح انگلیسی است. کلان داده تعریف دقیقی ندارد. ترسیم یک مرز واضح غیرممکن است - 10 ترابایت است یا 10 مگابایت؟ نام خود بسیار ذهنی است. کلمه "بزرگ" در میان قبایل بدوی مانند "یک، دو، چند" است.

با این حال، یک عقیده ثابت وجود دارد که داده های بزرگ مجموعه ای از فناوری ها هستند که برای انجام سه عملیات طراحی شده اند. اول، پردازش مقادیر بیشتری از داده ها در مقایسه با سناریوهای "استاندارد". دوم اینکه بتوانید با داده های ورودی سریع در حجم بسیار زیاد کار کنید. یعنی نه تنها داده های زیادی وجود دارد، بلکه دائماً تعداد آنها بیشتر و بیشتر می شود. ثالثاً، آنها باید بتوانند با داده های ساختاریافته و ضعیف به طور موازی در جنبه های مختلف کار کنند. کلان داده فرض می کند که الگوریتم ها جریانی از اطلاعات را دریافت می کنند که همیشه ساختارمند نیستند و می توان بیش از یک ایده از آن استخراج کرد.

یک مثال معمولی از کلان داده، اطلاعاتی است که از امکانات تجربی فیزیکی مختلف به دست می‌آید - به عنوان مثال، از، که حجم عظیمی از داده را تولید می‌کند و همیشه این کار را انجام می‌دهد. نصب به طور مداوم حجم زیادی از داده ها را تولید می کند و دانشمندان از آنها برای حل بسیاری از مشکلات به طور موازی استفاده می کنند.

ظهور کلان داده ها در فضای عمومی به این دلیل بود که این داده ها تقریباً همه افراد را تحت تأثیر قرار می دهد و نه فقط جامعه علمی را که مدت هاست چنین مشکلاتی حل شده است. به حوزه عمومی فناوری اطلاعات بزرگوقتی شروع به صحبت در مورد یک عدد بسیار خاص - تعداد ساکنان سیاره - شد، بیرون آمد. جمع آوری 7 میلیارد در شبکه های اجتماعی و پروژه های دیگر که افراد را جمع می کند. یوتیوب, فیس بوک, در تماس با، که در آن تعداد افراد به میلیاردها اندازه گیری می شود و تعداد عملیات هایی که همزمان انجام می دهند بسیار زیاد است. جریان داده در این مورد، اقدامات کاربر است. مثلا دیتای همون هاست یوتیوب، که در هر دو جهت روی شبکه جریان دارند. پردازش نه تنها به معنای تفسیر، بلکه توانایی پردازش صحیح هر یک از این اقدامات است، یعنی قرار دادن آن در مکان مناسب و در دسترس قرار دادن سریع این داده ها در اختیار هر کاربر، زیرا شبکه های اجتماعی انتظار را تحمل نمی کنند.

بسیاری از آنچه به کلان داده مربوط می شود، رویکردهایی که برای تجزیه و تحلیل آن استفاده می شود، در واقع برای مدت طولانی وجود داشته است. به عنوان مثال، پردازش تصاویر از دوربین های نظارتی، زمانی که ما در مورد یک تصویر صحبت نمی کنیم، بلکه در مورد یک جریان داده صحبت می کنیم. یا روبات های ناوبری. همه اینها برای چندین دهه وجود داشته است، فقط در حال حاضر وظایف پردازش داده ها بر تعداد بسیار بیشتری از افراد و ایده ها تأثیر گذاشته است.

بسیاری از توسعه دهندگان به کار با اشیاء ثابت عادت کرده اند و بر اساس حالت ها فکر می کنند. در کلان داده، پارادایم متفاوت است. شما باید بتوانید با یک جریان بی وقفه از داده ها کار کنید و این کار جالبی است. بیشتر و بیشتر مناطق را تحت تأثیر قرار می دهد.

در زندگی ما، سخت افزارها و نرم افزارهای بیشتری شروع به تولید حجم زیادی از داده ها می کنند - به عنوان مثال، "اینترنت اشیا".

چیزها در حال حاضر جریان های عظیمی از اطلاعات را ایجاد می کنند. سیستم پلیس پوتوک اطلاعات را از تمام دوربین ها ارسال می کند و به شما امکان می دهد با استفاده از این داده ها خودروها را پیدا کنید. دستبندهای تناسب اندام، ردیاب های GPS و چیزهای دیگری که وظایف یک فرد و کسب و کار را انجام می دهند، بیشتر و بیشتر به مد می آیند.

دپارتمان اطلاعات مسکو تعداد زیادی تحلیلگر داده را جذب می کند، زیرا آمارهای زیادی در مورد افراد وجود دارد و چند معیاره است (یعنی آمار در مورد هر فرد، در مورد هر گروه از افراد بر اساس آمار بسیار بزرگ جمع آوری می شود. تعداد معیارها). باید در این داده ها قاعده مندی و گرایش یافت. برای چنین وظایفی به ریاضیدانانی با تحصیلات فناوری اطلاعات نیاز است. زیرا در نهایت داده ها در DBMS های ساخت یافته ذخیره می شوند و شما باید بتوانید به آن دسترسی داشته باشید و اطلاعاتی را به دست آورید.

پیش از این، داده های بزرگ را به عنوان یک کار در نظر نمی گرفتیم، به این دلیل ساده که جایی برای ذخیره آن وجود نداشت و شبکه ای برای انتقال آن وجود نداشت. هنگامی که این فرصت ها ظاهر شدند، داده ها بلافاصله کل حجم ارائه شده به آنها را پر کردند. اما مهم نیست که چگونه گسترش می دهید توان عملیاتیو توانایی ذخیره داده ها، همیشه منابع وجود خواهد داشت، به عنوان مثال، آزمایش های فیزیکیآزمایش‌های مدل‌سازی آیرودینامیکی که اطلاعات بیشتری از آنچه ما می‌توانیم منتقل کنیم تولید می‌کند. طبق قانون مور، عملکرد موازی مدرن سیستم های محاسباتیبه طور پیوسته در حال افزایش است و سرعت شبکه های انتقال داده نیز در حال رشد است. با این حال، داده ها باید بتوانند به سرعت از رسانه ذخیره و بازیابی شوند ( هارد دیسکو انواع دیگر حافظه)، و این یکی دیگر از چالش های پردازش داده های بزرگ است.

کلان داده یک اصطلاح گسترده برای استراتژی ها و فناوری های نوآورانه مورد نیاز برای جمع آوری، سازماندهی و پردازش اطلاعات از مجموعه داده های بزرگ است. اگرچه مشکل برخورد با داده‌هایی که بیش از توان محاسباتی یا ظرفیت ذخیره‌سازی یک رایانه جدید هستند، جدید نیست، مقیاس و ارزش این نوع محاسبات در سال‌های اخیر به طور قابل توجهی گسترش یافته است.

در این مقاله، مفاهیم اصلی را که ممکن است هنگام کاوش داده های بزرگ با آنها مواجه شوید، خواهید یافت. همچنین برخی از فرآیندها و فناوری هایی که در حال حاضر در این زمینه استفاده می شوند را مورد بحث قرار می دهد.

کلان داده چیست؟

تعریف دقیق "داده های بزرگ" دشوار است زیرا پروژه ها، فروشندگان، متخصصان و متخصصان تجاری از آن به روش های بسیار متفاوتی استفاده می کنند. با در نظر گرفتن این موضوع، داده های بزرگ را می توان به صورت زیر تعریف کرد:

مجموعه داده های بزرگ
دسته ای از استراتژی ها و فناوری های محاسباتی که برای پردازش مجموعه داده های بزرگ استفاده می شود.

در این زمینه، «مجموعه داده‌های بزرگ» به معنای مجموعه داده‌ای است که برای پردازش یا ذخیره با استفاده از ابزارهای سنتی یا روی یک رایانه بسیار بزرگ است. این بدان معنی است که مقیاس کلی مجموعه داده های بزرگ به طور مداوم در حال تغییر است و می تواند به طور قابل توجهی از موردی به مورد دیگر متفاوت باشد.

سیستم های داده های بزرگ

الزامات اساسی برای کار با داده های بزرگ مانند هر مجموعه داده دیگری است. با این حال، مقیاس عظیم، سرعت پردازش و ویژگی‌های داده‌ای که در هر مرحله از فرآیند با چالش‌های جدی جدیدی در توسعه ابزار مواجه می‌شوند. هدف اکثر سیستم‌های کلان داده درک و برقراری ارتباط با مقادیر زیادی از داده‌های ناهمگن است به نحوی که با استفاده از روش‌های مرسوم امکان‌پذیر نباشد.

در سال 2001، داگ لین از گارتنر، "سه در مقابل داده های بزرگ" را معرفی کرد تا برخی از ویژگی هایی را که پردازش کلان داده را از سایر انواع پردازش داده متفاوت می کند، توصیف کند:

حجم (حجم داده).
سرعت (سرعت انباشت و پردازش داده ها).
تنوع (انواع انواع داده های پردازش شده).

حجم داده ها

مقیاس استثنایی اطلاعات در حال پردازش به تعریف سیستم های کلان داده کمک می کند. این مجموعه داده‌ها می‌توانند مرتبه‌های بزرگ‌تری نسبت به مجموعه‌های داده سنتی داشته باشند و در هر مرحله از پردازش و ذخیره‌سازی به توجه بیشتری نیاز دارند.

از آنجایی که نیازها بیش از ظرفیت یک کامپیوتر است، مشکل اغلب از ادغام، توزیع و هماهنگ کردن منابع از گروه‌های کامپیوتری به وجود می‌آید. مدیریت خوشه‌ها و الگوریتم‌هایی که قادر به تقسیم وظایف به بخش‌های کوچک‌تر هستند، در این زمینه اهمیت فزاینده‌ای پیدا می‌کنند.

سرعت انباشت و پردازش

دومین ویژگی که داده های بزرگ را به طور قابل توجهی از سایر سیستم های داده متمایز می کند، سرعت حرکت اطلاعات در سیستم است. داده ها اغلب از چندین منبع وارد سیستم می شوند و برای به روز رسانی باید در زمان واقعی پردازش شوند وضعیت فعلیسیستم های.

این تاکید بر بازخورد آنی باعث شده است که بسیاری از پزشکان رویکرد دسته محور را به نفع یک سیستم پخش بلادرنگ کنار بگذارند. داده ها به طور مداوم در حال افزودن، پردازش و تجزیه و تحلیل هستند تا با هجوم اطلاعات جدید هماهنگی داشته باشند و داده های ارزشمند را در مراحل اولیه و زمانی که بیشترین ارتباط را دارند به دست آورند. این نیاز به سیستم‌های قوی با اجزای بسیار در دسترس برای محافظت در برابر خرابی در طول خط لوله داده دارد.

انواع داده های پردازش شده

کلان داده دارای چالش های منحصر به فرد زیادی است که مربوط به گستره وسیع منابع پردازش شده و کیفیت نسبی آنهاست.

داده‌ها ممکن است از سیستم‌های داخلی مانند گزارش‌های برنامه‌ها و سرورها، فیدهای رسانه‌های اجتماعی و دیگر APIهای خارجی، حسگرهای دستگاه فیزیکی و منابع دیگر به دست آیند. هدف سیستم های کلان داده پردازش داده های بالقوه مفید، صرف نظر از منشأ، با ترکیب همه اطلاعات در یک سیستم واحد است.

فرمت ها و انواع رسانه ها نیز می توانند به طور قابل توجهی متفاوت باشند. فایل های رسانه ای (تصاویر، ویدئو و صدا) با آنها ادغام می شوند فایل های متنیسیستم‌های پردازش داده‌های سنتی بیشتر انتظار دارند که داده‌هایی که قبلاً برچسب‌گذاری شده، قالب‌بندی شده و سازمان‌دهی شده‌اند وارد خط لوله شوند، اما سیستم‌های کلان داده معمولاً داده‌ها را می‌پذیرند و ذخیره می‌کنند در حالی که سعی می‌کنند حالت اولیه خود را حفظ کنند. در حالت ایده‌آل، هرگونه تغییر یا تغییر در داده‌های خام در حین پردازش در حافظه اتفاق می‌افتد.

سایر خصوصیات

با گذشت زمان، افراد و سازمان‌ها گسترش «سه در مقابل» اصلی را پیشنهاد کرده‌اند، اگرچه این نوآوری‌ها بیشتر به توصیف مشکلات می‌پردازند تا ویژگی‌های کلان داده.

صحت: تنوع منابع و پیچیدگی پردازش می تواند منجر به مشکلاتی در ارزیابی کیفیت داده ها (و در نتیجه کیفیت تجزیه و تحلیل حاصل) شود.
تنوع (تغییرپذیری داده): تغییر داده ها منجر به تغییرات گسترده ای در کیفیت می شود. شناسایی، پردازش یا فیلتر کردن داده‌های با کیفیت پایین ممکن است به منابع بیشتری برای بهبود کیفیت داده‌ها نیاز داشته باشد.
ارزش: هدف نهایی کلان داده ارزش است. گاهی اوقات سیستم ها و فرآیندها بسیار پیچیده هستند و استفاده از داده ها و استخراج مقادیر واقعی را دشوار می کند.

چرخه حیات داده های بزرگ

بنابراین، داده های بزرگ در واقع چگونه مدیریت می شوند؟ چندین رویکرد پیاده سازی متفاوت وجود دارد، اما اشتراکاتی بین استراتژی ها و نرم افزارها وجود دارد.

وارد کردن داده ها به سیستم
ذخیره داده ها در ذخیره سازی
محاسبه و تجزیه و تحلیل داده ها
تجسم نتایج

قبل از بررسی جزئیات این چهار دسته از گردش کار، اجازه دهید در مورد محاسبات خوشه ای، یک استراتژی مهم که توسط بسیاری از ابزارهای پردازش داده های بزرگ استفاده می شود، صحبت کنیم. راه اندازی یک خوشه محاسباتی ستون فقرات فناوری مورد استفاده در هر مرحله از چرخه زندگی است.

محاسبات خوشه ای

به دلیل کیفیت داده های بزرگ، رایانه های فردی برای پردازش داده ها مناسب نیستند. خوشه ها برای این کار مناسب تر هستند، زیرا می توانند نیازهای ذخیره سازی و محاسباتی داده های بزرگ را برطرف کنند.

نرم‌افزار خوشه‌بندی کلان داده منابع بسیاری از ماشین‌های کوچک را جمع‌آوری می‌کند، با هدف ارائه تعدادی از مزایا:

ادغام منابع: پردازش مجموعه داده های بزرگ به مقدار زیادی از CPU و منابع حافظه و همچنین فضای ذخیره سازی زیادی نیاز دارد.
در دسترس بودن بالا: خوشه ها می توانند سطوح مختلفی از انعطاف پذیری و در دسترس بودن را ارائه دهند تا دسترسی و پردازش داده ها تحت تأثیر خرابی های سخت افزاری یا نرم افزاری قرار نگیرد. این به ویژه برای تجزیه و تحلیل زمان واقعی مهم است.
مقیاس پذیری: خوشه ها از مقیاس بندی سریع افقی پشتیبانی می کنند (افزودن ماشین های جدید به خوشه).

برای کار در یک خوشه، به ابزارهایی برای مدیریت عضویت در خوشه، هماهنگی تخصیص منابع و برنامه ریزی کار با گره های جداگانه نیاز دارید. عضویت در کلاستر و تخصیص منابع را می توان با برنامه هایی مانند Hadoop YARN (Yet Another Resource Negotiator) یا Apache Mesos انجام داد.

یک خوشه محاسباتی پیش ساخته اغلب به عنوان پایه ای عمل می کند که دیگری برای پردازش داده ها با آن تعامل دارد. نرم افزار. ماشین‌های شرکت‌کننده در یک خوشه محاسباتی نیز معمولاً با مدیریت ذخیره‌سازی توزیع شده مرتبط هستند.

گرفتن داده

هضم داده ها فرآیند افزودن داده های خام به سیستم است. پیچیدگی این عملیات تا حد زیادی به قالب و کیفیت منابع داده و چگونگی برآورده شدن داده ها با الزامات پردازش بستگی دارد.

با استفاده از آن می توانید داده های بزرگ را به سیستم اضافه کنید ابزار مخصوص. فناوری هایی مانند Apache Sqoop می توانند داده های موجود را از پایگاه داده های رابطه ای گرفته و به یک سیستم کلان داده اضافه کنند. همچنین می توانید از Apache Flume و Apache Chukwa استفاده کنید - پروژه هایی که برای جمع آوری و وارد کردن گزارش های برنامه و سرور طراحی شده اند. کارگزاران پیام مانند آپاچی کافکا را می توان به عنوان رابط بین مولدهای مختلف داده و یک سیستم کلان داده استفاده کرد. چارچوب هایی مانند Gobblin می توانند خروجی همه ابزارها را در انتهای خط لوله ترکیب و بهینه کنند.

در طول مصرف داده ها، تجزیه و تحلیل، مرتب سازی و برچسب گذاری معمولا انجام می شود. این فرآیند گاهی اوقات به عنوان ETL (extract, transform, load) نامیده می شود که به معنای استخراج، تبدیل و بارگذاری است. در حالی که این اصطلاح معمولاً به فرآیندهای ذخیره سازی قدیمی اشاره دارد، گاهی اوقات برای سیستم های داده های بزرگ نیز به کار می رود. عملیات معمولی شامل اصلاح داده‌های دریافتی برای قالب‌بندی، دسته‌بندی و برچسب‌گذاری، فیلتر کردن یا اعتبارسنجی داده‌ها است.

در حالت ایده آل، داده های ورودی حداقل قالب بندی می شوند.

ذخیره سازی داده ها

پس از دریافت، داده ها به اجزای مدیریت ذخیره سازی منتقل می شود.

به طور معمول، سیستم های فایل توزیع شده برای ذخیره داده های خام استفاده می شوند. راه حل هایی مانند HDFS Apache Hadoop به شما این امکان را می دهد که مقادیر زیادی داده را در چندین گره در یک خوشه بنویسید. این سیستم منابع محاسباتی را با دسترسی به داده‌ها فراهم می‌کند، می‌تواند داده‌ها را در RAM کلاستر برای عملیات حافظه بارگذاری کند و خرابی اجزا را مدیریت کند. سایر سیستم های فایل توزیع شده را می توان به جای HDFS استفاده کرد، از جمله Ceph و GlusterFS.

همچنین می‌توان داده‌ها را برای دسترسی ساختاریافته‌تر به سیستم‌های توزیع‌شده دیگر وارد کرد. پایگاه داده های توزیع شده، به ویژه پایگاه های داده NoSQL، برای این نقش مناسب هستند زیرا می توانند داده های ناهمگن را مدیریت کنند. بسته به نحوه سازماندهی و ارائه داده ها، انواع مختلفی از پایگاه های داده توزیع شده وجود دارد.

محاسبه و تجزیه و تحلیل داده ها

هنگامی که داده ها در دسترس هستند، سیستم می تواند پردازش را آغاز کند. سطح محاسباتی شاید آزادترین بخش سیستم باشد، زیرا الزامات و رویکردها در اینجا بسته به نوع اطلاعات می توانند به طور قابل توجهی متفاوت باشند. داده‌ها اغلب با یک ابزار واحد یا با طیف وسیعی از ابزارها برای پردازش انواع مختلف داده‌ها دوباره پردازش می‌شوند.

پردازش دسته ای یکی از روش های محاسبه در مجموعه داده های بزرگ است. این فرآیند شامل تجزیه داده ها به قطعات کوچکتر، برنامه ریزی هر قطعه برای پردازش در یک ماشین جداگانه، مرتب سازی مجدد داده ها بر اساس نتایج میانی و سپس محاسبه و جمع آوری نتیجه نهایی است. این استراتژی از MapReduce از Apache Hadoop استفاده می کند. پردازش دسته ای هنگام کار با مجموعه داده های بسیار بزرگ که نیاز به محاسبات کمی دارند، بسیار مفید است.

سایر بارهای کاری نیاز به پردازش بلادرنگ دارند. ضمناً اطلاعات باید سریعاً پردازش و آماده شود و با در دسترس قرار گرفتن اطلاعات جدید، سیستم باید به موقع پاسخ دهد. یکی از راه‌های پیاده‌سازی پردازش بلادرنگ، پردازش یک جریان پیوسته از داده‌های متشکل از عناصر منفرد. یکی دیگه ویژگی های عمومیپردازنده های بلادرنگ - این محاسبه داده ها در حافظه خوشه است که از نوشتن روی دیسک جلوگیری می کند.

Apache Storm، Apache Flink و Apache Spark پیشنهاد می کنند راه های مختلفپیاده سازی پردازش زمان واقعی این فناوری‌های انعطاف‌پذیر به شما امکان می‌دهند بهترین رویکرد را برای هر مشکل فردی انتخاب کنید. به طور کلی، پردازش بلادرنگ برای تجزیه و تحلیل داده‌های کوچکی که تغییر می‌کنند یا به سرعت به سیستم اضافه می‌شوند، مناسب‌تر است.

همه این برنامه ها چارچوب هستند. با این حال، روش های بسیار دیگری برای محاسبه یا تجزیه و تحلیل داده ها در یک سیستم کلان داده وجود دارد. این ابزارها اغلب به چارچوب های فوق متصل می شوند و رابط های اضافی برای تعامل با لایه های زیرین فراهم می کنند. به عنوان مثال، Apache Hive یک رابط انبار داده برای Hadoop، Apache Pig یک رابط پرس و جو و تعامل با داده های SQLهمراه با مته Apache، Apache Impala، Apache Spark SQL و Presto ارائه شده است. یادگیری ماشین از Apache SystemML، Apache Mahout و MLlib از Apache Spark استفاده می کند. برای برنامه نویسی تحلیلی مستقیم، که به طور گسترده توسط اکوسیستم داده پشتیبانی می شود، از R و Python استفاده می شود.

تجسم نتایج

اغلب، تشخیص روندها یا تغییرات داده ها در طول زمان مهمتر از مقادیر به دست آمده است. تجسم داده ها یکی از مفیدترین راه ها برای شناسایی روندها و سازماندهی تعداد زیادی از نقاط داده است.

پردازش بلادرنگ برای تجسم معیارهای برنامه و سرور استفاده می شود. داده ها به طور مکرر تغییر می کنند و واریانس های بزرگ در معیارها معمولاً تأثیر قابل توجهی بر سلامت سیستم ها یا سازمان ها نشان می دهد. پروژه هایی مانند Prometheus را می توان برای پردازش جریان های داده و سری های زمانی و تجسم این اطلاعات استفاده کرد.

یکی از راه‌های رایج برای تجسم داده‌ها، پشته Elastic است که قبلا به عنوان پشته ELK شناخته می‌شد. Logstash برای جمع آوری داده ها، Elasticsearch برای نمایه سازی داده ها و Kibana برای تجسم استفاده می شود. پشته Elastic می تواند با داده های بزرگ کار کند، نتایج محاسبات را تجسم کند یا با معیارهای خام تعامل داشته باشد. یک پشته مشابه را می توان با ادغام Apache Solr برای نمایه سازی یک چنگال از Kibana به نام Banana برای تجسم به دست آورد. چنین پشته ای ابریشم نامیده می شود.

اسناد یکی دیگر از فناوری های تجسم برای کار داده های تعاملی است. چنین پروژه هایی اجازه می دهد تحقیق تعاملیو تجسم داده ها در قالبی مناسب برای اشتراک گذاریو ارائه داده ها نمونه های محبوب این نوع رابط کاربری Jupyter Notebook و Apache Zeppelin هستند.

واژه نامه کلان داده

کلان داده یک اصطلاح گسترده برای مجموعه داده هایی است که به دلیل اندازه، سرعت و تنوع، نمی توانند به درستی توسط رایانه ها یا ابزارهای معمولی پردازش شوند. این اصطلاح معمولاً به فناوری ها و استراتژی هایی برای برخورد با چنین داده هایی نیز اطلاق می شود.
پردازش دسته ای یک استراتژی محاسباتی است که شامل پردازش داده ها در مجموعه های بزرگ است. این روش معمولا برای برخورد با داده های غیر فوری ایده آل است.
محاسبات خوشه ای عملی است که منابع چندین ماشین را با هم ترکیب می کند و توانایی های ترکیبی آنها را برای انجام وظایف مدیریت می کند. این نیاز به یک لایه مدیریت خوشه ای دارد که ارتباط بین گره های فردی را مدیریت می کند.
دریاچه داده یک مخزن بزرگ از داده های جمع آوری شده در حالت نسبتا خام است. این اصطلاح اغلب برای اشاره به داده های بزرگ بدون ساختار و اغلب در حال تغییر استفاده می شود.
داده کاوی یک اصطلاح گسترده برای شیوه های مختلف یافتن الگوها در مجموعه داده های بزرگ است. این تلاشی است برای سازماندهی انبوهی از داده ها در مجموعه ای قابل فهم تر و منسجم تر از اطلاعات.
انبار داده یک مخزن بزرگ و سازمان یافته برای تجزیه و تحلیل و گزارش است. برخلاف دریاچه داده، یک انبار شامل داده های فرمت شده و به خوبی سازماندهی شده است که با منابع دیگر ادغام شده است. انبارهای داده اغلب در ارتباط با داده های بزرگ نامیده می شوند، اما آنها اغلب اجزای سیستم های پردازش داده های معمولی هستند.
ETL (استخراج، تبدیل و بارگذاری) - استخراج، تبدیل و بارگذاری داده ها. فرآیند به دست آوردن و آماده سازی داده های خام برای استفاده به این صورت است. با انبارهای داده مرتبط است، اما ویژگی های این فرآیند در خطوط لوله سیستم های کلان داده نیز یافت می شود.
Hadoop یک پروژه منبع باز آپاچی برای داده های بزرگ است. شامل توزیع شده است سیستم فایلبه نام HDFS و یک خوشه و زمانبندی منابع به نام YARN. قابلیت های پردازش دسته ای توسط موتور محاسبه MapReduce ارائه می شود. با MapReduce، استقرارهای مدرن Hadoop می توانند سایر سیستم های محاسباتی و تحلیلی را اجرا کنند.
محاسبات درون حافظه یک استراتژی است که شامل انتقال مجموعه داده های کاری به طور کامل به حافظه خوشه می شود. محاسبات میانی روی دیسک نوشته نمی شوند، در عوض در حافظه ذخیره می شوند. این به سیستم ها مزیت سرعت زیادی نسبت به سیستم های I/O-bound می دهد.
یادگیری ماشینی مطالعه و تمرین طراحی سیستم هایی است که می توانند بر اساس داده هایی که به آنها داده می شود یاد بگیرند، تنظیم کنند و بهبود ببخشند. معمولاً این به معنای اجرای الگوریتم های پیش بینی و آماری است.
کاهش نقشه (با MapReduce Hadoop اشتباه نشود) یک الگوریتم زمانبندی خوشه محاسباتی است. این فرآیند شامل تقسیم کار بین گره ها و دریافت نتایج متوسط، به هم زدن و سپس خروجی یک مقدار برای هر مجموعه است.
NoSQL یک اصطلاح گسترده برای پایگاه داده هایی است که خارج از مدل رابطه ای سنتی طراحی شده اند. پایگاه داده های NoSQL به دلیل انعطاف پذیری و معماری توزیع شده برای داده های بزرگ مناسب هستند.
جریان عبارت است از محاسبه تک تک اقلام داده در حین حرکت در سیستم. این امکان تجزیه و تحلیل داده های بلادرنگ را فراهم می کند و برای پردازش تراکنش های حساس زمانی با استفاده از معیارهای سرعت بالا مناسب است.

برچسب ها: ,

فقط تنبل در مورد داده های بزرگ صحبت نمی کند، اما به سختی می فهمد که چیست و چگونه کار می کند. بیایید با ساده ترین - اصطلاحات شروع کنیم. به زبان روسی، Big data ابزارها، رویکردها و روش‌های مختلفی برای پردازش داده‌های ساختاریافته و بدون ساختار به منظور استفاده از آنها برای وظایف و اهداف خاص است.

داده های بدون ساختار اطلاعاتی هستند که ساختار از پیش تعیین شده ای ندارند یا به ترتیب خاصی سازماندهی نشده اند.

اصطلاح "داده های بزرگ" توسط کلیفورد لینچ، سردبیر نیچر در سال 2008 در یک شماره ویژه درباره رشد انفجاری حجم اطلاعات جهان ابداع شد. اگرچه، البته، خود داده های بزرگ قبلا وجود داشته است. به گفته کارشناسان، اکثریت جریان داده های بیش از 100 گیگابایت در روز متعلق به دسته داده های بزرگ است.

همچنین بخوانید:

امروزه، این اصطلاح ساده تنها دو کلمه را پنهان می کند - ذخیره سازی و پردازش داده ها.

داده های بزرگ - به عبارت ساده

AT دنیای مدرنداده های بزرگ یک پدیده اجتماعی-اقتصادی است که با این واقعیت همراه است که فرصت های فناوری جدید برای تجزیه و تحلیل حجم عظیمی از داده ها ظاهر شده است.

همچنین بخوانید:

برای سهولت درک، سوپرمارکتی را تصور کنید که در آن همه کالاها به ترتیبی که شما به آن عادت کرده اید نیست. نان در کنار میوه، رب گوجه فرنگی در کنار پیتزای یخ زده، مایع فندکی در کنار قفسه ای از تامپون که آووکادو، توفو یا قارچ شیتاکه دارد و غیره. بیگ دیتا همه چیز را در جای خود قرار می دهد و به شما کمک می کند شیر آجیل را پیدا کنید، از هزینه و تاریخ انقضا مطلع شوید و همچنین چه کسی به جز شما چنین شیری را می خرد و چگونه بهتر از شیر گاو است.

کنت کوکیر: داده های بزرگ داده های بهتری هستند

فناوری داده های بزرگ

حجم عظیمی از داده‌ها پردازش می‌شوند تا فرد بتواند نتایج خاص و لازم را برای کاربرد مؤثر بیشتر آنها به دست آورد.

همچنین بخوانید:

در واقع، داده های بزرگ یک حل کننده مشکل و جایگزینی برای سیستم های مدیریت داده سنتی است.

تکنیک ها و روش های تجزیه و تحلیل قابل استفاده برای داده های بزرگ طبق مک کینزی:

داده کاوی؛
جمع سپاری؛
ترکیب و یکپارچه سازی داده ها؛
فراگیری ماشین؛
شبکه های عصبی مصنوعی؛
تشخیص الگو؛
تجزیه و تحلیل پیش بینی کننده؛
مدل سازی شبیه سازی؛
تحلیل فضایی؛
تحلیل آماری؛
بصری سازی داده های تحلیلی

مقیاس پذیری افقی که پردازش داده ها را امکان پذیر می کند، اصل اساسی پردازش کلان داده است. داده ها در گره های محاسباتی توزیع می شوند و پردازش بدون کاهش عملکرد انجام می شود. مک‌کینزی همچنین سیستم‌های مدیریت رابطه‌ای و هوش تجاری را در زمینه کاربردی گنجاند.

فن آوری:

NoSQL;
MapReduce;
هادوپ
راه حل های سخت افزاری

همچنین بخوانید:

برای کلان داده ها، مشخصه های تعریف کننده سنتی وجود دارد که توسط گروه متا در سال 2001 توسعه یافته است، که به نام " سه V»:

جلد- مقدار حجم فیزیکی
سرعت- نرخ رشد و نیاز به پردازش سریع داده ها برای به دست آوردن نتایج.
تنوع- توانایی پردازش همزمان انواع متفاوتداده ها.

داده های بزرگ: کاربرد و فرصت ها

حجم اطلاعات دیجیتالی ناهمگن و به سرعت دریافتی را نمی توان با ابزارهای سنتی پردازش کرد. تجزیه و تحلیل داده ها به خودی خود به شما امکان می دهد الگوهای مشخص و نامحسوسی را ببینید که شخص نمی تواند آنها را ببیند. این به ما امکان می دهد تا تمام زمینه های زندگی خود را بهینه کنیم - از تحت کنترل دولتبه تولید و مخابرات.

به عنوان مثال، چند سال پیش برخی از شرکت ها از مشتریان خود در برابر کلاهبرداری محافظت کردند و مراقبت از پول مشتری مراقبت از پول خود است.

سوزان اتلیگر: داده های بزرگ چطور؟

راه حل های مبتنی بر داده های بزرگ: Sberbank، Beeline و سایر شرکت ها

Beeline اطلاعات زیادی در مورد مشترکین دارد که آنها نه تنها برای کار با آنها، بلکه برای ایجاد محصولات تحلیلی مانند مشاوره خارجی یا تجزیه و تحلیل IPTV از آنها استفاده می کنند. Beeline پایگاه داده را تقسیم بندی کرد و با استفاده از HDFS و Apache Spark برای ذخیره سازی و Rapidminer و Python برای پردازش داده ها، از مشتریان در برابر کلاهبرداری پول و ویروس ها محافظت کرد.

همچنین بخوانید:

یا Sberbank را با کیس قدیمی خود به نام AS SAFI به یاد بیاورید. این سیستمی است که عکس ها را برای شناسایی مشتریان بانک و جلوگیری از کلاهبرداری تجزیه و تحلیل می کند. این سیستم در سال 2014 معرفی شد، این سیستم مبتنی بر مقایسه عکس‌های پایگاه داده است که از وب‌کم‌های روی قفسه‌ها به لطف دید کامپیوتری به آنجا می‌رسند. اساس سیستم یک پلت فرم بیومتریک است. با تشکر از این، موارد کلاهبرداری 10 برابر کاهش یافت.

کلان داده در جهان

تا سال 2020، طبق پیش بینی ها، بشریت 40-44 زتابایت اطلاعات تشکیل خواهد داد. طبق گزارش The Data Age 2025 که توسط تحلیلگران IDC تهیه شده است، تا سال 2025 رشد 10 برابری خواهد داشت. این گزارش اشاره می‌کند که بیشتر داده‌ها توسط خود کسب‌وکارها تولید می‌شوند، نه مصرف‌کنندگان عادی.

تحلیلگران این مطالعه بر این باورند که داده ها به یک دارایی حیاتی تبدیل خواهند شد و امنیت - پایه ای حیاتی در زندگی است. نویسندگان این اثر همچنین مطمئن هستند که فناوری چشم انداز اقتصادی را تغییر خواهد داد و کاربر معمولیحدود 4800 بار در روز با دستگاه های متصل ارتباط برقرار می کند.

بازار داده های بزرگ در روسیه

در سال 2017، درآمد جهانی در بازار کلان داده باید به 150.8 میلیارد دلار برسد که 12.4 درصد بیشتر از سال گذشته است. در مقیاس جهانی، بازار روسیه برای خدمات و فناوری‌های کلان داده هنوز بسیار کوچک است. در سال 2014، شرکت آمریکایی IDC آن را 340 میلیون دلار برآورد کرد.در روسیه، این فناوری در بانکداری، انرژی، لجستیک، بخش عمومی، مخابرات و صنعت استفاده می شود.

همچنین بخوانید:

در مورد بازار داده، فقط در روسیه در مراحل اولیه است. در اکوسیستم RTB، ارائه دهندگان داده صاحب پلتفرم های مدیریت داده های برنامه ای (DMP) و مبادلات داده هستند. اپراتورهای مخابراتی آزمایشی اطلاعات مصرف کنندگان در مورد وام گیرندگان بالقوه را با بانک ها به اشتراک می گذارند.

به طور معمول، کلان داده از سه منبع به دست می آید:

اینترنت (شبکه های اجتماعی، انجمن ها، وبلاگ ها، رسانه ها و سایت های دیگر)؛
آرشیو اسناد شرکتی؛
نشانه های سنسورها، ابزارها و سایر دستگاه ها.

کلان داده در بانک ها

علاوه بر سیستم توضیح داده شده در بالا، در استراتژی Sberbank برای 2014-2018. در مورد اهمیت تجزیه و تحلیل مجموعه داده های فوق العاده برای خدمات مشتری با کیفیت، مدیریت ریسک و بهینه سازی هزینه صحبت می کند. این بانک اکنون از داده های بزرگ برای مدیریت ریسک ها، مبارزه با تقلب، تقسیم بندی و ارزیابی اعتبار مشتری، مدیریت پرسنل، پیش بینی صف ها در شعب، محاسبه پاداش برای کارکنان و سایر وظایف استفاده می کند.

VTB24 از داده های بزرگ برای تقسیم بندی و مدیریت ریزش مشتری، تولید صورت های مالی و تجزیه و تحلیل بازخورد در شبکه های اجتماعی و انجمن ها استفاده می کند. برای این کار از Teradata، SAS Visual Analytics و SAS Marketing Optimizer استفاده می کند.

ما مرتباً به کلمات و تعاریفی برخورد می کنیم که به نظر می رسد معنای آنها به طور شهودی برای ما روشن است، اما ما تصویر روشنی از این که چه چیزی یکسان است و چگونه کار می کند نداریم.

یکی از این مفاهیم Big Data است، در روسی گاهی اوقات می توانید یک ترجمه تحت اللفظی پیدا کنید - "داده های بزرگ"، اما اغلب مردم می گویند و می نویسند: داده های بزرگ. احتمالاً همه این عبارت را در اینترنت شنیده‌اند یا حداقل با آن برخورد کرده‌اند، و به نظر می‌رسد ساده است، اما اینکه منظور دقیقاً چیست، همیشه برای اومانیست‌های اداری که از پیچیدگی‌های دنیای دیجیتال به دور هستند، روشن نیست.

یک تلاش عالی برای پر کردن این شکاف در مغز گسترده ترین کاربران مقاله یکی از نویسندگان مورد علاقه ما برنارد مار است که به نام «داده بزرگ چیست؟ توضیح فوق العاده ساده برای همه". بدون عبارات نامفهوم، صرفاً به منظور تبیین ایده های کلیدی این پدیده برای همه، صرف نظر از تحصیلات و زمینه فعالیت.

در واقع، در چند سال گذشته، ما قبلاً در دنیایی زندگی می‌کردیم که از طریق داده‌های بزرگ به آن نفوذ کرده بود، اما همچنان در درک این که چه چیزی یکسان است، سردرگم می‌شویم. این تا حدی به دلیل این واقعیت است که خود مفهوم Big Data دائماً در حال تغییر و بازاندیشی است، زیرا دنیای فناوری‌های پیشرفته و پردازش مقادیر زیادی از اطلاعات به سرعت در حال تغییر است، از جمله گزینه‌های جدید بیشتر و بیشتر. و حجم این اطلاعات مدام در حال افزایش است.

بنابراین، Big Data - 2017 به چه معناست؟

همه چیز با رشد انفجاری در حجم داده هایی که از ابتدا ایجاد می کنیم شروع شد عصر دیجیتال. این امر تا حد زیادی با رشد تعداد و قدرت رایانه‌ها، گسترش اینترنت و توسعه فناوری‌هایی که قادر به جمع‌آوری اطلاعات از دنیای واقعی و فیزیکی که همه ما در آن زندگی می‌کنیم و تبدیل آن به داده‌های دیجیتال امکان‌پذیر شده است.

در سال 2017، زمانی که آنلاین می شویم، زمانی که از تلفن های هوشمند مجهز به GPS خود استفاده می کنیم، زمانی که با دوستان خود در شبکه های اجتماعی چت می کنیم، زمانی که دانلود می کنیم، داده تولید می کنیم. برنامه های موبایلیا موسیقی هنگام خرید

می توان گفت هر کاری که می کنیم، اگر اقدامات ما شامل هر گونه تراکنش دیجیتالی باشد، ردپای دیجیتالی زیادی از خود به جای می گذاریم. این تقریباً همیشه و همه جا است.

علاوه بر این، میزان داده های تولید شده توسط خود ماشین ها با سرعت فوق العاده ای در حال رشد است. داده ها زمانی ایجاد و منتقل می شوند که دستگاه های هوشمند ما با یکدیگر ارتباط برقرار کنند. کارخانه های تولیدی در سرتاسر جهان مجهز به تجهیزاتی هستند که داده ها را در شبانه روز جمع آوری و ارسال می کنند.

در آینده نزدیک، خیابان‌های ما مملو از اتومبیل‌های خودران خواهند شد که بر اساس نقشه‌های ۴ بعدی تولید شده در زمان واقعی، مسیریابی خود را انجام می‌دهند.

کلان داده چه کاری می تواند انجام دهد؟

یک جریان بی پایان در حال رشد از اطلاعات حسی، عکس ها، پیام های متنی، داده های صوتی و تصویری در قلب Big Data قرار دارند که می توانیم از آنها به روش هایی استفاده کنیم که حتی چند سال پیش غیرقابل تصور بود.

در حال حاضر، پروژه های مبتنی بر داده های بزرگ کمک می کنند:

- درمان بیماری ها و پیشگیری از سرطان. پزشکی مبتنی بر داده های بزرگ حجم عظیمی از سوابق و تصاویر پزشکی را تجزیه و تحلیل می کند، که تشخیص زودهنگام را ممکن می کند و به ایجاد درمان های جدید کمک می کند.

- با گرسنگی مبارزه کنید. کشاورزی در حال تجربه یک انقلاب واقعی داده های بزرگ است، که امکان استفاده از منابع را به روشی فراهم می کند که با حداقل تداخل با اکوسیستم محصول را به حداکثر می رساند و استفاده از ماشین آلات و تجهیزات را بهینه می کند.

- سیارات دور را کشف کنید. به عنوان مثال، ناسا حجم عظیمی از داده ها را تجزیه و تحلیل می کند و با کمک آنها مدل هایی از ماموریت های آینده به جهان های دور را می سازد.

- پیش بینی شرایط اضطراریماهیت متفاوتی داشته باشد و آسیب های احتمالی را به حداقل برساند. داده های حسگرهای متعدد می توانند مکان و زمان وقوع زلزله بعدی یا رفتار احتمالی افراد را پیش بینی کنند اضطراریکه شانس زنده ماندن را افزایش می دهد.

- جلوگیری از جرم و جنایتاز طریق استفاده از فناوری هایی که امکان تخصیص کارآمدتر منابع را فراهم می کند و آنها را به جایی که بیشتر مورد نیاز است هدایت می کند.

و نزدیکترین چیز به بسیاری از ما: داده های بزرگ زندگی را می سازد آدم عادیساده تر و راحت تر - این خرید آنلاین و برنامه ریزی سفر و ناوبری در یک کلان شهر است.

انتخاب کنید بهترین زمانخرید بلیط هواپیما و تصمیم گیری برای تماشای کدام فیلم یا سریال به لطف کار Big Data بسیار آسان شده است.

چگونه کار می کند؟

کلان داده بر این اصل کار می کند که هر چه بیشتر در مورد چیزی بدانید، می توانید با دقت بیشتری پیش بینی کنید که در آینده چه اتفاقی خواهد افتاد. مقایسه داده‌های فردی و روابط بین آنها (ما در مورد حجم عظیمی از داده‌ها و تعداد فوق‌العاده زیادی از ارتباطات احتمالی بین آنها صحبت می‌کنیم) الگوهای پنهان قبلی را نشان می‌دهد. این باعث می‌شود که به درون مشکل نگاه کنیم و در نهایت بفهمیم که چگونه می‌توانیم این یا آن فرآیند را مدیریت کنیم.

اغلب، فرآیند پردازش حجم زیادی از اطلاعات شامل ساخت مدل‌هایی بر اساس داده‌های جمع‌آوری‌شده و شبیه‌سازی‌های در حال اجرا است که در طی آن‌ها دائماً در حال تغییر هستند. تنظیمات کلیدی، در حالی که هر بار سیستم نظارت می کند که چگونه "تغییر تنظیمات" بر نتیجه احتمالی تأثیر می گذارد.

این فرآیند کاملاً خودکار است، زیرا ما در مورد تجزیه و تحلیل میلیون ها شبیه سازی، شمارش همه صحبت می کنیم. گزینه هاتا زمانی که الگو (طرح مورد نظر) پیدا شود یا تا زمانی که "روشنگری" رخ دهد، که به حل مشکلی که همه چیز برای آن شروع شده است کمک می کند.

برخلاف دنیای اشیاء و محاسبات آشنا برای ما، داده ها به شکلی بدون ساختار دریافت می شوند، یعنی انتقال آن به جداول با سلول ها و ستون های آشنا برای ما، مردم، دشوار است. حجم عظیمی از داده ها به صورت تصویر یا ویدیو منتقل می شود: از تصاویر ماهواره ای گرفته تا سلفی هایی که در اینستاگرام یا فیس بوک ارسال می کنید - درست مانند ورودی های ایمیل و پیام رسان یا تماس های تلفنی.

برای اینکه این جریان بی پایان و متنوع داده ها مفهوم عملی داشته باشد، Big Data اغلب از پیشرفته ترین فناوری های تجزیه و تحلیل استفاده می کند که شامل هوش مصنوعی و فراگیری ماشین(این زمانی است که یک برنامه در کامپیوتر برنامه های دیگر را آموزش می دهد).

رایانه‌ها خودشان یاد می‌گیرند که مشخص کنند این یا آن اطلاعات چه چیزی را نشان می‌دهند - به عنوان مثال، تشخیص تصاویر، زبان - و می‌توانند این کار را بسیار سریع‌تر از انسان‌ها انجام دهند.

برادر بزرگتر؟

به تناسب فرصت‌های بی‌سابقه‌ای که امروزه Big Data در اختیار ما قرار می‌دهد، تعداد نگرانی‌ها و سوالات مرتبط با استفاده از آن در حال افزایش است.

حریم خصوصی داده های شخصی. Big Data حجم عظیمی از اطلاعات را در مورد زندگی خصوصی ما جمع آوری می کند. اطلاعات زیادی وجود دارد که ما ترجیح می دهیم آنها را مخفی نگه داریم.

ایمنی. حتی اگر تصمیم بگیریم که انتقال تمام اطلاعات شخصی خود به یک دستگاه برای اهداف خاصی که برای ما مفید است اشکالی ندارد، آیا می‌توانیم مطمئن باشیم که داده‌های ما در مکانی امن ذخیره می‌شوند؟
چه کسی و چگونه می توانیم این را تضمین کنیم؟

تبعیض وقتی همه چیز مشخص است، آیا تبعیض علیه افراد بر اساس آنچه در مورد آنها به لطف داده های بزرگ شناخته شده است قابل قبول است؟ بانک ها از سابقه اعتباری شما استفاده می کنند و شرکت های بیمه بیمه خودرو را بر اساس اطلاعاتی که در مورد شما می دانند قیمت گذاری می کنند. این تا کجا می تواند پیش برود؟

می توان فرض کرد که برای به حداقل رساندن ریسک های شرکت، ارگان های دولتیو حتی افراد از آنچه می توانند در مورد ما یاد بگیرند استفاده می کنند و به دلایلی دسترسی ما را به منابع و اطلاعات محدود می کنند.

با همه مزایا، باید بدانیم که همه این نگرانی‌ها نیز بخشی جدایی ناپذیر از داده‌های بزرگ هستند. تا همین اواخر، دانشمندان در مورد پاسخ ها متحیر بودند، اما اکنون زمان آن فرا رسیده است که موج به کسب و کاری رسیده است که می خواهد از مزایای داده های بزرگ برای اهداف خود استفاده کند. و این می تواند مملو از عواقب فاجعه بار باشد.