تجزیه و تحلیل حجم زیادی از داده ها. ماشین برای داده های بزرگ مقیاس بندی و طبقه بندی

طبق تحقیقات و روندها

داده های بزرگ، "داده های بزرگ" چند سالی است که در مطبوعات IT و بازاریابی به بحث شهر تبدیل شده است. و واضح است: فناوری های دیجیتال در زندگی نفوذ کرده است انسان مدرن، "همه چیز نوشته شده است." حجم داده ها در مورد جنبه های مختلف زندگی در حال افزایش است و در عین حال امکان ذخیره سازی اطلاعات نیز رو به افزایش است.

فناوری های جهانی برای ذخیره سازی اطلاعات

منبع: هیلبرت و لوپز، «ظرفیت تکنولوژیکی جهان برای ذخیره، برقراری ارتباط و محاسبه اطلاعات»، Science، 2011 جهانی.

اکثر کارشناسان موافق هستند که تسریع رشد داده ها یک واقعیت عینی است. شبکه‌های اجتماعی، دستگاه‌های تلفن همراه، داده‌های دستگاه‌های اندازه‌گیری، اطلاعات تجاری تنها چند نوع منبع هستند که می‌توانند حجم عظیمی از اطلاعات را تولید کنند. طبق تحقیقات IDCجهان دیجیتال، منتشر شده در سال 2012، 8 سال آینده میزان داده ها در جهان به 40 Zb (زتابایت) می رسد که معادل 5200 گیگابایت برای هر ساکن کره زمین است.

رشد اطلاعات دیجیتال جمع آوری شده در ایالات متحده آمریکا


منبع: IDC

بخش قابل توجهی از اطلاعات توسط افراد ایجاد نمی‌شود، بلکه توسط روبات‌هایی که هم با یکدیگر و هم با سایر شبکه‌های داده تعامل دارند، مانند حسگرها و دستگاه های هوشمند. به گفته محققان با این سرعت رشد، میزان داده ها در جهان هر سال دو برابر می شود. تعداد مجازی و سرورهای فیزیکیدر جهان به دلیل گسترش و ایجاد مراکز داده جدید ده برابر رشد خواهد کرد. در این راستا نیاز روزافزونی به استفاده موثر و کسب درآمد از این داده ها احساس می شود. از آنجایی که استفاده از داده های بزرگ در کسب و کار نیاز به سرمایه گذاری قابل توجهی دارد، درک واضح وضعیت ضروری است. و در اصل ساده است: شما می توانید کارایی کسب و کار را با کاهش هزینه ها و/یا افزایش فروش افزایش دهید.

Big Data برای چیست؟

پارادایم کلان داده سه نوع اصلی کار را تعریف می کند.

  • ذخیره و مدیریت صدها ترابایت یا پتابایت داده که پایگاه های داده رابطه ای معمولی نمی توانند به طور موثر از آنها استفاده کنند.
  • سازماندهی اطلاعات بدون ساختار متشکل از متون، تصاویر، ویدئوها و انواع دیگر داده ها.
  • تجزیه و تحلیل کلان داده، که این سوال را مطرح می کند که چگونه با اطلاعات بدون ساختار، تولید گزارش های تحلیلی و پیاده سازی مدل های پیش بینی کار کنیم.

بازار پروژه داده های بزرگ با بازار هوش تجاری (BA) تلاقی می کند که حجم آن در جهان به گفته کارشناسان در سال 2012 حدود 100 میلیارد دلار بوده است. این شامل اجزای فناوری شبکه، سرورها، نرم افزارو خدمات فنی

همچنین، استفاده از فناوری‌های کلان داده برای راه‌حل‌های کلاس تضمین درآمد (RA) که برای خودکارسازی فعالیت‌های شرکت‌ها طراحی شده‌اند، مرتبط است. سیستم های مدرن تضمین درآمد شامل ابزارهایی برای تشخیص ناسازگاری ها و تجزیه و تحلیل عمیق داده ها است که به شما امکان می دهد به موقع زیان های احتمالی یا تحریف اطلاعات را شناسایی کنید که می تواند منجر به کاهش نتایج مالی شود. در این زمینه، شرکت‌های روسی با تایید تقاضا برای فناوری‌های Big Data در بازار داخلی، خاطرنشان می‌کنند که عواملی که توسعه داده‌های بزرگ در روسیه را تحریک می‌کنند، رشد داده‌ها، تسریع در تصمیم‌گیری مدیریتی و بهبود عملکرد آنها است. کیفیت

چه چیزی مانع از کار با داده های بزرگ می شود

امروزه تنها 0.5 درصد از داده های دیجیتالی انباشته شده تجزیه و تحلیل می شود، علیرغم این واقعیت که به طور عینی وظایفی در سطح صنعت وجود دارد که می توان با کمک آن ها را حل کرد. راه حل های تحلیلیکلاس داده های بزرگ بازارهای توسعه یافته فناوری اطلاعات در حال حاضر نتایجی دارند که می توان از آنها برای ارزیابی انتظارات مرتبط با انباشت و پردازش کلان داده ها استفاده کرد.

یکی از اصلی ترین عواملی که اجرای پروژه های Big Data را کند می کند، علاوه بر هزینه بالا، می باشد مشکل انتخاب داده هایی که باید پردازش شوند: یعنی تعریف اینکه چه داده هایی باید استخراج، ذخیره و تجزیه و تحلیل شوند و چه داده هایی نباید مورد توجه قرار گیرند.

بسیاری از نمایندگان کسب و کار خاطرنشان می کنند که مشکلات در اجرای پروژه های کلان داده با کمبود متخصص - بازاریابان و تحلیلگران همراه است. نرخ بازگشت سرمایه در Big Data به طور مستقیم به کیفیت کار کارکنان درگیر در تجزیه و تحلیل عمیق و پیش بینی کننده بستگی دارد. پتانسیل عظیم داده هایی که در حال حاضر در یک سازمان وجود دارد، اغلب به دلیل فرآیندهای تجاری قدیمی یا مقررات داخلی، نمی توانند به طور موثر توسط خود بازاریابان استفاده شوند. بنابراین، پروژه‌های کلان داده اغلب توسط کسب‌وکارها نه تنها در اجرا، بلکه در ارزیابی نتایج نیز دشوار تلقی می‌شوند: ارزش داده‌های جمع‌آوری‌شده. ویژگی های کار با داده ها به بازاریابان و تحلیلگران نیاز دارد که توجه خود را از فناوری و گزارش دهی به حل مشکلات خاص تجاری معطوف کنند.

به دلیل حجم زیاد و سرعت بالاجریان داده ها، فرآیند جمع آوری آنها شامل رویه های ETL بلادرنگ است. برای مرجع:ETL - از جانبانگلیسیاستخراج کردن, تبدیل, بار- به معنای واقعی کلمه "استخراج، تبدیل، بارگذاری") - یکی از فرآیندهای اصلی در مدیریت انبارهای داده که شامل: استخراج داده از منابع خارجی، تبدیل آنها و نظافت برای رفع نیازها ETL نه تنها باید به عنوان فرآیندی برای انتقال داده ها از یک برنامه کاربردی به برنامه دیگر، بلکه به عنوان ابزاری برای آماده سازی داده ها برای تجزیه و تحلیل در نظر گرفته شود.

و سپس مسائل مربوط به اطمینان از امنیت داده های دریافتی از منابع خارجی باید راه حل هایی داشته باشد که با حجم اطلاعات جمع آوری شده مطابقت داشته باشد. از آنجایی که روش‌های تحلیل کلان داده‌ها تاکنون تنها پس از رشد حجم داده‌ها در حال توسعه هستند، توانایی پلتفرم‌های تحلیلی در استفاده از روش‌های جدید تهیه و تجمیع داده‌ها نقش مهمی دارد. این نشان می دهد که برای مثال، داده های مربوط به خریداران بالقوه یا یک انبار داده عظیم با سابقه کلیک در سایت های فروشگاه آنلاین می تواند برای حل مشکلات مختلف جالب باشد.

سختی ها متوقف نمی شوند

علیرغم تمام مشکلاتی که در پیاده سازی Big Data وجود دارد، این کسب و کار قصد دارد سرمایه گذاری در این زمینه را افزایش دهد. بر اساس داده‌های گارتنر، در سال 2013، 64 درصد از بزرگترین شرکت‌های جهان قبلاً روی استقرار فناوری‌های Big Data برای تجارت خود سرمایه‌گذاری کرده‌اند یا برنامه‌هایی برای سرمایه‌گذاری دارند، در حالی که در سال 2012، 58 درصد از این شرکت‌ها وجود داشت. طبق یک مطالعه گارتنر، رهبران صنایع سرمایه‌گذاری بر روی داده‌های بزرگ، شرکت‌های رسانه‌ای، مخابرات، بخش بانکی و شرکت‌های خدماتی هستند. نتایج موفقیت‌آمیز اجرای Big Data در حال حاضر توسط بسیاری از بازیگران اصلی صنعت خرده‌فروشی از نظر استفاده از داده‌های به‌دست‌آمده با استفاده از ابزارهای RFID، لجستیک و سیستم‌های جابجایی (از انگلیسی) به دست آمده است. دوباره پر کردن- انباشت، دوباره پر کردن - تحقیق و توسعه)، و همچنین از برنامه های وفاداری. تجربه موفق خرده فروشی سایر بخش های بازار را برای یافتن بخش های جدید تحریک می کند. راه های موثرکسب درآمد از کلان داده ها برای تبدیل تجزیه و تحلیل آنها به منبعی که برای توسعه تجارت کار می کند. به همین دلیل، به گفته کارشناسان، تا سال 2020، سرمایه گذاری در مدیریت و ذخیره سازی برای هر گیگابایت داده از 2 دلار به 0.2 دلار کاهش می یابد، اما برای مطالعه و تجزیه و تحلیل ویژگی های فناوری داده های بزرگ تنها 40 رشد خواهد داشت. ٪.

هزینه های ارائه شده در پروژه های مختلف سرمایه گذاری در حوزه داده های بزرگ ماهیت متفاوتی دارند. اقلام هزینه بستگی به انواع محصولاتی دارد که بر اساس تصمیمات خاصی انتخاب می شوند. به گفته کارشناسان، بیشترین بخش از هزینه ها در پروژه های سرمایه گذاری به محصولات مربوط به جمع آوری، ساختار داده ها، تمیز کردن و مدیریت اطلاعات اختصاص دارد.

چگونه انجام می شود

ترکیبات زیادی از نرم افزار و سخت افزارکه به شما امکان ایجاد می دهد راه حل های موثرکلان داده برای رشته های مختلف کسب و کار: از رسانه های اجتماعی و برنامه های موبایل، قبل از تحلیل فکریو تجسم داده های تجاری یک مزیت مهم Big Data سازگاری ابزارهای جدید با پایگاه های داده است که به طور گسترده در تجارت مورد استفاده قرار می گیرد، که به ویژه هنگام کار با پروژه های بین رشته ای، مانند سازماندهی فروش چند کاناله و پشتیبانی از مشتری، اهمیت دارد.

توالی کار با داده های بزرگ شامل جمع آوری داده ها، ساختاردهی اطلاعات دریافتی با استفاده از گزارش ها و داشبورد (داشبورد)، ایجاد بینش و زمینه ها و تدوین توصیه هایی برای اقدام است. از آنجایی که کار با Big Data مستلزم هزینه های بالایی برای جمع آوری داده ها است که نتیجه پردازش آن از قبل مشخص نیست، وظیفه اصلی این است که به وضوح درک کنید که داده ها برای چه چیزی هستند و نه اینکه چه مقدار از آن در دسترس است. در این حالت، جمع آوری داده ها به فرآیندی برای به دست آوردن اطلاعات تبدیل می شود که برای حل مسائل خاص بسیار ضروری است.

به عنوان مثال، ارائه دهندگان مخابرات حجم عظیمی از داده ها، از جمله موقعیت جغرافیایی را که به طور مداوم به روز می شود، جمع آوری می کنند. این اطلاعات ممکن است برای آژانس های تبلیغاتی مورد توجه تجاری قرار گیرد، که ممکن است از آن برای ارائه تبلیغات هدفمند و محلی و همچنین خرده فروشان و بانک ها استفاده کنند. چنین داده‌هایی می‌توانند نقش مهمی در تصمیم‌گیری برای باز کردن یک فروشگاه خرده‌فروشی در یک مکان خاص بر اساس داده‌های حضور یک جریان هدفمند قدرتمند از مردم ایفا کنند. نمونه ای از اندازه گیری اثربخشی تبلیغات در بیلبوردهای فضای باز در لندن وجود دارد. اکنون پوشش چنین تبلیغاتی تنها با قرار دادن افراد در نزدیکی سازه های تبلیغاتی با دستگاه مخصوصی که رهگذران را شمارش می کند قابل سنجش است. در مقایسه با این نوع سنجش اثربخشی تبلیغات، اپراتور تلفن همراهفرصت های بسیار بیشتر - او دقیقاً مکان مشترکین خود را می داند، ویژگی های جمعیتی، جنسیت، سن، وضعیت تاهل و غیره را می داند.

بر اساس چنین داده هایی، در آینده، چشم انداز تغییر محتوای پیام تبلیغاتی با استفاده از ترجیحات شخصی خاص که از کنار بیلبورد عبور می کند، باز می شود. اگر داده ها نشان می دهد که شخصی که از آنجا می گذرد زیاد سفر می کند، می توان تبلیغی برای استراحتگاه به او نشان داد. برگزارکنندگان یک مسابقه فوتبال فقط می توانند تعداد هواداران را زمانی که به مسابقه می آیند تخمین بزنند. اما اگر فرصت داشتند از اپراتور بپرسند ارتباط سلولیاطلاعات در مورد محل حضور بازدیدکنندگان یک ساعت، یک روز یا یک ماه قبل از مسابقه، این به برگزارکنندگان این فرصت را می‌دهد تا مکان‌هایی را برای تبلیغ مسابقات بعدی برنامه‌ریزی کنند.

مثال دیگر این است که چگونه بانک ها می توانند از داده های بزرگ برای جلوگیری از کلاهبرداری استفاده کنند. اگر مشتری مفقود شدن کارت را گزارش دهد و هنگام خرید با استفاده از آن، بانک به صورت لحظه ای موقعیت تلفن مشتری را در منطقه خریدی که تراکنش انجام می شود مشاهده کند، بانک می تواند اطلاعات صورت حساب مشتری را بررسی کند. آیا سعی کرده او را فریب دهد. یا برعکس، وقتی مشتری در فروشگاهی خرید می کند، بانک می بیند کارتی که تراکنش روی آن انجام می شود و تلفن مشتری در یک مکان است، بانک می تواند به این نتیجه برسد که صاحب کارت از آن استفاده می کند. . به لطف این مزیت های Big Data، مرزهایی که انبارهای داده سنتی با آن وقف شده اند در حال گسترش است.

برای یک تصمیم موفقیت‌آمیز برای اجرای راه‌حل‌های کلان داده، یک شرکت باید یک مورد سرمایه‌گذاری را محاسبه کند و این به دلیل بسیاری از مؤلفه‌های ناشناخته، مشکلات زیادی را ایجاد می‌کند. پارادوکس تحلیل در چنین مواردی پیش بینی آینده بر اساس گذشته است که اطلاعاتی در مورد آن اغلب وجود ندارد. در این مورد، یک عامل مهم برنامه ریزی واضح اقدامات اولیه شما است:

  • در مرحله اول، تعیین یک مشکل تجاری خاص، که برای آن از فناوری های داده های بزرگ استفاده می شود، ضروری است، این کار به هسته اصلی تعیین صحت مفهوم انتخاب شده تبدیل می شود. شما باید روی جمع آوری داده های مربوط به این کار خاص تمرکز کنید و در طول اثبات مفهوم، می توانید از ابزارها، فرآیندها و روش های مدیریتی مختلفی استفاده کنید که به شما امکان می دهد در آینده تصمیمات آگاهانه تری بگیرید.
  • ثانیاً، بعید است که یک شرکت بدون مهارت و تجربه تجزیه و تحلیل داده بتواند با موفقیت یک پروژه کلان داده را پیاده سازی کند. دانش لازم همیشه از تجربه قبلی در تجزیه و تحلیل می آید که عامل اصلی تأثیرگذار بر کیفیت کار با داده ها است. فرهنگ استفاده از داده ها نقش مهمی ایفا می کند، زیرا اغلب تجزیه و تحلیل اطلاعات باز می شود حقیقت تلخدر مورد تجارت، و برای پذیرش و کار با این حقیقت، به روش های توسعه یافته کار با داده ها نیاز است.
  • ثالثاً، ارزش فناوری های کلان داده در ارائه بینش نهفته است.تحلیلگران خوب همچنان در بازار کمبود دارند. آنها متخصصانی نامیده می شوند که درک عمیقی از معنای تجاری داده ها دارند و می دانند چگونه آنها را به درستی اعمال کنند. تجزیه و تحلیل داده ها ابزاری برای دستیابی به اهداف تجاری است و برای درک ارزش کلان داده ها، شما نیاز به یک مدل رفتاری مناسب و درک اقدامات خود دارید. در این مورد، داده های بزرگ چیزهای زیادی را ارائه می دهند اطلاعات مفیددر مورد مصرف کنندگان، که بر اساس آن می توانید تصمیمات تجاری مفیدی بگیرید.

علیرغم این واقعیت که بازار داده های بزرگ روسیه به تازگی در حال شکل گیری است، برخی از پروژه ها در این زمینه در حال حاضر با موفقیت اجرا می شوند. برخی از آنها در زمینه جمع آوری داده ها موفق هستند، مانند پروژه های خدمات مالیاتی فدرال و سیستم های اعتباری Tinkoff، برخی دیگر از نظر تجزیه و تحلیل داده ها و کاربرد عملی نتایج آن: این پروژه Synqera است.

بانک سیستم های اعتباری Tinkoff پروژه ای را برای پیاده سازی پلت فرم EMC2 Greenplum، که ابزاری برای محاسبات موازی گسترده است، اجرا کرد. در سال‌های اخیر، این بانک الزامات سرعت پردازش اطلاعات انباشته و تجزیه و تحلیل داده‌های لحظه‌ای را افزایش داده است که ناشی از نرخ رشد بالای تعداد کاربران است. کارت های اعتباری. بانک اعلام کرد که قصد دارد استفاده از فناوری‌های Big Data را گسترش دهد، به ویژه برای پردازش داده‌های بدون ساختار و کار با اطلاعات شرکت هااز منابع مختلف به دست آمده است.

سرویس مالیات فدرال روسیه در حال حاضر در حال ایجاد یک لایه تحلیلی از انبار داده فدرال است. بر اساس آن، یکپارچه فضای اطلاعاتیو فناوری دسترسی به داده های مالیاتی برای پردازش آماری و تحلیلی. در طول اجرای پروژه، کار برای متمرکز سازی در حال انجام است اطلاعات تحلیلیبا بیش از 1200 منبع سطح محلی IFTS.

یکی دیگر مثال جالبتجزیه و تحلیل داده های بزرگ در زمان واقعی استارتاپ روسی Synqera است که پلتفرم Simplate را توسعه داده است. این راه حل مبتنی بر پردازش آرایه های داده بزرگ است، برنامه اطلاعات مربوط به مشتریان، تاریخچه خرید، سن، جنسیت و حتی خلق و خوی آنها را تجزیه و تحلیل می کند. در صندوق ها در شبکه فروشگاه های لوازم آرایشی نصب شد صفحه نمایش های لمسیبا حسگرهایی که احساسات مشتریان را تشخیص می دهند. این برنامه خلق و خوی فرد را تعیین می کند، اطلاعات مربوط به او را تجزیه و تحلیل می کند، زمان روز را تعیین می کند و پایگاه داده تخفیف فروشگاه را اسکن می کند، پس از آن پیام های هدفمندی را در مورد تبلیغات و به خریدار ارسال می کند. پیشنهادهای ویژه. این راه حل وفاداری مشتری را بهبود می بخشد و فروش خرده فروش را افزایش می دهد.

اگر در مورد موارد موفق خارجی صحبت کنیم، در این زمینه، تجربه استفاده از فناوری های Big Data در Dunkin` Donuts که از داده های بلادرنگ برای فروش محصولات استفاده می کند، جالب است. نمایشگرهای دیجیتال در فروشگاه ها پیشنهاداتی را به نمایش می گذارند که هر دقیقه بسته به زمان روز و در دسترس بودن محصول تغییر می کند. طبق دریافت‌های نقدی، شرکت داده‌هایی را دریافت می‌کند که کدام پیشنهادها بیشترین پاسخ را از سوی خریداران دریافت کرده‌اند. این رویکرد پردازش داده باعث افزایش سود و گردش کالا در انبار شد.

همانطور که تجربه اجرای پروژه های Big Data نشان می دهد، این حوزه برای حل موفقیت آمیز مشکلات تجاری مدرن طراحی شده است. در عین حال، یک عامل مهم در دستیابی به اهداف تجاری هنگام کار با داده های بزرگ، انتخاب استراتژی مناسب است که شامل تجزیه و تحلیل هایی است که درخواست های مصرف کننده را شناسایی می کند و همچنین استفاده از فن آوری های نوآورانهدر زمینه داده های بزرگ

بر اساس یک نظرسنجی جهانی که سالانه توسط Econsultancy و Adobe از سال 2012 در میان بازاریابان شرکت ها انجام می شود، "داده های بزرگ" که اقدامات افراد در اینترنت را مشخص می کند، می تواند کارهای زیادی انجام دهد. آن‌ها می‌توانند فرآیندهای کسب‌وکار آفلاین را بهینه‌سازی کنند، به درک اینکه چگونه صاحبان دستگاه‌های تلفن همراه از آنها برای جستجوی اطلاعات استفاده می‌کنند یا به سادگی «بازاریابی را بهتر می‌کنند» کمک کنند. کارآمدتر. علاوه بر این، آخرین تابع از سال به سال محبوب تر می شود، همانطور که در نمودار ما نشان داده شده است.

زمینه های اصلی کار بازاریابان اینترنتی از نظر ارتباط با مشتری


منبع: Econsultancy و Adobe، منتشر شده استemarketer.com

توجه داشته باشید که ملیت پاسخ دهندگان واجد اهمیت زیادندارد. بر اساس نظرسنجی انجام شده توسط KPMG در سال 2013، نسبت "خوشبین"، یعنی. از کسانی که از Big Data هنگام توسعه یک استراتژی تجاری استفاده می کنند، 56٪ است و نوسانات از منطقه به منطقه کوچک است: از 63٪ در کشورهای آمریکای شمالی تا 50٪ در EMEA.

استفاده از داده های بزرگ در مناطق مختلف جهان


منبع: KPMG، منتشر شده استemarketer.com

در همین حال، نگرش بازاریابان به چنین "روندهای مد" تا حدودی یادآور یک حکایت معروف است:

بگو وانو تو گوجه فرنگی دوست داری؟
- من دوست دارم غذا بخورم، اما نه.

با وجود این واقعیت که بازاریابان می گویند که آنها Big Data را «دوست دارند» و حتی به نظر می رسد از آن استفاده می کنند، در واقع «همه چیز پیچیده است»، زیرا آنها در مورد دلبستگی های قلبی خود در شبکه های اجتماعی می نویسند.

طبق نظرسنجی انجام شده توسط Circle Research در ژانویه 2014 در میان بازاریابان اروپایی، 4 نفر از 5 پاسخ دهندگان از Big Data استفاده نمی کنند (با وجود این واقعیت که آنها، البته، آن را "دوست دارند"). دلایل متفاوت است. تعداد کمی از شکاکان بدبین وجود دارد - 17٪ و دقیقاً همان تعداد پادپاهای آنها، یعنی. کسانی که با اطمینان پاسخ می دهند "بله". بقیه مردد و شک هستند، «مرداب». آنها با بهانه های قابل قبولی مانند «هنوز نه، اما به زودی» یا «منتظر شروع دیگران هستیم» از پاسخ مستقیم طفره می روند.

استفاده از داده های بزرگ توسط بازاریابان، اروپا، ژانویه 2014


منبع:dnx، منتشر شده -بازاریابcom

چه چیزی آنها را گیج می کند؟ مزخرف محض برخی (دقیقا نیمی از آنها) به سادگی این داده ها را باور نمی کنند. دیگران (همچنین تعداد کمی از آنها وجود دارد - 55٪) به سختی می توانند مجموعه "داده ها" و "کاربران" را بین خود مرتبط کنند. یک نفر (بگذارید از نظر سیاسی درست بگوییم) یک آشفتگی درونی شرکتی دارد: داده‌ها بدون مالک بین بخش‌های بازاریابی و ساختارهای فناوری اطلاعات حرکت می‌کنند. برای دیگران، نرم افزار نمی تواند با هجوم کار کنار بیاید. و غیره. از آنجایی که کل سهام بسیار بالای 100 درصد است، واضح است که وضعیت «موانع متعدد» غیرعادی نیست.

موانعی که از استفاده از داده های بزرگ در بازاریابی جلوگیری می کند


منبع:dnx، منتشر شده -بازاریابcom

بنابراین، ما باید بگوییم که تا کنون "داده های بزرگ" یک پتانسیل بزرگ است که هنوز باید از آن استفاده شود. به هر حال، این ممکن است دلیلی باشد که Big Data هاله "روند مد" خود را از دست می دهد، همانطور که توسط داده های نظرسنجی انجام شده توسط شرکت Econsultancy که قبلاً ذکر کردیم نشان می دهد.

مهم ترین روندها در بازاریابی دیجیتال 2013-2014


منبع: مشاوره و Adobe

آنها با یک پادشاه دیگر جایگزین می شوند - بازاریابی محتوا. چه مدت؟

نمی توان گفت که داده های بزرگ یک پدیده اساساً جدید است. منابع کلان داده سالهاست که وجود داشته اند: پایگاه های داده خرید مشتری، تاریخچه اعتباری، شیوه زندگی. و برای سال‌ها، دانشمندان از این داده‌ها برای کمک به شرکت‌ها در ارزیابی ریسک و پیش‌بینی نیازهای آینده مشتریان استفاده کرده‌اند. اما امروزه وضعیت از دو جنبه تغییر کرده است:

ابزارها و روش های پیچیده تری برای تجزیه و تحلیل و ترکیب مجموعه داده های مختلف پدید آمده است.

این ابزارهای تحلیلی با انبوهی از منابع داده جدید که توسط دیجیتالی کردن تقریباً هر روش جمع‌آوری و اندازه‌گیری داده‌ها هدایت می‌شوند، تکمیل می‌شوند.

گستره اطلاعات موجود برای محققانی که در یک محیط تحقیقاتی ساختاریافته بزرگ شده اند، هم الهام بخش و هم ترسناک است. احساسات مصرف کننده توسط وب سایت ها و انواع رسانه های اجتماعی ضبط می شود. واقعیت مشاهده تبلیغات نه تنها ثبت می شود ست تاپ باکس ها، بلکه با برچسب های دیجیتال و دستگاه های تلفن همراهارتباط با تلویزیون

داده‌های رفتاری (مانند تعداد تماس‌ها، عادات خرید و خریدها) اکنون در زمان واقعی در دسترس هستند. بنابراین، بسیاری از چیزهایی که قبلاً می‌توانستند از طریق تحقیق یاد بگیرند، اکنون می‌توانند از طریق منابع کلان داده یاد بگیرند. و تمام این دارایی های اطلاعاتی بدون در نظر گرفتن هر گونه فرآیند تحقیقاتی به طور مداوم در حال تولید هستند. این تغییرات ما را به این فکر می‌اندازد که آیا کلان داده می‌تواند جایگزین تحقیقات بازار کلاسیک شود.

این در مورد داده ها نیست، بلکه در مورد پرسش و پاسخ است

قبل از دستور دادن ناقوس مرگ برای تحقیقات کلاسیک، باید به خود یادآوری کنیم که وجود این یا آن دارایی داده نیست، بلکه چیز دیگری است که تعیین کننده است. دقیقا چه چیزی؟ توانایی ما برای پاسخ دادن به سوالات، همین است. یک چیز خنده دار در مورد دنیای جدید داده های بزرگ این است که نتایج حاصل از دارایی های داده جدید منجر به سؤالات حتی بیشتر می شود و این سؤالات معمولاً توسط تحقیقات سنتی به بهترین وجه پاسخ داده می شوند. بنابراین، با رشد داده‌های بزرگ، شاهد افزایش موازی در دسترس بودن و تقاضا برای «داده‌های کوچک» هستیم که می‌تواند پاسخ‌هایی به سؤالات دنیای داده‌های بزرگ ارائه دهد.

بیایید وضعیتی را در نظر بگیریم: یک تبلیغ کننده بزرگ دائماً ترافیک فروشگاه ها و حجم فروش را در زمان واقعی نظارت می کند. روش‌های تحقیق موجود (که در آن از شرکت‌کنندگان در پانل‌های تحقیقاتی درباره انگیزه‌های خرید و رفتارشان در محل فروش می‌پرسیم) به ما کمک می‌کند تا بخش‌های خاص مشتری را بهتر هدف قرار دهیم. این روش‌شناسی‌ها را می‌توان گسترش داد تا طیف وسیع‌تری از دارایی‌های کلان داده را در بر گیرد، تا جایی که داده‌های بزرگ به وسیله‌ای برای مشاهده غیرفعال و تحقیق به روشی برای بررسی مداوم و با تمرکز محدود تغییرات یا رویدادهایی که نیاز به مطالعه دارند، تبدیل می‌شوند. به این ترتیب کلان داده ها می توانند تحقیقات را از روال غیر ضروری رها کنند. تحقیقات اولیه دیگر نباید بر آنچه در حال وقوع است متمرکز شود (داده های بزرگ خواهد شد). در عوض، تحقیقات اولیه می‌تواند بر توضیح اینکه چرا ما روندها یا انحرافات خاصی را از روندها می‌بینیم تمرکز کند. محقق قادر خواهد بود کمتر در مورد بدست آوردن داده ها فکر کند و بیشتر در مورد چگونگی تجزیه و تحلیل و استفاده از آنها فکر کند.

در عین حال، می بینیم که کلان داده یکی از بزرگترین مشکلات ما را حل می کند، مشکل مطالعات بیش از حد طولانی. بررسی خود مطالعات نشان داده است که ابزارهای تحقیقاتی بیش از حد متورم تأثیر منفی بر کیفیت داده ها دارند. اگرچه بسیاری از کارشناسان برای مدت طولانی به این مشکل اذعان داشتند، اما همیشه با این عبارت پاسخ دادند: "اما من به این اطلاعات برای مدیریت ارشد نیاز دارم" و مصاحبه های طولانی ادامه یافت.

در دنیای داده های بزرگ، جایی که می توان شاخص های کمی را از طریق مشاهده غیرفعال به دست آورد، این موضوع مطرح می شود. دوباره، بیایید به تمام این تحقیقات مصرف فکر کنیم. اگر داده های بزرگ به ما بینشی در مورد مصرف از طریق مشاهده غیرفعال به ما بدهد، در آن صورت تحقیقات اولیه در قالب نظرسنجی دیگر نیازی به جمع آوری این نوع اطلاعات ندارد و ما در نهایت می توانیم دیدگاه خود را از نظرسنجی های کوتاه نه تنها با آرزوهای خوب، بلکه با چیزی واقعی

Big Data به کمک شما نیاز دارد

در نهایت، "بزرگ" تنها یکی از ویژگی های داده های بزرگ است. مشخصه "بزرگ" به اندازه و مقیاس داده ها اشاره دارد. البته، این ویژگی اصلی است، زیرا حجم این داده ها فراتر از محدوده همه چیزهایی است که قبلاً با آن کار کرده ایم. اما ویژگی‌های دیگر این جریان‌های داده جدید نیز مهم هستند: آنها اغلب قالب‌بندی ضعیفی دارند، ساختاری ندارند (یا در بهترین حالت، تا حدی ساختار یافته‌اند) و مملو از عدم قطعیت هستند. حوزه نوظهور مدیریت داده که به درستی «تحلیل نهادی» نامیده می شود، هدف آن حل مشکل غلبه بر نویز در داده های بزرگ است. وظیفه آن تجزیه و تحلیل این مجموعه داده ها و یافتن تعداد مشاهدات برای یک شخص است، مشاهدات فعلی و کدام یک از آنها قابل استفاده هستند.

این نوع پاکسازی داده ها برای حذف نویز یا داده های اشتباه هنگام کار با دارایی های داده بزرگ یا کوچک ضروری است، اما کافی نیست. ما همچنین باید بر اساس تجربیات قبلی، تجزیه و تحلیل و دانش دسته بندی، زمینه ای پیرامون دارایی های کلان داده ایجاد کنیم. در واقع، بسیاری از تحلیلگران به توانایی مدیریت عدم قطعیت ذاتی در کلان داده ها به عنوان منبع مزیت رقابتی اشاره می کنند، زیرا تصمیم گیری بهتر را ممکن می سازد.

و اینجاست که تحقیقات اولیه نه تنها به لطف داده‌های بزرگ از کارهای روزمره رها می‌شود، بلکه به ایجاد و تجزیه و تحلیل محتوا در داده‌های بزرگ نیز کمک می‌کند.

نمونه بارز این کار، استفاده از چارچوب جدید ارزش ویژه برند ما در رسانه های اجتماعی است. (ما در مورد یک توسعه یافته صحبت می کنیممیلوارد رنگ قهوه ایرویکردی جدید برای اندازه گیری ارزش برندرا معنی دار ناهمسان چارچوب- "پارادایم تفاوت های مهم" -آر & تی ). این مدل در بازارهای خاص مورد آزمایش رفتار قرار می گیرد، بر اساس استاندارد پیاده سازی می شود و به راحتی می تواند در سایر رشته های بازاریابی و سیستم های اطلاعات پشتیبانی تصمیم اعمال شود. به عبارت دیگر، مدل ارزش ویژه برند ما، که مبتنی بر تحقیقات پیمایشی است (البته نه تنها تحقیقات پیمایشی)، دارای تمام ویژگی های مورد نیاز برای غلبه بر ماهیت بدون ساختار، قطع و نامشخص کلان داده است.

داده‌های احساسات مصرف‌کننده ارائه شده توسط رسانه‌های اجتماعی را در نظر بگیرید. در شکل خام، اوج ها و دره ها در احساسات مصرف کننده اغلب با معیارهای آفلاین ارزش ویژه برند و رفتار همبستگی دارند: به سادگی نویز بیش از حد در داده ها وجود دارد. اما ما می‌توانیم این نویز را با استفاده از مدل‌های معنای مصرف‌کننده، تمایز برند، پویایی و هویت خود در داده‌های خام احساسات مصرف‌کننده، که راهی برای پردازش و جمع‌آوری داده‌های رسانه‌های اجتماعی در این ابعاد است، کاهش دهیم.

هنگامی که داده ها بر اساس مدل چارچوب ما سازماندهی می شوند، روندهای شناسایی شده معمولاً با اندازه گیری های ارزش ویژه برند و رفتار به دست آمده به صورت آفلاین مطابقت دارند. در واقع، داده های رسانه های اجتماعی نمی توانند برای خود صحبت کنند. استفاده از آنها برای این منظور نیاز به تجربه و مدل هایی دارد که بر اساس برندها ساخته شده اند. وقتی رسانه‌های اجتماعی اطلاعات منحصربه‌فردی را به ما می‌دهند که به زبانی بیان می‌شود که مصرف‌کنندگان برای توصیف برندها از آن استفاده می‌کنند، ما باید هنگام ایجاد تحقیقات خود از آن زبان استفاده کنیم تا تحقیقات اولیه را بسیار مؤثرتر کنیم.

مزایای مطالعات معافیت

این ما را به این واقعیت برمی‌گرداند که داده‌های بزرگ نه آنقدر که جایگزین تحقیقات می‌شوند بلکه آن‌ها را آزاد می‌کنند. محققان از اینکه مجبورند برای هر مورد جدید یک مطالعه جدید ایجاد کنند راحت خواهند شد. دارایی‌های کلان داده‌ای که همیشه در حال رشد هستند را می‌توان برای موضوعات مختلف تحقیقاتی مورد استفاده قرار داد و به تحقیقات اولیه بعدی اجازه می‌دهد تا عمیق‌تر به موضوع بپردازند و شکاف‌ها را پر کنند. محققان از تکیه بر نظرسنجی های بیش از حد متورم رهایی خواهند یافت. در عوض، آنها قادر خواهند بود از نظرسنجی های کوتاه استفاده کنند و بر روی مهمترین پارامترها تمرکز کنند که کیفیت داده ها را بهبود می بخشد.

با این نسخه، محققان می‌توانند از اصول و بینش‌های تثبیت‌شده خود برای افزودن دقت و معنا به دارایی‌های کلان داده استفاده کنند که منجر به ایجاد زمینه‌های جدیدی برای تحقیقات نظرسنجی می‌شود. این چرخه باید به درک عمیق‌تر در مورد طیف وسیعی از موضوعات استراتژیک و در نهایت حرکت به سمت آنچه که همیشه باید هدف اصلی ما از اطلاع‌رسانی و بهبود کیفیت تصمیمات برند و ارتباطات باشد، منجر شود.

معمولاً وقتی از پردازش تحلیلی جدی صحبت می کنند، به خصوص اگر از اصطلاح داده کاوی استفاده کنند، به این معنی است که حجم عظیمی از داده وجود دارد. در حالت کلی، اینطور نیست، زیرا اغلب اوقات شما باید مجموعه داده های کوچکی را پردازش کنید و یافتن الگوها در آنها آسان تر از صدها میلیون رکورد نیست. اگر چه شکی وجود ندارد که نیاز به جستجوی الگوها در پایگاه های داده بزرگ، کار غیر پیش پا افتاده تحلیل را پیچیده می کند.

این وضعیت به ویژه برای مشاغل مرتبط با خرده فروشی، مخابرات ، بانک ، اینترنت. پایگاه های داده آنها حجم عظیمی از اطلاعات مربوط به تراکنش ها را جمع آوری می کند: چک ها، پرداخت ها، تماس ها، گزارش ها و غیره.

هیچ روش جهانی تحلیل یا الگوریتم مناسب برای هر مورد و هر مقدار اطلاعات وجود ندارد. روش های تجزیه و تحلیل داده ها از نظر عملکرد، کیفیت نتایج، سهولت استفاده و نیاز به داده ها به طور قابل توجهی با یکدیگر تفاوت دارند. بهینه سازی را می توان در سطوح مختلف انجام داد: تجهیزات، پایگاه های داده، پلت فرم تحلیلی، آماده سازی داده های اولیه، الگوریتم های تخصصی. تجزیه و تحلیل حجم زیادی از داده ها نیازمند رویکرد خاصی است، زیرا پردازش آنها تنها با استفاده از "از نظر فنی دشوار است نیروی بی رحم"، یعنی استفاده از تجهیزات قوی تر.

البته می توانید سرعت پردازش داده ها را به دلیل تجهیزات پربارتر افزایش دهید، به خصوص که سرورها و ایستگاه های کاری مدرن از پردازنده های چند هسته ای استفاده می کنند. رماندازه قابل توجه و آرایه های دیسک قدرتمند. با این حال، روش‌های بسیار دیگری برای پردازش مقادیر زیادی داده وجود دارد که به شما امکان می‌دهد مقیاس‌پذیری را افزایش دهید و نیازی به آن ندارید به روز رسانی بی پایانتجهیزات.

ویژگی های DBMS

پایگاه های داده مدرن شامل مکانیسم های مختلفی است که استفاده از آنها سرعت پردازش تحلیلی را به میزان قابل توجهی افزایش می دهد:

  • محاسبه اولیه داده ها اطلاعاتی که اغلب برای تجزیه و تحلیل استفاده می شود را می توان از قبل محاسبه کرد (مثلاً در شب) و به شکلی که برای پردازش در سرور پایگاه داده آماده شده است در قالب مکعب های چند بعدی ، نماهای مادی شده ، جداول ویژه ذخیره می شود.
  • کش کردن جدول در رم. داده هایی که فضای کمی را اشغال می کنند، اما اغلب در طول تجزیه و تحلیل به آنها دسترسی پیدا می کنند، به عنوان مثال، دایرکتوری ها، می توانند با استفاده از ابزارهای پایگاه داده در حافظه پنهان ذخیره شوند. به این ترتیب، تماس‌های زیرسیستم دیسک کندتر چندین برابر کاهش می‌یابد.
  • پارتیشن بندی جداول به پارتیشن و جدول. می توانید داده ها، فهرست ها، جداول کمکی را روی دیسک های جداگانه قرار دهید. این به DBMS اجازه می دهد تا اطلاعات را به صورت موازی روی دیسک بخواند و بنویسد. علاوه بر این، جداول را می توان به بخش هایی (پارتیشن) تقسیم کرد به گونه ای که هنگام دسترسی به داده ها حداقل تعداد عملیات دیسک وجود داشته باشد. به عنوان مثال، اگر ما اغلب داده‌های ماه گذشته را تجزیه و تحلیل می‌کنیم، می‌توانیم به طور منطقی از یک جدول با داده‌های تاریخی استفاده کنیم، اما به صورت فیزیکی آن را به چند بخش تقسیم کنیم تا هنگام دسترسی به داده‌های ماهانه، یک بخش کوچک خوانده شود و هیچ دسترسی به آن وجود نداشته باشد. تمام داده های تاریخی

این تنها بخشی از امکاناتی است که DBMS مدرن ارائه می کند. ده ها راه دیگر برای افزایش سرعت استخراج اطلاعات از پایگاه داده وجود دارد: نمایه سازی منطقی، ساختن طرح های پرس و جو، پردازش موازی پرس و جوهای SQL، استفاده از خوشه ها، تهیه داده های تجزیه و تحلیل شده با استفاده از رویه های ذخیره شده و تریگرها در سمت سرور پایگاه داده و غیره. علاوه بر این، بسیاری از این مکانیسم ها را می توان نه تنها با استفاده از DBMS "سنگین"، بلکه همچنین با استفاده از پایگاه های داده رایگان استفاده کرد.

ترکیبی از مدل ها

فرصت های بهبود سرعت به بهینه سازی پایگاه داده محدود نمی شود، با ترکیب مدل های مختلف می توان کارهای زیادی انجام داد. مشخص است که سرعت پردازش به طور قابل توجهی با پیچیدگی دستگاه ریاضی مورد استفاده مرتبط است. هرچه مکانیسم های تحلیل ساده تری استفاده شود، داده ها سریعتر تجزیه و تحلیل می شوند.

می توان سناریوی پردازش داده را به گونه ای ساخت که داده ها از طریق غربال مدل ها "رانده" شوند. یک ایده ساده در اینجا کاربرد دارد: زمان را برای پردازش چیزهایی که نمی توانید تجزیه و تحلیل کنید تلف نکنید.

ابتدا از ساده ترین الگوریتم ها استفاده می شود. بخشی از داده هایی که می توان با استفاده از چنین الگوریتم هایی پردازش کرد و پردازش آنها با استفاده بیشتر بی معنی است روش های پیچیده، تجزیه و تحلیل می شود و از پردازش بیشتر حذف می شود. داده‌های باقی‌مانده به مرحله بعدی پردازش منتقل می‌شوند، جایی که از الگوریتم‌های پیچیده‌تر استفاده می‌شود و به همین ترتیب در زنجیره. در آخرین گره سناریوی پردازش، از پیچیده ترین الگوریتم ها استفاده می شود، اما میزان داده های تحلیل شده چندین برابر کمتر از نمونه اولیه است. در نتیجه، کل زمان مورد نیاز برای پردازش همه داده‌ها با مرتبه‌ای کاهش می‌یابد.

بیاوریم مثال عملیبا استفاده از این رویکرد هنگام حل مشکل پیش بینی تقاضا، در ابتدا توصیه می شود که تجزیه و تحلیل XYZ را انجام دهید، که به شما امکان می دهد تعیین کنید که تقاضا برای کالاهای مختلف چقدر پایدار است. محصولات گروه X کاملاً پایدار فروخته می شوند ، بنابراین استفاده از الگوریتم های پیش بینی برای آنها به شما امکان می دهد پیش بینی با کیفیت بالایی داشته باشید. محصولات گروه Y با ثبات کمتری فروخته می شوند، شاید برای آنها ارزش ساختن مدل هایی را داشته باشد نه برای هر مقاله، بلکه برای یک گروه، این به شما امکان می دهد سری های زمانی را صاف کنید و از عملکرد الگوریتم پیش بینی اطمینان حاصل کنید. محصولات گروه Z به طور آشفته فروخته می شوند، بنابراین به هیچ وجه نباید برای آنها مدل های پیش بینی بسازید، نیاز آنها را باید بر اساس فرمول های ساده مثلاً میانگین فروش ماهانه محاسبه کرد.

طبق آمار، حدود 70 درصد مجموعه را محصولات گروه Z تشکیل می دهد. 25 درصد دیگر را محصولات گروه Y و تنها حدود 5 درصد را محصولات گروه X تشکیل می دهند. بنابراین، ساخت و استفاده از مدل های پیچیده برای یک حداکثر 30 درصد محصولات بنابراین، استفاده از رویکردی که در بالا توضیح داده شد، زمان تجزیه و تحلیل و پیش بینی را 5-10 برابر کاهش می دهد.

پردازش موازی

یکی دیگر از استراتژی‌های مؤثر برای پردازش مقادیر زیاد داده، تقسیم داده‌ها به بخش‌ها و ساخت مدل‌هایی برای هر بخش به طور جداگانه، با ادغام بیشتر نتایج است. اغلب، در حجم زیادی از داده ها، می توان چندین زیر مجموعه مجزا را از یکدیگر متمایز کرد. به عنوان مثال، اینها می توانند گروهی از مشتریان، کالاهایی باشند که رفتار مشابهی دارند و توصیه می شود برای آنها یک مدل ساخته شود.

در این حالت، به جای ساخت یک مدل پیچیده برای همه، می توانید چندین مدل ساده برای هر بخش بسازید. این رویکرد سرعت تجزیه و تحلیل را بهبود می بخشد و نیاز به حافظه را با پردازش مقادیر کمتری از داده در یک پاس کاهش می دهد. علاوه بر این، در این مورد، پردازش تحلیلی را می توان موازی کرد، که همچنین تأثیر مثبتی بر زمان صرف شده دارد. علاوه بر این، مدل‌هایی برای هر بخش می‌تواند توسط تحلیلگران مختلف ساخته شود.

علاوه بر افزایش سرعت، این رویکرد یک مزیت مهم دیگر نیز دارد - ایجاد و نگهداری چندین مدل نسبتا ساده به صورت جداگانه آسانتر از یک مدل بزرگ است. شما می توانید مدل ها را به صورت مرحله ای اجرا کنید و به این ترتیب اولین نتایج را در کمترین زمان ممکن به دست آورید.

نمونه های نمایندگی

در حضور مقادیر زیادی داده، می توان از همه اطلاعات برای ساخت یک مدل استفاده نکرد، بلکه از برخی زیر مجموعه ها - یک نمونه معرف استفاده کرد. یک نمونه نماینده به درستی آماده شده حاوی اطلاعات لازم برای ساخت یک مدل با کیفیت است.

فرآیند پردازش تحلیلی به دو بخش تقسیم می‌شود: ساخت مدل و استفاده از مدل ساخته شده برای داده‌های جدید. ساختن یک مدل پیچیده فرآیندی با منابع فشرده است. بسته به الگوریتم مورد استفاده، داده ها ذخیره می شوند، هزاران بار اسکن می شوند، بسیاری از پارامترهای کمکی محاسبه می شوند و غیره. استفاده از مدل از قبل ساخته شده برای داده های جدید به منابع ده ها و صدها برابر کمتر نیاز دارد. اغلب اوقات به محاسبه چند توابع ساده ختم می شود.

بنابراین، اگر مدل بر روی مجموعه‌های نسبتاً کوچکی ساخته شود و متعاقباً در کل مجموعه داده اعمال شود، زمان به دست آوردن نتیجه در مقایسه با تلاش برای بازسازی کامل کل مجموعه داده‌های موجود کاهش می‌یابد.

برای به دست آوردن نمونه های نماینده، روش های خاصی وجود دارد، به عنوان مثال، نمونه برداری. استفاده از آنها به شما امکان می دهد تا سرعت پردازش تحلیلی را بدون به خطر انداختن کیفیت تجزیه و تحلیل افزایش دهید.

خلاصه

رویکردهای توصیف شده تنها بخش کوچکی از روش هایی هستند که به شما امکان تجزیه و تحلیل حجم عظیمی از داده ها را می دهند. راه های دیگری نیز وجود دارد، به عنوان مثال استفاده از الگوریتم های مقیاس پذیر ویژه، مدل های سلسله مراتبی، یادگیری پنجره ها و غیره.

تحلیل و بررسی پایگاه های عظیمداده کاوی یک کار غیر پیش پا افتاده است که در بیشتر موارد نمی توان آن را به صورت مستقیم حل کرد، با این حال پایگاه های داده مدرن و پلت فرم های تحلیلی روش های بسیاری را برای حل این مشکل ارائه می دهند. هنگامی که به طور عاقلانه استفاده می شود، سیستم ها قادر به پردازش ترابایت داده با سرعت معقولی هستند.

ستون معلمان HSE درباره افسانه ها و موارد کار با داده های بزرگ

به نشانک ها

کنستانتین رومانوف و الکساندر پیاتیگورسکی، مدرسان دانشکده رسانه های جدید HSE، که همچنین مدیر تحول دیجیتال در Beeline است، ستونی را برای سایت در مورد تصورات غلط اصلی در مورد کلان داده - نمونه هایی از استفاده از فناوری و ابزار نوشتند. نویسندگان پیشنهاد می کنند که این نشریه به رهبران شرکت کمک می کند تا این مفهوم را درک کنند.

افسانه ها و باورهای غلط در مورد داده های بزرگ

کلان داده بازاریابی نیست

اصطلاح Big Data بسیار مد شده است - در میلیون ها موقعیت و در صدها تفسیر مختلف استفاده می شود که اغلب به آنچه که هست مربوط نمی شود. اغلب در ذهن مردم جایگزینی مفاهیم وجود دارد و داده های بزرگ با یک محصول بازاریابی اشتباه گرفته می شود. علاوه بر این، در برخی از شرکت ها، داده های بزرگ بخشی از بخش بازاریابی است. نتیجه تجزیه و تحلیل کلان داده در واقع می تواند منبعی برای فعالیت بازاریابی باشد، اما نه چیزی بیشتر. بیایید ببینیم چگونه کار می کند.

اگر ما لیستی از کسانی را که دو ماه پیش در فروشگاه ما کالاهایی به ارزش بیش از سه هزار روبل خریدند شناسایی کردیم و سپس نوعی پیشنهاد را برای این کاربران ارسال کردیم، این یک بازاریابی معمولی است. ما یک الگوی واضح از داده های ساختاری استخراج می کنیم و از آن برای افزایش فروش استفاده می کنیم.

با این حال، اگر داده‌های CRM را با اطلاعات استریم، مثلاً از اینستاگرام ترکیب کنیم و آن‌ها را تجزیه و تحلیل کنیم، الگویی پیدا می‌کنیم: فردی که فعالیت خود را در عصر چهارشنبه کاهش داده است و آخرین عکسش بچه گربه‌ها را نشان می‌دهد، باید پیشنهاد خاصی بدهد. از قبل بیگ دیتا خواهد بود. ما محرک را پیدا کردیم، آن را به بازاریابان دادیم و آنها از آن برای اهداف خود استفاده کردند.

از این نتیجه می‌شود که این فناوری معمولاً با داده‌های بدون ساختار کار می‌کند و اگر داده‌ها ساختاری داشته باشند، سیستم همچنان به جستجوی الگوهای پنهان در آنها ادامه می‌دهد، که بازاریابی انجام نمی‌دهد.

کلان داده IT نیست

مرحله دوم این داستان: کلان داده اغلب با فناوری اطلاعات اشتباه گرفته می شود. این به این دلیل است که در شرکت های روسیبه عنوان یک قاعده، این متخصصان فناوری اطلاعات هستند که محرک همه فناوری ها، از جمله داده های بزرگ هستند. بنابراین، اگر همه چیز در این بخش اتفاق بیفتد، این تصور را برای کل شرکت ایجاد می کند که این نوعی فعالیت فناوری اطلاعات است.

در واقع، یک تفاوت اساسی در اینجا وجود دارد: Big Data فعالیتی با هدف به دست آوردن یک محصول خاص است که به هیچ وجه در مورد IT صدق نمی کند، اگرچه فناوری بدون آنها نمی تواند وجود داشته باشد.

کلان داده همیشه جمع آوری و تجزیه و تحلیل اطلاعات نیست

تصور نادرست دیگری درباره کلان داده وجود دارد. همه می‌دانند که این فناوری با حجم زیادی از داده‌ها همراه است، اما همیشه مشخص نیست که منظور از چه نوع داده‌هایی است. همه می توانند اطلاعات را جمع آوری و استفاده کنند، اکنون نه تنها در فیلم های مربوط به آن، بلکه در هر شرکت، حتی یک شرکت بسیار کوچک، امکان پذیر است. تنها سوال این است که دقیقاً چه چیزی را جمع آوری کنید و چگونه از آن به نفع خود استفاده کنید.

اما باید درک کرد که فناوری کلان داده جمع آوری و تجزیه و تحلیل مطلقاً هیچ اطلاعاتی نخواهد بود. به عنوان مثال، اگر داده‌های مربوط به یک فرد خاص را در شبکه‌های اجتماعی جمع‌آوری کنید، داده‌های بزرگ نخواهد بود.

Big Data واقعا چیست

کلان داده از سه عنصر تشکیل شده است:

  • داده ها؛
  • تجزیه و تحلیل؛
  • فن آوری.

Big Data تنها یکی از این اجزا نیست، بلکه ترکیبی از هر سه عنصر است. اغلب مردم مفاهیم را جایگزین می کنند: کسی فکر می کند که کلان داده فقط داده است، کسی فکر می کند که فناوری است. اما در واقع، مهم نیست چقدر داده جمع آوری می کنید، بدون آن نمی توانید کاری انجام دهید فن آوری های لازمو تجزیه و تحلیل اگر تجزیه و تحلیل خوبی وجود داشته باشد، اما داده ای وجود نداشته باشد، بدتر است.

اگر در مورد داده ها صحبت می کنیم، پس این فقط متن ها نیست، بلکه تمام عکس های ارسال شده در اینستاگرام و به طور کلی همه چیزهایی هستند که می توانند برای اهداف و کارهای مختلف تجزیه و تحلیل و استفاده شوند. به عبارت دیگر داده به حجم عظیمی از داده های داخلی و خارجی ساختارهای مختلف اطلاق می شود.

تجزیه و تحلیل نیز مورد نیاز است، زیرا وظیفه Big Data ایجاد برخی الگوها است. یعنی تجزیه و تحلیل شناسایی وابستگی های پنهان و جستجوی پرسش ها و پاسخ های جدید بر اساس تجزیه و تحلیل کل حجم داده های ناهمگن است. علاوه بر این، داده های بزرگ سوالاتی را مطرح می کند که مستقیماً از این داده ها مشتق نمی شوند.

وقتی صحبت از تصاویر می شود، این واقعیت که شما عکسی از خود در یک تی شرت آبی ارسال کرده اید چیزی نمی گوید. اما اگر از یک عکس برای مدل سازی Big Data استفاده می کنید، ممکن است معلوم شود که در حال حاضر باید وام ارائه دهید، زیرا در گروه اجتماعی شما این رفتار نشان دهنده پدیده خاصی در اقدامات است. بنابراین، داده های "لخت" بدون تجزیه و تحلیل، بدون آشکار کردن وابستگی های پنهان و غیر آشکار، داده های بزرگ نیستند.

بنابراین ما داده های بزرگ داریم. آرایه آنها بسیار زیاد است. یک تحلیلگر هم داریم. اما چگونه می توانیم مطمئن شویم که یک راه حل خاص از این داده های خام متولد شده است؟ برای انجام این کار، ما به فناوری‌هایی نیاز داریم که به ما امکان می‌دهند نه تنها آنها را ذخیره کنیم (و قبلاً غیرممکن بود)، بلکه آنها را تجزیه و تحلیل کنیم.

به عبارت ساده، اگر داده های زیادی دارید، به فناوری هایی مانند Hadoop نیاز خواهید داشت که امکان ذخیره تمام اطلاعات را به شکل اصلی برای تجزیه و تحلیل بعدی فراهم می کند. چنین فناوری هایی در غول های اینترنتی به وجود آمدند، زیرا آنها اولین کسانی بودند که با مشکل ذخیره حجم زیادی از داده ها و تجزیه و تحلیل آن برای کسب درآمد بعدی مواجه شدند.

علاوه بر ابزارهایی برای ذخیره سازی داده ها بهینه و ارزان، به ابزارهای تحلیلی و همچنین افزونه هایی برای پلتفرم مورد استفاده نیاز است. به عنوان مثال، یک اکوسیستم کامل از پروژه‌ها و فناوری‌های مرتبط در اطراف Hadoop شکل گرفته است. در اینجا برخی از آنها آورده شده است:

  • Pig یک زبان تجزیه و تحلیل داده های اعلامی است.
  • Hive - تجزیه و تحلیل داده ها با استفاده از زبانی نزدیک به SQL.
  • Oozie یک گردش کار در Hadoop است.
  • Hbase - پایگاه داده (غیر رابطه ای)، آنالوگ Google Big Table.
  • ماهوت - یادگیری ماشینی.
  • Sqoop - انتقال داده از RSDDB به Hadoop و بالعکس.
  • فلوم - انتقال لاگ ها به HDFS.
  • Zookeeper، MRUnit، Avro، Giraph، Ambari، Cassandra، HCatalog، Fuse-DFS و غیره.

همه این ابزارها به صورت رایگان در دسترس همه هستند، اما مجموعه ای از افزونه های پولی نیز وجود دارد.

علاوه بر این، متخصصان مورد نیاز هستند: این یک توسعه دهنده و یک تحلیلگر است (به اصطلاح دانشمند داده). شما همچنین به مدیری نیاز دارید که بتواند درک کند که چگونه این تجزیه و تحلیل را برای یک کار خاص اعمال کند، زیرا به خودی خود کاملاً بی معنی است اگر در فرآیندهای تجاری تعبیه نشده باشد.

هر سه کارمند باید به صورت تیمی کار کنند. مدیری که به یک دانشمند داده وظیفه پیدا کردن یک الگوی خاص را می‌دهد باید درک کند که همیشه نمی‌توان دقیقاً آنچه را که او نیاز دارد پیدا کرد. در این مورد، مدیر باید با دقت به آنچه دانشمند داده یافته است گوش دهد، زیرا اغلب یافته های او برای کسب و کار جالب تر و مفیدتر می شود. وظیفه شما این است که آن را در تجارت اعمال کنید و از آن محصولی بسازید.

علیرغم این واقعیت که در حال حاضر انواع مختلفی از ماشین ها و فناوری ها وجود دارد، تصمیم نهایی همیشه با خود شخص باقی می ماند. برای انجام این کار، اطلاعات باید به نحوی تجسم شوند. ابزارهای زیادی برای این کار وجود دارد.

گویاترین مثال گزارش های زمین تحلیلی است. شرکت Beeline با دولت های شهرها و مناطق مختلف بسیار کار می کند. اغلب، این سازمان ها گزارش هایی مانند "بار ترافیک در یک مکان خاص" را سفارش می دهند.

واضح است که چنین گزارشی باید به شکلی ساده و قابل فهم به دست سازمان های دولتی برسد. اگر یک جدول عظیم و کاملاً نامفهوم در اختیار آنها قرار دهیم (یعنی اطلاعاتی به شکلی که آن را دریافت می کنیم)، بعید است که چنین گزارشی را بخرند - کاملاً بی فایده خواهد بود، آنها دانش را از آن خارج نخواهند کرد. که می خواستند دریافت کنند.

بنابراین، مهم نیست که دانشمندان داده چقدر خوب باشند و هر چه الگوهایی پیدا کنند، بدون ابزارهای تجسم با کیفیت نمی‌توانید با این داده‌ها کار کنید.

منابع داده

آرایه داده های دریافتی بسیار بزرگ است، بنابراین می توان آنها را به چند گروه تقسیم کرد.

داده های داخلی شرکت

اگرچه 80 درصد از داده های جمع آوری شده متعلق به این گروه است، اما همیشه از این منبع استفاده نمی شود. اغلب این داده‌هایی است که به نظر می‌رسد هیچ کس اصلاً به آنها نیاز ندارد، مثلاً لاگ. اما اگر از زاویه دیگری به آنها نگاه کنید، گاهی اوقات می توانید الگوهای غیرمنتظره ای را در آنها پیدا کنید.

منابع اشتراک‌افزار

این شامل داده ها می شود شبکه های اجتماعی، اینترنت و هر چیزی که می توانید به صورت رایگان وارد آن شوید. چرا اشتراک افزار؟ از یک طرف، این داده ها در دسترس همه است، اما اگر شرکت بزرگی هستید، دریافت آن به اندازه یک پایگاه مشترک ده ها هزار، صدها یا میلیون ها مشتری دیگر کار آسانی نیست. بنابراین، بازار دارد خدمات پولیبرای ارائه این داده ها

منابع پولی

این شامل شرکت هایی می شود که داده ها را برای پول می فروشند. اینها می توانند مخابرات، DMP ها، شرکت های اینترنتی، دفاتر اعتباری و تجمیع کننده ها باشند. در روسیه، مخابرات داده نمی فروشد. اولاً از نظر اقتصادی زیان آور است و ثانیاً قانوناً ممنوع است. بنابراین، آنها نتایج پردازش خود را می فروشند، به عنوان مثال، گزارش های geoanalytical.

باز کردن داده ها

ایالت نیازهای کسب و کار را برآورده می کند و استفاده از داده هایی را که آنها جمع آوری می کنند ممکن می سازد. این امر تا حد زیادی در غرب توسعه یافته است، اما روسیه نیز در این زمینه همگام با زمانه پیش می رود. به عنوان مثال، پورتال داده های باز دولت مسکو وجود دارد که اطلاعاتی را در مورد اشیاء مختلف زیرساخت های شهری منتشر می کند.

برای ساکنان و مهمانان مسکو، داده ها به صورت جدولی و نقشه برداری و برای توسعه دهندگان - در قالب های ویژه قابل خواندن توسط ماشین ارائه می شود. در حالی که پروژه در حالت محدود کار می کند، اما در حال توسعه است، به این معنی که منبع داده ای است که می توانید برای کارهای تجاری خود از آن استفاده کنید.

پژوهش

همانطور که قبلا ذکر شد، وظیفه Big Data پیدا کردن یک الگو است. اغلب، مطالعات در سراسر جهان می تواند به نقطه مرجعی برای یافتن یک الگوی خاص تبدیل شود - شما می توانید یک نتیجه خاص بگیرید و سعی کنید منطق مشابهی را برای اهداف خود اعمال کنید.

کلان داده حوزه ای است که همه قوانین ریاضی در آن کار نمی کنند. به عنوان مثال، "1" + "1" "2" نیست، بلکه بسیار بیشتر است، زیرا هنگام مخلوط کردن منابع داده، اثر را می توان تا حد زیادی افزایش داد.

نمونه های محصول

بسیاری از افراد با سرویس انتخاب موسیقی Spotify آشنا هستند. زیبایی آن این است که از کاربران نمی پرسد حال و هوای امروز آنها چیست، بلکه آن را بر اساس منابع موجود محاسبه می کند. او همیشه می داند که اکنون به چه چیزی نیاز دارید - جاز یا هارد راک. این تفاوت کلیدی است که برای او طرفدارانی فراهم می کند و او را از سایر خدمات متمایز می کند.

چنین محصولاتی معمولاً محصولات حسی نامیده می شوند - آنهایی که مشتری خود را احساس می کنند.

فناوری Big Data در صنعت خودروسازی نیز مورد استفاده قرار می گیرد. به عنوان مثال، تسلا این کار را انجام می دهد - در آنها آخرین مدلیک خلبان خودکار وجود دارد این شرکت در تلاش است تا خودرویی بسازد که مسافر را به جایی که باید برود ببرد. بدون Big Data، این غیرممکن است، زیرا اگر ما فقط از داده‌هایی استفاده کنیم که مستقیماً دریافت می‌کنیم، همانطور که یک شخص انجام می‌دهد، خودرو نمی‌تواند پیشرفت کند.

وقتی خودمان ماشین می‌رانیم، از نورون‌هایمان برای تصمیم‌گیری بر اساس عوامل زیادی استفاده می‌کنیم که حتی متوجه آن‌ها هم نمی‌شویم. به عنوان مثال، ممکن است متوجه نشویم که چرا تصمیم گرفتیم فوراً چراغ سبز را روشن نکنیم، و سپس معلوم شود که تصمیم درست بوده است - خودرویی با سرعت سرسام آور از کنار شما گذشت و از تصادف جلوگیری کردید.

همچنین می توانید مثالی از استفاده از Big Data در ورزش بیاورید. در سال 2002، مدیر کل تیم بیسبال اوکلند دو و میدانی، بیلی بین، تصمیم گرفت تا پارادایم چگونگی جستجوی ورزشکاران را بشکند - او بازیکنان را "بر اساس اعداد" انتخاب و آموزش داد.

معمولاً مدیران به موفقیت بازیکنان نگاه می کنند ، اما در این مورد متفاوت بود - برای به دست آوردن نتیجه ، مدیر با توجه به ویژگی های فردی به چه ترکیبی از ورزشکاران نیاز داشت. علاوه بر این ، او ورزشکارانی را انتخاب کرد که به خودی خود پتانسیل بالایی نداشتند ، اما تیم در کل آنقدر موفق بود که بیست مسابقه متوالی را برد.

کارگردان بنت میلر متعاقباً فیلمی را به این داستان اختصاص داد - "مردی که همه چیز را تغییر داد" با بازی برد پیت.

فناوری Big Data در بخش مالی نیز مفید است. حتی یک نفر در جهان نمی تواند به طور مستقل و دقیق تعیین کند که آیا ارزش وام دادن به کسی را دارد یا خیر. برای تصمیم گیری، نمره گذاری انجام می شود، یعنی یک مدل احتمالی ساخته می شود که با آن می توان فهمید که آیا این شخص پول را پس می دهد یا خیر. علاوه بر این، امتیازدهی در تمام مراحل اعمال می شود: به عنوان مثال، می توانید محاسبه کنید که در یک لحظه مشخص، شخص پرداخت را متوقف می کند.

داده های بزرگ نه تنها به کسب درآمد، بلکه ذخیره آنها نیز اجازه می دهد. به ویژه، این فناوری به وزارت کار آلمان کمک کرد تا هزینه مزایای بیکاری را تا 10 میلیارد یورو کاهش دهد، زیرا پس از تجزیه و تحلیل اطلاعات مشخص شد که 20٪ از مزایا به طور غیرمستقیم پرداخت شده است.

فن آوری ها همچنین در پزشکی استفاده می شود (این امر به ویژه در مورد اسرائیل صادق است). با کمک بیگ دیتا می توانید تحلیل بسیار دقیق تری نسبت به یک پزشک با سی سال تجربه انجام دهید.

هر پزشک هنگام تشخیص، فقط به تجربه خود متکی است. هنگامی که دستگاه این کار را انجام می دهد، از تجربه هزاران پزشک از این قبیل و تمام سوابق پرونده موجود می آید. این در نظر می گیرد که خانه بیمار از چه موادی ساخته شده است، قربانی در چه منطقه ای زندگی می کند، چه دودی در آنجا وجود دارد و غیره. یعنی فاکتورهای زیادی را در نظر می گیرد که پزشکان در نظر نمی گیرند.

نمونه ای از استفاده از داده های بزرگ در مراقبت های بهداشتی، پروژه پروژه آرتمیس است که توسط بیمارستان کودکان تورنتو اجرا شد. آی تی سیستم اطلاعات، که داده های مربوط به نوزادان را در زمان واقعی جمع آوری و تجزیه و تحلیل می کند. این دستگاه به شما امکان می دهد در هر ثانیه 1260 شاخص سلامتی هر کودک را تجزیه و تحلیل کنید. این پروژه با هدف پیش بینی وضعیت ناپایدار کودک و پیشگیری از بیماری در کودکان انجام می شود.

استفاده از داده های بزرگ در روسیه نیز آغاز شده است: به عنوان مثال، Yandex دارای یک بخش کلان داده است. این شرکت به همراه AstraZeneca و انجمن روسی انکولوژی بالینی RUSSCO، پلتفرم RAY را برای ژنتیک دانان و زیست شناسان مولکولی راه اندازی کرد. این پروژه روش های تشخیص سرطان و شناسایی استعداد ابتلا به سرطان را بهبود می بخشد. این پلتفرم در دسامبر 2016 راه اندازی می شود.

اصطلاح Big Data معمولاً به هر مقدار داده ساختاریافته، نیمه ساختاریافته و بدون ساختار اشاره دارد. با این حال، می توان و باید دوم و سوم را برای تجزیه و تحلیل بعدی اطلاعات سفارش داد. کلان داده با حجم واقعی برابری نمی کند، اما در بیشتر موارد از Big Data صحبت می کنیم، منظور ما ترابایت، پتابایت و حتی اکسترا بایت اطلاعات است. این مقدار داده می تواند در هر کسب و کاری در طول زمان، یا در مواردی که یک شرکت نیاز به دریافت اطلاعات زیادی دارد، در زمان واقعی جمع شود.

تجزیه و تحلیل داده های بزرگ

در مورد تجزیه و تحلیل داده های بزرگ، اول از همه، منظور ما جمع آوری و ذخیره سازی اطلاعات از منابع مختلف است. به عنوان مثال، داده‌های مربوط به مشتریانی که خرید کرده‌اند، ویژگی‌های آنها، اطلاعات مربوط به راه‌اندازی شرکت های تبلیغاتیو ارزیابی اثربخشی آن، داده ها مرکز تماس. بله، همه این اطلاعات قابل مقایسه و تجزیه و تحلیل هستند. ممکن و ضروری است. اما برای این کار باید سیستمی راه اندازی کنید که به شما امکان می دهد اطلاعات را بدون تحریف اطلاعات جمع آوری و تبدیل کنید، آن ها را ذخیره کنید و در نهایت آن ها را تجسم کنید. موافقم، با داده های بزرگ، جداول چاپ شده در چندین هزار صفحه کمک چندانی به تصمیم گیری های تجاری نمی کند.

1. ورود کلان داده ها

اکثر سرویس هایی که اطلاعات مربوط به اقدامات کاربر را جمع آوری می کنند، قابلیت صادرات را دارند. برای اینکه آنها به شکل ساختار یافته وارد شرکت شوند، از انواع مختلفی استفاده می شود، به عنوان مثال، Alteryx. این نرم افزار امکان دریافت را به شما می دهد حالت خودکاراطلاعات، آنها را پردازش کنید، اما مهمتر از همه، تبدیل آن به نمای مورد نظرو بدون تحریف فرمت کنید.

2. ذخیره سازی و پردازش داده های بزرگ

تقریباً همیشه هنگام جمع آوری حجم زیادی از اطلاعات، مشکل ذخیره سازی آن به وجود می آید. از بین تمام پلتفرم هایی که ما مطالعه کردیم، شرکت ما Vertica را ترجیح می دهد. بر خلاف سایر محصولات، Vertica قادر است اطلاعات ذخیره شده در آن را به سرعت "داده" کند. از معایب آن می توان به ضبط طولانی مدت اشاره کرد، اما در هنگام تجزیه و تحلیل داده های بزرگ، سرعت بازگشت به منصه ظهور می رسد. به عنوان مثال، اگر ما در مورد کامپایل با استفاده از یک پتابایت اطلاعات صحبت می کنیم، سرعت آپلود یکی از مهمترین ویژگی ها است.

3. تجسم داده های بزرگ

و در نهایت، مرحله سوم تجزیه و تحلیل حجم زیادی از داده ها است. این نیاز به پلتفرمی دارد که بتواند به صورت بصری تمام اطلاعات دریافتی را به شکلی مناسب منعکس کند. به نظر ما، تنها یک محصول نرم افزاری، Tableau، می تواند با این کار کنار بیاید. قطعا یکی از بهترین هاست امروزراه حلی که قادر است هر اطلاعاتی را به صورت بصری نشان دهد، کار شرکت را به یک مدل سه بعدی تبدیل کند، اقدامات همه بخش ها را در یک زنجیره واحد به هم وابسته جمع آوری کند (در مورد قابلیت های Tableau می توانید بیشتر بخوانید).

به جای خلاصه، توجه می کنیم که تقریباً هر شرکتی اکنون می تواند داده های بزرگ خود را تولید کند. تجزیه و تحلیل کلان داده دیگر یک فرآیند پیچیده و پرهزینه نیست. اکنون مدیریت شرکت موظف است سوالات خود را به درستی فرموله کند اطلاعات جمع آوری شده، در حالی که عملاً هیچ ناحیه خاکستری نامرئی وجود ندارد.

دانلود تابلو

دانلود به صورت رایگان نسخه کامل Tableau Desktop، 14 روز و مطالب آموزشی Tableau Business Intelligence را به عنوان هدیه دریافت کنید

فقط تنبل در مورد داده های بزرگ صحبت نمی کند، اما به سختی می فهمد که چیست و چگونه کار می کند. بیایید با ساده ترین - اصطلاحات شروع کنیم. به زبان روسی، Big data ابزارها، رویکردها و روش‌های مختلفی برای پردازش داده‌های ساختاریافته و بدون ساختار به منظور استفاده از آنها برای وظایف و اهداف خاص است.

داده های بدون ساختار اطلاعاتی هستند که ساختار از پیش تعیین شده ای ندارند یا به ترتیب خاصی سازماندهی نشده اند.

اصطلاح "داده های بزرگ" توسط کلیفورد لینچ، سردبیر نیچر در سال 2008 در یک شماره ویژه درباره رشد انفجاری حجم اطلاعات جهان ابداع شد. اگرچه، البته، خود داده های بزرگ قبلا وجود داشته است. به گفته کارشناسان، اکثریت جریان داده های بیش از 100 گیگابایت در روز متعلق به دسته داده های بزرگ است.

همچنین بخوانید:

امروزه، این اصطلاح ساده تنها دو کلمه را پنهان می کند - ذخیره سازی و پردازش داده ها.

داده های بزرگ - به عبارت ساده

AT دنیای مدرنداده های بزرگ یک پدیده اجتماعی-اقتصادی است که با این واقعیت همراه است که فرصت های فناوری جدید برای تجزیه و تحلیل حجم عظیمی از داده ها ظاهر شده است.

همچنین بخوانید:

برای سهولت درک، سوپرمارکتی را تصور کنید که در آن همه کالاها به ترتیبی که شما به آن عادت کرده اید نیست. نان در کنار میوه، رب گوجه فرنگی در کنار پیتزای یخ زده، مایع فندکی در کنار قفسه ای از تامپون که آووکادو، توفو یا قارچ شیتاکه دارد و غیره. بیگ دیتا همه چیز را در جای خود قرار می دهد و به شما کمک می کند شیر آجیل را پیدا کنید، از هزینه و تاریخ انقضا مطلع شوید و همچنین چه کسی به جز شما چنین شیری را می خرد و چگونه بهتر از شیر گاو است.

کنت کوکیر: داده های بزرگ داده های بهتری هستند

فناوری داده های بزرگ

حجم عظیمی از داده‌ها پردازش می‌شوند تا فرد بتواند نتایج خاص و لازم را برای کاربرد مؤثر بیشتر آنها به دست آورد.

همچنین بخوانید:

در واقع، داده های بزرگ یک حل کننده مشکل و جایگزینی برای سیستم های مدیریت داده سنتی است.

تکنیک ها و روش های تجزیه و تحلیل قابل استفاده برای داده های بزرگ طبق مک کینزی:

  • جمع سپاری؛

    ترکیب و یکپارچه سازی داده ها؛

    فراگیری ماشین؛

    شبکه های عصبی مصنوعی؛

    تشخیص الگو؛

    تجزیه و تحلیل پیش بینی کننده؛

    مدل سازی شبیه سازی؛

    تحلیل فضایی؛

    تحلیل آماری؛

  • بصری سازی داده های تحلیلی

مقیاس پذیری افقی که پردازش داده ها را امکان پذیر می کند، اصل اساسی پردازش کلان داده است. داده ها در گره های محاسباتی توزیع می شوند و پردازش بدون کاهش عملکرد انجام می شود. مک‌کینزی همچنین سیستم‌های مدیریت رابطه‌ای و هوش تجاری را در زمینه کاربردی گنجاند.

فن آوری:

  • NoSQL;
  • MapReduce;
  • هادوپ
  • راه حل های سخت افزاری

همچنین بخوانید:

برای کلان داده ها، مشخصه های تعریف کننده سنتی وجود دارد که توسط گروه متا در سال 2001 توسعه یافته است، که به نام " سه V»:

  1. جلد- مقدار حجم فیزیکی
  2. سرعت- نرخ رشد و نیاز به پردازش سریع داده ها برای به دست آوردن نتایج.
  3. تنوع- توانایی پردازش همزمان انواع مختلف داده ها.

داده های بزرگ: کاربرد و فرصت ها

حجم اطلاعات دیجیتالی ناهمگن و به سرعت دریافتی را نمی توان با ابزارهای سنتی پردازش کرد. تجزیه و تحلیل داده ها به خودی خود به شما امکان می دهد الگوهای مشخص و نامحسوسی را ببینید که شخص نمی تواند آنها را ببیند. این به ما امکان می دهد تا تمام زمینه های زندگی خود را بهینه کنیم - از تحت کنترل دولتبه تولید و مخابرات.

به عنوان مثال، چند سال پیش برخی از شرکت ها از مشتریان خود در برابر کلاهبرداری محافظت کردند و مراقبت از پول مشتری مراقبت از پول خود است.

سوزان اتلیگر: داده های بزرگ چطور؟

راه حل های مبتنی بر داده های بزرگ: Sberbank، Beeline و سایر شرکت ها

Beeline اطلاعات زیادی در مورد مشترکین دارد که آنها نه تنها برای کار با آنها، بلکه برای ایجاد محصولات تحلیلی مانند مشاوره خارجی یا تجزیه و تحلیل IPTV از آنها استفاده می کنند. Beeline پایگاه داده را تقسیم بندی کرد و با استفاده از HDFS و Apache Spark برای ذخیره سازی و Rapidminer و Python برای پردازش داده ها، از مشتریان در برابر کلاهبرداری پول و ویروس ها محافظت کرد.

همچنین بخوانید:

یا Sberbank را با کیس قدیمی خود به نام AS SAFI به یاد بیاورید. این سیستمی است که عکس ها را برای شناسایی مشتریان بانک و جلوگیری از کلاهبرداری تجزیه و تحلیل می کند. این سیستم در سال 2014 معرفی شد، این سیستم مبتنی بر مقایسه عکس‌های پایگاه داده است که از وب‌کم‌های روی قفسه‌ها به لطف دید کامپیوتری به آنجا می‌رسند. اساس سیستم یک پلت فرم بیومتریک است. با تشکر از این، موارد کلاهبرداری 10 برابر کاهش یافت.

کلان داده در جهان

تا سال 2020، طبق پیش بینی ها، بشریت 40-44 زتابایت اطلاعات تشکیل خواهد داد. طبق گزارش The Data Age 2025 که توسط تحلیلگران IDC تهیه شده است، تا سال 2025، 10 برابر رشد خواهد کرد. این گزارش خاطرنشان می کند که بیشتر داده ها توسط خود مشاغل تولید می شود، نه مصرف کنندگان عادی.

تحلیلگران این مطالعه بر این باورند که داده‌ها به یک دارایی حیاتی تبدیل می‌شوند و امنیت - پایه‌ای حیاتی در زندگی است. نویسندگان این اثر همچنین مطمئن هستند که فناوری چشم انداز اقتصادی را تغییر خواهد داد و کاربر معمولیحدود 4800 بار در روز با دستگاه های متصل ارتباط برقرار می کند.

بازار داده های بزرگ در روسیه

به طور معمول، کلان داده از سه منبع به دست می آید:

  • اینترنت (شبکه های اجتماعی، انجمن ها، وبلاگ ها، رسانه ها و سایت های دیگر)؛
  • آرشیو اسناد شرکتی؛
  • نشانه های سنسورها، ابزار و سایر دستگاه ها.

کلان داده در بانک ها

علاوه بر سیستم توضیح داده شده در بالا، در استراتژی Sberbank برای 2014-2018. در مورد اهمیت تجزیه و تحلیل مجموعه داده های فوق العاده برای خدمات مشتری با کیفیت، مدیریت ریسک و بهینه سازی هزینه صحبت می کند. این بانک اکنون از داده های بزرگ برای مدیریت ریسک ها، مبارزه با تقلب، تقسیم بندی و ارزیابی اعتبار مشتری، مدیریت پرسنل، پیش بینی صف در شعب، محاسبه پاداش برای کارکنان و سایر وظایف استفاده می کند.

VTB24 از داده های بزرگ برای تقسیم و مدیریت ریزش مشتریان، تولید صورت های مالی و تجزیه و تحلیل بازخورد در شبکه های اجتماعی و انجمن ها استفاده می کند. برای این کار، او از راهکارهای Teradata، SAS Visual Analytics و SAS Marketing Optimizer استفاده می کند.