Big data چیست ؟
Big data چیست ؟
Big data اصطلاحی است برای مجموعه داده های حجیم که بزرگ ، متنوع ، با ساختار پیچیده و با دشواریهایی برای ذخیره سازی ، تحلیل و تصویرسازی (نمایش) ، پردازشهای بیشتر یا نتایج میباشد. پروسه تحقیق بر روی داده های حجیم جهت آشکارسازی الگوهای مخفی و راز همبستگی ها ، تجزیه و تحلیل big data نامیده میشود. این اطلاعات مفید برای سازمانها وشرکتها در جهت کسب بینش غنی تر و عمیق تر و موفقیت در رقابت کمک میکند. به همین دلیل اجراهای big data نیاز دارند تا در صورت امکان ، تحلیل شوند و به طور دقیق اجرا شوند. این گزارش خلاصه ای از محتوای big data ، هدف ، مثالها ، روشها ، منافع و چالش ها ارائه میدهد و در خصوص نگرانیهای حفظ حریم خصوصی در big data بحث میکند.
مقدمه
Big data و تجزیه و تحلیلش در مرکز علوم و تجارتهای مدرن هستند. این داده ها از تراکنشهای online ، email ها ، ویدئوها ، صوتها ، کلیک کردن ها ، log ها و ارسالها ، درخواستهای جستجو ، یادداشتهای درست ، تعاملات شبکه های اجتماعی ، داده های علمی ، سنسورها و تلفنهای همراه و برنامه های کاربردی آنها تولید میشوند. آنها بر روی پایگاه داده ها که به شکل حجیم رشد میکنند ، ذخیره میشوند و ضبط ، شکل دهی ، ذخیره سازی ، مدیریت ، به اشتراک گذاری ، تحلیل و نمایش آنها از طریق ابزارهای نوعی نرم افزار پایگاه داده ها ، دشوار میشود. پنج اگزا بایت (۱۰ به توان ۱۸ بایت) دیتا تا سال ۲۰۰۳ به وسیله انسان به وجود آمده است. امروزه این مقدار اطلاعات در دو روز تولید میشود. در سال ۲۰۱۲ داده های دنیای دیجیتال به ۲.۷۲ زتا بایت ( ۱۰ به توان ۲۱ بایت) توسعه پیدا کرد. پیش بینی میشود که این مقدار هر دو سال ، دو برابر شود وبه حدود ۸ زتا بایت داده در سال ۲۰۱۵ میرسیم.
IBM نشان داد که هر روز ۲.۵ اگزا بایت داده تولید میشود و همچنین %۹۰ از داده ها در ۲ سال اخیر تولید شده است. یک کامپیوتر شخصی حدود ۵۰۰ گیگا بایت (۱۰ به توان ۹ بایت) داده نگه میدارد ، بنابراین برای ذخیره سازی همه داده های دنیا به حدود ۲۰ میلیارد PC نیاز است. در گذشته پروسه آشکارسازی ژنهای بشر تقریباً ۱۰ سال وقت میگرفت ، هم اکنون بیشتر از یک هفته نمیشود. داده های چند رسانه ای وزن بزرگی در ترافیک اینترنت دارند و انتظار میرود به %۷۰ در سال ۲۰۱۳ افزایش یابد. فقط google بیش از یک میلیون سرور در دور جهان دارد. ۶ میلیارد اشتراک موبایل در دنیا وجود دارد و هر روز ۱۰ میلیارد متن پیام (message) ارسال میشود. در سال ۲۰۲۰ ، ۵۰ میلیارد دستگاه به شبکه ها و اینترنت متصل خواهند بود.
در سال ۲۰۱۲ مواجهه بشر با big data به عنوان یک پروژه جهانی انجام شد با مرکزیت مجموعه ای بلادرنگ که مقدار بزرگی از داده ها را نمایش میدهد و تحلیل میکند. بر اساس این پروژه خیلی آمارها نتیجه گرفته شد. Facebook ، نهصد و نود و پنج میلیون حساب کاربری فعال ماهانه با ۷۰ زبان دارد ، ۱۴۰ میلیارد تصویر آپلود شده است ، ۱۲۵ میلیارد اتصالات دوستها و روزانه ۳۰ میلیارد قطعه های با محتوا و ۲.۷ میلیارد like و comment ارسال میشود. هر دقیقه ۴۸ ساعت ویدئو آپلود میشود و هر روز ۴ میلیارد view در YouTube اجرا میشود. Google خدمات بسیاری را پشتیبانی میکند از جمله ۷.۲ میلیارد page را هر روز مونیتور میکند و همچنین ۲۰ پتا بایت (۱۰ به توان ۱۵ بایت) داده را روزانه به ۶۶ زبان ترجمه میکند. یک میلیارد Tweet هر ۷۲ ساعت از بیشتر از ۱۴۰ میلیون کاربر فعال در Twitter داریم. ۵۷۱ وبسایت جدید در هر دقیقه ساخته میشود. در حدود دهه بعد ، تعداد اطلاعات ۵۰ برابر افزایش پیدا خواهد کرد اما تعداد متخصصان تکنولوژی اطلاعات که همه آن اطلاعات را کنترل میکنند ، ۱.۵ برابر افزایش پیدا خواهد کرد.در قسمت ۱ پیامدهای اساسی ، مزایا ، چالشها ، بررسی نتایج ، مثالها ، روشها و اکتشاف دانش از big data ارائه داده شده است و در قسمت ۲ پیامدهای مهم در پیامدهای امنیتی بازبینی میشود و قسمت ۳ مزایا ، موانع بالفعل ، چالشها و موانع big data را ارائه میدهد و قسمت ۴شامل کارها می باشد.
۱.BIG DATA
در این قسمت پیامدهای مهم بازبینی میشوند و در بخشهای مختلف شرح داده میشوند.
۱-۱.پیامد های مهم
Big Data به یک گام چرخشی رو به جلو از تحلیل داده های سنتی نیاز دارد که با سه مؤلفه اصلی اش توصیف میشود: variety (تنوع یا گوناگونی) ، volume (حجم) ، velocity (سرعت).
- Variety (تنوع وگوناگونی): تنوع ، Big Data را واقعاً بزرگ میکند. Big Data از یک تنوع بزرگ از منابع می آید و عموماً این سه نوع را دارد: structured (ساخت یافته) ، semi structured (نیمه ساخت یافته) ، unstructured (بدون ساخت) ، داده های ساخت یافته در یک انبار داده قبلاً برچسب زده شده insert میشود و به راحتی ذخیره میشود. اما داده های بدون ساخت ، رندوم هستند و تحلیل آنها دشوار است. داده های نیمه ساخت یافته ، با فیلدهای ثابت تطبیق داده نمیشوند اما شامل برچسبهایی جهت جداسازی عناصر داده میباشند.
- Volume (حجم): حجم یا اندازه داده ، هم اکنون بزرگتر از ترا بایت(۱۰ به توان ۱۲ بایت) و پتا بایت(۱۰ به توان ۱۵بایت) است. مقیاس بزرگ و پیشرفت داده ها ، روشهای سنتی ذخیره سازی و تکنیک های تحلیل را پشت سر میگذارد.
- Velocity (سرعت): سرعت نه تنها لازمه Big Data است ، بلکه لازمه همه پردازشها است. برای پردازشهای محدود به زمان ، Big Data باید مورد استفاده قرار بگیرد همانطور که در سازماندهی به منظور به حداکثر رساندن ارزش خود، جریان دارد.در کنار کثرت این اطلاعات ، مؤلفه دیگر ، تصدیق جریان داده است. کنترل داده بزرگ مشکل است ، بنابراین امنیت داده باید تأمین شود. بعلاوه پس از تولید و پردازش Big Data ، آن باید یک مقدار اضافه جهت سازماندهی ایجاد کند. برخی سؤال و جوابهای مهم وجود دارد که در زیر خلاصه شده است که توسط مؤسسه TDWI جهت مدیریت حرفه ای داده ، پرسیده شده و مورد بررسی قرار گرفته است.
- پس از سازماندهی نوعی از تجزیه و تحلیل Big Data که به کار برده شده ، این منافع اتفاق می افتد: بازاریابی هدفمندتر ، بینش های کاری صریح تر ، تقسیم بندی بر مبنای مشتری ، تشخیص فروشها و شانسهای بازار.
- در طول تکمیل شدن تحلیل Big Data ، این پیامدها موانع مستعد هستند: چیزهای بی تخصص ، هزینه ، محرومیت از ضمانت و حمایت از کار ، سختی طراحی سیستم های تحلیل ، فقدان نرم افزار پایگاه داده فعلی در زمینه تجزیه و تحلیل.
- از آنجاییکه جمعیت قابل توجهی Big Data را هم اکنون تعریف کرده اند و در آینده Big Data به دلیل تجزیه و تحلیل جامع یک فرصت است و برخی از آنها Big Data را به دلیل مدیریت کردن یک مشکل می بینند.
- انواع داده های حجیم که ذخیره میشوند و به وسیله تکنیک های پیشرفته امروزی استفاده میشوند ، عبارتند از : ساخت یافته ، نیمه ساخت یافته ، رویداد (event) و داده های بدون ساخت.
- در حین جابه جایی سکو (platform) ، این مشکلات اتفاق می افتد: نمیتواند با حجم بزرگی از داده ها تطبیق داده شود ، نمیتواند مدلهای تجزیه و تحلیل مورد نیاز را پشتیبانی کند ، نیاز به سکوی تجزیه و تحلیل پیشرفته و اینکه فناوری اطلاعات (IT) ، نمیتواند به تقاضاها و نیازها رسیدگی کند.
همانطور که از بررسی ها دیده میشود ، تجزیه و تحلیل داده های حجیم هنوز به توجه بیشتر نیاز دارد. تجزیه و تحلیل داده های حجیم متواند به صدها سرور نیاز داشته باشد که با نرم افزار موازی به شکل انبوه اجرا میشود. آن چیزی که داده های حجیم را جدا از تنوع و حجم و سرعت آن واقعاً متمایز میکند، پتانسیل تحلیل آن برای آشکارسازی بینش های جدید جهت بهینه سازی تصمیم گیری است.
۲-۱.نمونه هایی از داده های حجیم
نمونه های واقعاً در دسترس از داده های حجیم عبارتند از : در ستاره شناسی ، علوم جوی ، ژنومیک(علم تجزیه وتحلیل داده های ژنتیکی) ، بیوژئوشیمی (شیمی زیستی جغرافیایی) ، علوم و تحقیقات زیستی ، دولت ، حوادث طبیعی ، منابع مدیریت ، بخش خصوصی ، مراقبت نظامی ، خدمات مالی ، جزئیات ، شبکه های اجتماعی ، وبلاگها ، متون ، اسناد ، عکاسی ، صوت ، ویدئو ، جریان کلیک کردن ، جستجو ، اندیس گذاری ، سوابق جزئیات تماس ، اطلاعات اعتباری ، شناسایی فرکانس رادیویی(RFID) ، تلفنهای همراه ، شبکه های حسگر و ارتباطات از راه دور. سازمانها در هر صنعتی که دارای داده های حجیم هستند ، میتوانند از تحلیل های دقیق خود در کسب بینش و دقیق بینی جهت حل مشکلات واقعی نفع ببرند.مؤسسه جهانی McKinsey پتانسیل داده های حجیم را در ۵ موضوع اصلی مشخص کرده است:
- بهداشت و درمان (healthcare): سیستمهای پشتیبانی تصمیم گیری بالینی ، تجزیه و تحلیل فردی به کار برده شده برای مشخصات بیمار ، پزشکی شخصی ، عملکرد مبتنی بر ارزشگذاری برای پرسنل ، تحلیل الگوهای بیماری ، بهبود سلامت عمومی.
- بخش عمومی (public sector): ایجاد شفافیت به واسطه داده های وابسته در دسترس ، کشف نیازها ، بهبود عملکرد ، اقدامات سفارشی برای محصولات مناسب و خدمات ،تصمیم گیری با سیستمهای اتوماتیک برای کاهش ریسکها ، نوآوری در محصولات جدید و خدمات.
- جزئی (retail): در تحلیل رفتار ذخیره سازی ، بهینه سازی قیمت و تنوع ، طراحی تبلیغ محصول ، توسعه عملکرد ، بهینه سازی ورودی کار ، بهینه سازی تدارکات و توزیع ، بازارهای مبتنی بر web .
- ساخت (manufacturing): توسعه پیش بینی تقاضا ، برنامه ریزی زنجیره تأمین(ذخیره) ، پشتیبانی فروش ، توسعه عملیات تولید ، برنامه های کاربردی مبتنی بر جستجو در web .
- داده های مکانهای شخصی(personal location data): مسیر یابی هوشمند ، تبلیغات جغرافیایی هدفمند یا واکنش های اضطراری ، برنامه ریزی شهری ، مدلهای کسب و کار جدید.
Web همچنین نوعی از فرصت ها را برای داده های حجیم فراهم میکند. به عنوان مثال ، تحلیل شبکه های اجتماعی جهت درک هوش کاربر برای تبلیغات هوشمندتر ، کمپینهای بازاریابی و برنامه ریزی ظرفیت ، رفتار مشتری و الگوهای خرید و همچنین تجزیه و تحلیل احساسات. بر اساس این استنتاجها، شرکتها محتوای خود را و تدبیر توصیه خود را بهینه سازی میکنند. برخی از شرکتها نظیر گوگل و آمازون، مقالات مربوط به کار خود را چاپ میکنند. با الهام از نوشته های چاپ شده ، توسعه دهندگان تکنولوژی های مشابهی نظیر نرم افزارهای open source از قبیل Lucene ، Solr ، Hadoop و HBase را توسعه دادند.
Facebook ، Twitter و LinkedIn یک قدم جلوتر رفتند بدین شکل که پروژه های open source را برای داده های حجیم را چاپ کردند. مثل Cassandra ، Hive ، Pig ، Voldemort ، Storm ، IndexTank.علاوه بر این ، تجزیه و تحلیل های پیش گویانه بر روی جریان ترافیک و یا شناسایی خلافکارها و تهدید کردن از طریق ویدئوهای مختف و صدا و بازخورد های داده از مزایای داده های حجیم هستند.در سال ۲۰۱۲ دولت اوباما اعلام کرد در طرحهای Big Data بیش از ۲۰۰ میلیون دلار در تحقیق و توسعه برای بنیاد ملی علوم ، مؤسسه ملی بهداشت ، وزارت دفاع ، وزارت انرژی ، سازمان زمین شناسی ایالات متحده ، سرمایه گذاری شده است. این سرمایه گذاریها برای کسب یک گام رو به جلو در ابزارها و روشها برای دستیابی ، سازماندهی و جمع آوری یافته ها از حجم زیادی از داده های دیجیتال ، انجام شده است.