فراتر از داده های بزرگ/سیاست‌ها و ملاحظات در استفاده از بیگ‌دیتا

ایده «بیگ‌دیتا» (Big Data) در اوایل دهه 2000 اوج گرفت. زمانی که داگ لنی (Doug Laney) تحلیل‌گر صنعتی، تعریف ویژه‌ای از بیگ‌دیتا ارائه داد و آن را به‌عنوان خصوصیات اصلی بزرگداده برشمرد./بسیاری از مردم با شنیدن این عبارت تصور می‌کنند که بیگ‌دیتا یعنی تعداد بسیار زیادی داده و یا اطلاعات، در صورتی که این تصوری نادرست است. بیگ‌دیتا در حقیقت بی‌نهایت داده است که در طی زمان مدام در حال تولید است و باید به‌طور آنی مورد تجزیه و تحلیل قرار گیرد.

به گزارش پایگاه خبری بانکداری الکترونیک،با اینکه عنوان «بیگ‌دیتا» (Big Data) یک عبارت نسبتا جدید است، اما جمع‌آوری حجم زیادی از داده‌ها با هدف تحلیل آنها فعالیتی بسیار قدیمی است. این ایده در اوایل دهه 2000 اوج گرفت. زمانی که داگ لنی (Doug Laney) تحلیل‌گر صنعتی، تعریف ویژه‌ای از بیگ‌دیتا ارائه داد و آن را به‌عنوان خصوصیات اصلی بیگ‌دیتا برشمرد.

بسیاری از مردم با شنیدن این عبارت تصور می‌کنند که بیگ‌دیتا یعنی تعداد بسیار زیادی داده و یا اطلاعات، در صورتی که این تصوری نادرست است. بیگ‌دیتا در حقیقت بی‌نهایت داده است که در طی زمان مدام در حال تولید است و باید به‌طور آنی مورد تجزیه و تحلیل قرار گیرد. به‌عنوان نمونه تعداد تراکنش‌ها، مبلغ تراکنش‌ها، فایل‌هایی که در اینترنت بارگذاری می‌شود و حتی ویدئوها و عکس‌هایی که در فضای اینترنت بارگذاری می‌شوند از این دسته هستند. مقدار تولید این نوع داده‌ها می‌تواند به عددی بالغ بر 1 میلیارد رقم در روز برسد و تولید این نوع داده‌ها نه تنها متوقف نخواهد شد، بلکه روز به روز با سرعت بیشتری افزایش می‌یابد. بنابراین بیگ‌دیتا را این‌طور می‌توان تعریف کرد: حجم بسیار زیادی داده که در بازه زمانی کوتاه‌مدت به‌طور مداوم در حال تولید است و عملا تعداد آن نامتناهی است.

خصوصیات بیگ‌دیتا
حجم: سازمان‌های مختلف از منابع متعددی اطلاعات را جمع‌آوری می‌کنند. مانند تراکنش‌های تجاری، رسانه‌ها و اطلاعات جمع آوری شده از سنسورهای مکانیکی و… . در گذشته ذخیره این حجم از اطلاعات بسیار دشوار بود، اما امروزه تکنولوژی‌های جدید این مشکل را مرتفع ساخته اند.

سرعت جریان: این نوع داده‌ها با سرعت بسیار بی سابقه‌ای تولید می‌شوند و مدیریت آنها به صورت زمانبندی شده اهمیت زیادی دارد. برچسب‌های RFID، سنسورها و دستگاه‌های هوشمند به‌طور قابل توجهی داده تولید می‌کنند و بنابراین تحلیل این سیل داده‌ها باید بی‌درنگ انجام گیرد.

تنوع: این نوع داده‌ها به هر نوع و فرمتی جمع‌آوری می‌شوند. از اطلاعات عددی و دارای ساختار گرفته تا اطلاعات بدون ساختار و غیر عددی مانند نوشته‌ها، اسناد، ایمیل‌ها، ویدئوها و حتی تراکنش‌های مالی.

شرکت جهانی SAS (Statistical Analysis System) دو بعد دیگر نیز برای این‌گونه داده‌ها تعریف کرده است:
تغییرپذیری: علاوه بر سرعت و تنوع بالای این نوع داده‌ها، این اطلاعات در زمان‌های اوج می‌تواند ناسازگاری زیادی داشته باشد. مثلا زمانی که رسانه‌ها یک داستان داغ را دنبال کنند. اوج‌گیری روزانه، هفتگی و حتی ماهانه این نوع داده‌ها منجربه سخت شدن مدیریت آنها می‌شود. همانند زمانی که دانشجویان جهت ثبت نام به سایت سازمان سنجش هجوم آورده و بواسطه تعداد زیادی کاربر که به‌طور همزمان از این منبع استفاده می‌کنند منجربه ایجاد اختلال در سیستم سایت خواهد شد. در نتیجه این امر، الگوی جریان داده‌ها با زمانی که سایت به این اوج نرسیده است متفاوت است.

پیچیدگی: در حال حاضر داده‌ها از منابع بسیار مختلفی تولید می‌شوند که ارتباط دادن آنها با یکدیگر، تمیز دادن آنها و حتی تبدیل آنها در بین سیستم‌ها مختلف کاری بس دشوار است. بنابراین با کمی درنگ در طبقه‌بندی، ارتباط‌دهی و ساختار سازی ممکن است کل داده‌ها از کنترل خارج شوند.

چرخه بیگ‌دیتا
چرخه زندگی بیگ‌دیتا به چهار بخش تقسیم می‌شود: 1) جمع‌آوری، 2) تلفیق و ترکیب، 3) کند و کاوی و تحلیل، 4) استفاده از نتایج.
در مرحله اول بسیاری از داده‌ها بیگ‌دیتا نیستند، بلکه شرکت بایت به بایت این داده‌ها را از منابع مختلف جمع آوری می‌کند. بعنوان مثال زمانی که یک مشتری برای خرید در اینترنت جستجو می‌کند، شرکت‌ها این جستجو را ردیابی می‌کنند. در برخی موارد، افراد با ورود به سایت و یا خرید، هویت خود را نیز مشخص می‌کنند. در برخی از موارد نیز با استفاده از کوکی‌ها، اثر انگشت جستجوگر اینترنتی و حتی ردیابی تاریخچه جستجوی افراد به تشخیص هویت فرد پرداخته و نوع فعالیت و هدف وی را دنبال می‌کنند.

در پلتفرم موبایلی، شرکت‌ها قادرند تا اطلاعات تولید شده از فعالیت فرد با استفاده از هر یک از نرم‌افزارها را با یکدیگر تلفیق کنند و به عادات و سلایق فرد پی ببرند. علاوه بر این، امکان ردیابی فردی که از دستگاه‌های مختلف جهت فعالیت‌های اینترنتی خود استفاده می‌کند باعث می‌شود تا شرکت‌ها بتوانند با فرد مورد نظر در زمانی که از هر نوع ابزاری همچون کامپیوتر، لپتاپ، تبلت و موبایل استفاده می‌کند، ارتباط برقرار کرده و اطلاعات مورد نیاز خود را جمع آوری کنند.

جمع آوری آفلاین داده‌ها به اندازه جمع‌آوری آنلاین داده‌ها اهمیت دارد. بنابراین، شرکت‌ها با استفاده از ابزارهای مختلف همچون پرسشنامه، کارت‌های گارانتی، و حتی خریدهای انجام شده با کارت اعتباری به ردیابی فرد و گردآوری اطلاعات از نحوه عملکرد وی می‌پردازند.

سیاست‌ها و ملاحظات در استفاده از بیگ‌دیتا
از آنجایی که ترجمه و تولید اطلاعات از بیگ‌دیتا با استفاده از علم آمار امکان‌پذیر است، بسیاری از قوانین مهم آماری در این زمینه دخالت دارند و باید مد نظر قرار گیرند تا داده‌های جمع‌آوری شده نتایج گمراه‌کننده به دنبال نداشته باشند. موارد قابل ذکر در این زمینه در ادامه ارائه شده است.

1- اطلاعات به‌دست آمده به چه میزان نماینده مناسبی از الگوی مصرف‌کننده هستند؟
محققان شرکت کننده در همایش‌ها و کارگاه‌های علمی اذعان دارند که اطلاعات جمع آوری شده باید از تمامی طیف‌های جامعه گردآوری شده باشد. این آمارها ممکن است برای برخی از افراد جامعه دارای خلاء باشد. به‌عنوان نمونه افرادی که در آشکار ساختن اطلاعات خود بسیار محطات هستند، یا افرادی که در اقتصاد نقش کمتری دارند، یا افرادی که به اینترنت و یا هرگونه ابزاری که بتوان با استفاده از آن به تولید بیگ‌دیتا کمک کرد دسترسی ندارند. این چنین نتایج باعث می‌شود تا اطلاعات مربوط به بخشی از جامعه در سیستم ثبت نشده و این داده‌ها عملا نماینده‌ای از کل جامعه نباشند.

2- آیا مدل پیشنهادی داده‌ها انحراف (بایاس) را مد نظر قرار داده است؟
بر اساس نتایج تحقیقات انجام شده در این زمینه، هر داده‌ای که از نظر آماری قابل استفاده باشد دارای ضریبی از انحراف است. این قضیه در مورد بیگ‌دیتا نیز صدق می‌کند. به‌عنوان مثال استفاده افراد در برخی از کشورها از فیلترشکن‌ها منجربه ایجاد بایاس می‌شود. زیرا با استفاده از این نرم‌افزارها موقعیت واقعیِ فرد نه تنها مخدوش شده، بلکه یک فرد از یک کشور می‌تواند با استفاده از پروتکل اینترنتی یک کشور دیگر به جستجوی اینترنت بپردازد. این امر باعث می‌شود تا اطلاعات جستجوی فرد به‌عنوان ساکن کشور دوم ثبت شده و در نتیجه آمارها را منحرف سازد.

3- دقت پیش بینی‌های انجام شده بر اساس بیگ‌دیتای مورد نظر چقدر است؟
بسیاری از محققین بر این باورند که تحلیل بیگ‌دیتا توجه کافی به فرضیات پایه‌ای علم آمار ندارند. در نتیجه، این امر منجربه کاهش دقت پیش بینی نتایج می‌شود. آنها اذعان دارند با اینکه بیگ‌دیتا منبع بسیار خوبی جهت پی بردن به روابط و همبستگی‌ها است، اما نشان نمی‌دهد که کدام یک از این همبستگی‌ها واقعا منطقی هستند. به‌عنوان نمونه، شرکت گوگل در یک طرح جهت پی بردن به میزان مستعد بودن مناطق آمریکا به آنفولانزا، کلمه flu (آنفولانزا) را بعنوان کلمه کلیدی نشان‌دهنده این بیماری مورد استفاده قرار داد. بدان معنی که در ایالاتی که این کلمه بیشتر در اینترنت جستجو می‌شود، بروز این بیماری بیشتر خواهد بود. مسئولین انتظار داشتند تا نتایج دقیقی از این طرح بدست آورند. اما از آنجایی که این عبارت می‌تواند با مسائلی دیگر که ربطی به این بیماری ندارد جستجو شود، این طرح منجر به تولید اطلاعات شدیدا پرت و غیر دقیق شد.
4- آیا استفاده شما از بیگ‌دیتا منجر به خدشه‌دار شدن مسائل اخلاقی می‌شود
از آنجایی که بیگ‌دیتا می‌تواند اطلاعات شخصی افراد را در دسترس قرار دهد امکان بروز این‌گونه مشکلات نیز وجود دارد. بنابراین اتکای زیاد شرکت‌ها به بیگ‌دیتا ممکن است تنها با هدف رسیدن به اهداف اصلی شرکت نباشد. به‌عنوان نمونه یک شرکت با استفاده از این داده‌ها تعیین کند که کارمندانی که در این شرکت فعال هستند با توجه به فاصله آنها از محل کار مدت کوتاه‌تری در این شغل باقی می‌مانند. یا در یک شرکت از آنجایی که افراد ساکن در شهری که شرکت در آن قرار دارد دارای نژادهای مختلفی هستند، به دنبال آن باشد تا از شهر‌های دیگر به جذب نیرو بپردازد. این امر منجر می‌شود تا افراد به‌طور سلیقه‌ای از این اطلاعات استفاده کرده و منجربه رخداد این‌گونه بی‌اخلاقی‌ها شوند. در نتیجه در حال حاضر شرکت‌ها به دنبال تولید معیارهایی هستند تا تنها با تکیه بر توانایی‌های افراد از نتایج بیگ‌دیتا استفاده کنند.

 منبع ماهنامه بانکداری آینده،شماره 12 و 13، مرداد و شهریور 95

لینک کوتاهلینک کپی شد!
ممکن است شما دوست داشته باشید
ارسال یک پاسخ

5  ×  6  =