فراتر از داده های بزرگ/سیاستها و ملاحظات در استفاده از بیگدیتا
ایده «بیگدیتا» (Big Data) در اوایل دهه 2000 اوج گرفت. زمانی که داگ لنی (Doug Laney) تحلیلگر صنعتی، تعریف ویژهای از بیگدیتا ارائه داد و آن را بهعنوان خصوصیات اصلی بزرگداده برشمرد./بسیاری از مردم با شنیدن این عبارت تصور میکنند که بیگدیتا یعنی تعداد بسیار زیادی داده و یا اطلاعات، در صورتی که این تصوری نادرست است. بیگدیتا در حقیقت بینهایت داده است که در طی زمان مدام در حال تولید است و باید بهطور آنی مورد تجزیه و تحلیل قرار گیرد.
به گزارش پایگاه خبری بانکداری الکترونیک،با اینکه عنوان «بیگدیتا» (Big Data) یک عبارت نسبتا جدید است، اما جمعآوری حجم زیادی از دادهها با هدف تحلیل آنها فعالیتی بسیار قدیمی است. این ایده در اوایل دهه 2000 اوج گرفت. زمانی که داگ لنی (Doug Laney) تحلیلگر صنعتی، تعریف ویژهای از بیگدیتا ارائه داد و آن را بهعنوان خصوصیات اصلی بیگدیتا برشمرد.
بسیاری از مردم با شنیدن این عبارت تصور میکنند که بیگدیتا یعنی تعداد بسیار زیادی داده و یا اطلاعات، در صورتی که این تصوری نادرست است. بیگدیتا در حقیقت بینهایت داده است که در طی زمان مدام در حال تولید است و باید بهطور آنی مورد تجزیه و تحلیل قرار گیرد. بهعنوان نمونه تعداد تراکنشها، مبلغ تراکنشها، فایلهایی که در اینترنت بارگذاری میشود و حتی ویدئوها و عکسهایی که در فضای اینترنت بارگذاری میشوند از این دسته هستند. مقدار تولید این نوع دادهها میتواند به عددی بالغ بر 1 میلیارد رقم در روز برسد و تولید این نوع دادهها نه تنها متوقف نخواهد شد، بلکه روز به روز با سرعت بیشتری افزایش مییابد. بنابراین بیگدیتا را اینطور میتوان تعریف کرد: حجم بسیار زیادی داده که در بازه زمانی کوتاهمدت بهطور مداوم در حال تولید است و عملا تعداد آن نامتناهی است.
خصوصیات بیگدیتا
حجم: سازمانهای مختلف از منابع متعددی اطلاعات را جمعآوری میکنند. مانند تراکنشهای تجاری، رسانهها و اطلاعات جمع آوری شده از سنسورهای مکانیکی و… . در گذشته ذخیره این حجم از اطلاعات بسیار دشوار بود، اما امروزه تکنولوژیهای جدید این مشکل را مرتفع ساخته اند.
سرعت جریان: این نوع دادهها با سرعت بسیار بی سابقهای تولید میشوند و مدیریت آنها به صورت زمانبندی شده اهمیت زیادی دارد. برچسبهای RFID، سنسورها و دستگاههای هوشمند بهطور قابل توجهی داده تولید میکنند و بنابراین تحلیل این سیل دادهها باید بیدرنگ انجام گیرد.
تنوع: این نوع دادهها به هر نوع و فرمتی جمعآوری میشوند. از اطلاعات عددی و دارای ساختار گرفته تا اطلاعات بدون ساختار و غیر عددی مانند نوشتهها، اسناد، ایمیلها، ویدئوها و حتی تراکنشهای مالی.
شرکت جهانی SAS (Statistical Analysis System) دو بعد دیگر نیز برای اینگونه دادهها تعریف کرده است:
تغییرپذیری: علاوه بر سرعت و تنوع بالای این نوع دادهها، این اطلاعات در زمانهای اوج میتواند ناسازگاری زیادی داشته باشد. مثلا زمانی که رسانهها یک داستان داغ را دنبال کنند. اوجگیری روزانه، هفتگی و حتی ماهانه این نوع دادهها منجربه سخت شدن مدیریت آنها میشود. همانند زمانی که دانشجویان جهت ثبت نام به سایت سازمان سنجش هجوم آورده و بواسطه تعداد زیادی کاربر که بهطور همزمان از این منبع استفاده میکنند منجربه ایجاد اختلال در سیستم سایت خواهد شد. در نتیجه این امر، الگوی جریان دادهها با زمانی که سایت به این اوج نرسیده است متفاوت است.
پیچیدگی: در حال حاضر دادهها از منابع بسیار مختلفی تولید میشوند که ارتباط دادن آنها با یکدیگر، تمیز دادن آنها و حتی تبدیل آنها در بین سیستمها مختلف کاری بس دشوار است. بنابراین با کمی درنگ در طبقهبندی، ارتباطدهی و ساختار سازی ممکن است کل دادهها از کنترل خارج شوند.
چرخه بیگدیتا
چرخه زندگی بیگدیتا به چهار بخش تقسیم میشود: 1) جمعآوری، 2) تلفیق و ترکیب، 3) کند و کاوی و تحلیل، 4) استفاده از نتایج.
در مرحله اول بسیاری از دادهها بیگدیتا نیستند، بلکه شرکت بایت به بایت این دادهها را از منابع مختلف جمع آوری میکند. بعنوان مثال زمانی که یک مشتری برای خرید در اینترنت جستجو میکند، شرکتها این جستجو را ردیابی میکنند. در برخی موارد، افراد با ورود به سایت و یا خرید، هویت خود را نیز مشخص میکنند. در برخی از موارد نیز با استفاده از کوکیها، اثر انگشت جستجوگر اینترنتی و حتی ردیابی تاریخچه جستجوی افراد به تشخیص هویت فرد پرداخته و نوع فعالیت و هدف وی را دنبال میکنند.
در پلتفرم موبایلی، شرکتها قادرند تا اطلاعات تولید شده از فعالیت فرد با استفاده از هر یک از نرمافزارها را با یکدیگر تلفیق کنند و به عادات و سلایق فرد پی ببرند. علاوه بر این، امکان ردیابی فردی که از دستگاههای مختلف جهت فعالیتهای اینترنتی خود استفاده میکند باعث میشود تا شرکتها بتوانند با فرد مورد نظر در زمانی که از هر نوع ابزاری همچون کامپیوتر، لپتاپ، تبلت و موبایل استفاده میکند، ارتباط برقرار کرده و اطلاعات مورد نیاز خود را جمع آوری کنند.
جمع آوری آفلاین دادهها به اندازه جمعآوری آنلاین دادهها اهمیت دارد. بنابراین، شرکتها با استفاده از ابزارهای مختلف همچون پرسشنامه، کارتهای گارانتی، و حتی خریدهای انجام شده با کارت اعتباری به ردیابی فرد و گردآوری اطلاعات از نحوه عملکرد وی میپردازند.
سیاستها و ملاحظات در استفاده از بیگدیتا
از آنجایی که ترجمه و تولید اطلاعات از بیگدیتا با استفاده از علم آمار امکانپذیر است، بسیاری از قوانین مهم آماری در این زمینه دخالت دارند و باید مد نظر قرار گیرند تا دادههای جمعآوری شده نتایج گمراهکننده به دنبال نداشته باشند. موارد قابل ذکر در این زمینه در ادامه ارائه شده است.
1- اطلاعات بهدست آمده به چه میزان نماینده مناسبی از الگوی مصرفکننده هستند؟
محققان شرکت کننده در همایشها و کارگاههای علمی اذعان دارند که اطلاعات جمع آوری شده باید از تمامی طیفهای جامعه گردآوری شده باشد. این آمارها ممکن است برای برخی از افراد جامعه دارای خلاء باشد. بهعنوان نمونه افرادی که در آشکار ساختن اطلاعات خود بسیار محطات هستند، یا افرادی که در اقتصاد نقش کمتری دارند، یا افرادی که به اینترنت و یا هرگونه ابزاری که بتوان با استفاده از آن به تولید بیگدیتا کمک کرد دسترسی ندارند. این چنین نتایج باعث میشود تا اطلاعات مربوط به بخشی از جامعه در سیستم ثبت نشده و این دادهها عملا نمایندهای از کل جامعه نباشند.
2- آیا مدل پیشنهادی دادهها انحراف (بایاس) را مد نظر قرار داده است؟
بر اساس نتایج تحقیقات انجام شده در این زمینه، هر دادهای که از نظر آماری قابل استفاده باشد دارای ضریبی از انحراف است. این قضیه در مورد بیگدیتا نیز صدق میکند. بهعنوان مثال استفاده افراد در برخی از کشورها از فیلترشکنها منجربه ایجاد بایاس میشود. زیرا با استفاده از این نرمافزارها موقعیت واقعیِ فرد نه تنها مخدوش شده، بلکه یک فرد از یک کشور میتواند با استفاده از پروتکل اینترنتی یک کشور دیگر به جستجوی اینترنت بپردازد. این امر باعث میشود تا اطلاعات جستجوی فرد بهعنوان ساکن کشور دوم ثبت شده و در نتیجه آمارها را منحرف سازد.
3- دقت پیش بینیهای انجام شده بر اساس بیگدیتای مورد نظر چقدر است؟
بسیاری از محققین بر این باورند که تحلیل بیگدیتا توجه کافی به فرضیات پایهای علم آمار ندارند. در نتیجه، این امر منجربه کاهش دقت پیش بینی نتایج میشود. آنها اذعان دارند با اینکه بیگدیتا منبع بسیار خوبی جهت پی بردن به روابط و همبستگیها است، اما نشان نمیدهد که کدام یک از این همبستگیها واقعا منطقی هستند. بهعنوان نمونه، شرکت گوگل در یک طرح جهت پی بردن به میزان مستعد بودن مناطق آمریکا به آنفولانزا، کلمه flu (آنفولانزا) را بعنوان کلمه کلیدی نشاندهنده این بیماری مورد استفاده قرار داد. بدان معنی که در ایالاتی که این کلمه بیشتر در اینترنت جستجو میشود، بروز این بیماری بیشتر خواهد بود. مسئولین انتظار داشتند تا نتایج دقیقی از این طرح بدست آورند. اما از آنجایی که این عبارت میتواند با مسائلی دیگر که ربطی به این بیماری ندارد جستجو شود، این طرح منجر به تولید اطلاعات شدیدا پرت و غیر دقیق شد.
4- آیا استفاده شما از بیگدیتا منجر به خدشهدار شدن مسائل اخلاقی میشود
از آنجایی که بیگدیتا میتواند اطلاعات شخصی افراد را در دسترس قرار دهد امکان بروز اینگونه مشکلات نیز وجود دارد. بنابراین اتکای زیاد شرکتها به بیگدیتا ممکن است تنها با هدف رسیدن به اهداف اصلی شرکت نباشد. بهعنوان نمونه یک شرکت با استفاده از این دادهها تعیین کند که کارمندانی که در این شرکت فعال هستند با توجه به فاصله آنها از محل کار مدت کوتاهتری در این شغل باقی میمانند. یا در یک شرکت از آنجایی که افراد ساکن در شهری که شرکت در آن قرار دارد دارای نژادهای مختلفی هستند، به دنبال آن باشد تا از شهرهای دیگر به جذب نیرو بپردازد. این امر منجر میشود تا افراد بهطور سلیقهای از این اطلاعات استفاده کرده و منجربه رخداد اینگونه بیاخلاقیها شوند. در نتیجه در حال حاضر شرکتها به دنبال تولید معیارهایی هستند تا تنها با تکیه بر تواناییهای افراد از نتایج بیگدیتا استفاده کنند.
منبع ماهنامه بانکداری آینده،شماره 12 و 13، مرداد و شهریور 95