فصل هوش مصنوعی
در گفت و گو با هیئت علمی دانشگاه تهران
ارتباط هوش مصنوعی و داده حجیم (بیگدیتا) ارتباطی بسیار نوپا محسوب میشود. این در حالی است که سابقه استفاده از هوش مصنوعی بسیار قدیمیتر از بیگدیتا است و بیگدیتا قاعدتا میتواند در عالمی غیر از هوش مصنوعی هم وجود داشته باشد و مستقل از بحث هوش مصنوعی به آن نگاه کرد. در نوشته پیشرو هدف اصلی ما بررسی روند کلی فرایند هوش مصنوعی در رابطه با بیگدیتا است. به همین منظور در گفتوگویی با دکتر هادی ویسی، استاد دانشگاه تهران تلاش کردیم تا از منظر ارتباطی که بین هوش مصنوعی و بیگدیتا وجود دارد، ارتباط موج
به گزارش پایگاه خبری بانکداری الکترونیک، گفت و گو با دکتر هادی ویسی درباره هوش مصنوعی را می خوانید
- لطفا در ابتدا روند حاکم بر حوزه هوش مصنوعی را توضیح دهید:
به طور کلی، هوش مصنوعی را میتوانیم به چند شاخه اصلی تقسیمبندی کنیم. یکی از این حوزهها نمایش داده است که مربوط میشود به زمانی که ما دادهای داریم و میخواهیم آن را در کامپیوتر نمایش بدهیم.حوزه دیگر برنامهریزی در هوش مصنوعی است که عمدتا به فضای برنامهریزی برای رباتها و ابزارهای هوشمند مربوط میشود. حوزه بعدی نیز حوزه ماشین یادگیری است که خود به چندین دسته دیگر تقسیم میشود.
*کمی در مورد موسسات هوش مصنوعی که در این زمینه در جهان عملکردهای موفقی دارند،بگویید.
حوزههای هوش مصنوعی خیلی مختلف هستند و گروههای مختلفی در هر حوزه هستند. یک حوزه رباتیک داریم که ممکن است اینها اصلا خودشان را درگیر حوزهای مانند پردازش زبان نکنند. عده دیگری هم هستند که در حوزه پردازش زبان فعال هستند. رویای ما در هوش مصنوعی این است که بتوانیم رباتی بسازیم که هم از نظر ظاهری و هم از نظر توان ادراکی مانند انسان باشد. در بین موسساتی که در این حوزهها کار میکنند،دانشگاههایی در آمریکا مانند سیامیو، امایتی و استفورد نیز نمونههای بارز آن هستند. این دانشگاهها در بیشتر حوزههای هوش مصنوعی حضور دارند و خروجیهای خوبی هم داشتند. یکی از نمونههای خروجی استفورد همان شرکت سیری بود که اپل آن را خرید. در اروپا کمبریج کم و بیش در حوزه زبان خوب است. در ژاپن موسسه توکیو جایگاه خوب و قابل احترامی دارد. آخن در آلمان برای پردازش زبان جای معتبری است.
در حوزه صنعت نیز امروزه کسی نیست که نداند گوگول در این زمینه پیشرو است. اگر بخواهیم از شاه مهرههای صنعت هوش مصنوعی نام ببریم قطعا گوگول یکی از آنها است. یکی از عمدهترین دلایل موفقیت گوگل هم دیتا است. گوگول به دیتا خیلی خوبی دسترسی دارد و البته تلاش بسیار خوبی هم داشته است تا دو رکن دیگر یعنی منابع پردازشی و الگوریتمهای مناسب برای این کار را نیز داشته باشد. کلی الگوریتم جدید توسط آنها توسعه پیدا کرده است و زیرساختهای پردازشی و دیتاسنتر هم همه میدانیم در چه وضع خوبی قرار دارد. «آیبیام» هم یکی از شرکتهای پیشرو است و یک سیستم هوش مصنوعی معروف به اسم واتسون دارد.اپل و مایکروسافت نیز در زیرساختهایشان از هوش مصنوعی استفاده میکنند. آمازون نیز در سالهای اخیر به دلایل مختلف وارد حوزههایی همچون رباتیک و پردازش زبان و پردازش داده شده است. در بین شرکتهای فعال در حوزه هوش مصنوعی «آیبیام» در حوزههایمختلفی مانند سلامت، ارتباطات، حوزه بانکی و فاینانس بیشتر وارد شده است.
*لطفا در مورد نقطه اتصال بیگدیتا و هوش مصنوعی توضیح دهید و کمی بیشتر در مورد بیگدیتا در سیستم بانکی صحبت کنید. اساسا هوش مصنوعی و بیگدیتا در حفظ مشتری و نیاز سنجی آنها در امور بانکی میتواند موثر باشد؟
وقتی که راجع به هوش مصنوعی و بیگدیتا صحبت میکنیم، به دو چیز نیاز داریم تا بتوانیم از این دیتا به دانش برسیم. یکی روش است که همان الگوریتمهای هوش مصنوعی و تکنیکها هستند و دیگری زیر ساخت محاسباتی هستند. زیر ساخت محاسباتی از آن جهت مهم است که وقتی حجم دیتا زیاد میشود کامپیوترهای عادی نمیتوانند پردازش کنند. آنها حتما به یک زیرساخت که ترکیبی از سختافزار و نرمافزار است نیاز دارد. وقتی که شما میخواهید چند میلیارد رکورد دیتا را در یک زمان معقول پردازش کنید سی پی یو و پردازشهای عادی جوابگوی کار شما نیستند. نیازمند روشهای دیگری هستید. آنچه ما میتوانیم در بحث در رابطه با ارتباط بیگدیتا و هوش مصنوعی مطرح کنیم، تکنیکهای هوش مصنوعی و استفاده از بیگدیتا برای رسیدن به اهدافی که داریم است. دو دسته کلیدی آنها که خیلی به درد میخورند خصوصا اینکه کاربردهای بانکی دارند، هم یادگیری باناظر یا «supervised learning » و هم یادگیری بدون نظارت یا «unsupervised learning» هستند. یادگیری باناظر روشهایی هستند که ما یک سری دیتا داریم و مقداری هم اطلاعات در مورد آن دیتاها در اختیار داریم. مثلا یک سری مشتری داریم و میدانیم که آنها بدحساب هستند. عدهای دیگر از مشتریها را داریم که میدانیم خوش حساب هستند. ما میتوانیم سیستمی را درست کنیم که از روی مدل ساخته شده با اطلاعات این خوشحسابها و بد حسابها، وقتی فردی میآید در خواست وام میدهد، بتوانیم ریسک آن را تحلیل کنیم.
برای ساخت آن سیستمی که بتواند این ریسک را تحلیل کند نیاز به الگوریتم و دیتا داریم. این دیتاها چون ما یک سری نمونه خوش حساب و بد حساب داریم میتواند در این ساخت به ما کمک کند. یک سری روش در ساخت این الگوریتمها داریم که میتوانند کار مدلسازی را انجام دهند. روشهای یادگیری عمیق (deep learning) از جمله این روشها هستند. این روشها با رشد چشمگیر در سالهای اخیر، انقلاب دیتایی به وجود آمدند. اساسا فلسفه وجودی آنها این است که من بتوانم حجم زیادی از دیتاها را مدل کنم.
اتفاقی خیلی جالبی که در پارادایم بیگدیتا افتاده است این است که ما میتوانیم شبکههای عصبی ساخته شده را بزرگ کنیم. وقتی شبکهها بزرگ میشوند پارامترهای ناشناس که ما باید از روی دیتا تخمین بزنیم و یا به عبارتی یاد بگیریم زیاد میشود. این دو با هم یادگیری عمیق را ساختند. یادگیری عمیق شبکههای عصبی هستند که بزرگ شدهاند و برای ساخت آنها روشهای یادگیری وجود دارد و قاعدتا نیاز به دیتای زیاد هم دارند. جالب است که بطور متوسط ما به عنوان یک فرد بالغ در مغزمان ده به توان نه نرون داریم و به طور متوسط تعداد اتصالات هر نرون در مغز را در نظر بگیریم آن هم ده به توان چهار است. یعنی ما به طور متوسط در یک فرد بالغ ده به توان پانزده اتصال یا کانکشن بین نرونها داریم. شبکههای عصبی مصنوعی روشی برای شبیهسازی و ساختن این شبکههای عصبی طبیعی است و قرار است ما در آنها این ده به توان پانزده تا اتصال را مدلسازی کنیم. ده به توان پانزده عدد بزرگی است و معادل یک میلیون میلیارد میشود. از این جهت این مثال را عرض کردم که به این نکته برسم که شبکههای عصبی که ما در حال حاضر آن هم با بیگدیتا و یادگیری عمیق میسازیم تعداد کانکشنهای آنها در مقیاس میلیون است. من شبکه عصبی و یادگیری عمیق در هوش مصنوعی را در دانشگاه تدریس میکنم. همیشه میگفتم یکی از دلایلی که ما خیلی با آن کاری که مغز انجام میدهد، فاصله داریم، این است که شبکهای که ما میسازیم در مقابل مغز بسیار کوچک است. اما امروزه ترکیب یادگیری عمیق و بیگدیتا تا حدودی این گپ را کم کرده است و همین هم باعث پیشرفت شده است. بزرگ کردن شبکههای عصبی با یادگیری عمیق و وجود داده زیاد برای آموزش آنها ما را به آن هدف مدلسازی طبیعی از نظر قدرت پردازش نزدیک میکند.
در حال حاضر موفقترین روشهای یادگیری ماشین در هوش مصنوعی، روشهای یادگیری عمیق هستند. در این حوزه روشهایی وجود دارند که دادههای شبیه به هم و الگوهای موجود درد دادهها را شناسایی میکند. این موضوع در حوزه بانک به شدت به درد میخورد چون، دیتاهای بانک عمدتا unsupervised هستند یعنی ما یک سری دیتا داریم که نمیدانیم چه هستند. مثلا در مورد رفتار مشتری سابقه تراکنشها را داریم اما نمیدانیم در نهایت این مشتری خوب است یا بد است. باید به نحوی خودمان وضعیت وی را پیشبینی کنیم. برای این موضوع میتوان با روشهای یادگیری ماشین در هوش مصنوعی رفتار مشتری بانک را تحلیل کرد. این روشها دیتاهای بانک را میگیرند و سعی میکنند الگوهای شبیه به هم را در آن شناسایی کنند. الگوهایی را که ما تعریف میکنیم میتواند رفتار مشتری یا علایق مشتریها باشند. این حوزه از قدیم حتی قبل از بیگدیتا در حوزه هوش مصنوعی با عنوان Data mining داشتیم.
کاربردهای حوزه بانک که من دیدم و در دنیا کار میشود و در کشور ما هم میتوانیم به دنبال آنها برویم، یکی تحلیل ریسک است که زیاد کار شده است. در این کاربرد، ریسک درخواستهایی که برای تسهیلات میآید پیشبینی میشود . یک کاربرد دیگر تحلیل رفتار مشتری به فرمهای مختلف است. یک بخشی از این تحلیلها برای حفظ و نگهداری مشتری است. اینکه چه چیزی برای مشتری جذاب است. به مشتری چه پیشنهادی باید داد. در واقع تحلیل رفتار مشتری و پیشنهاد کردن یک سری چیزها به آن در کشور ما کار نشده است. وقتی که میگوییم تحلیل رفتار مشتری یعنی اینکه شما سی میلیون شماره حساب دارید باید به کدام اس ام اس تبلیغاتی برای یک خدمت جدید که توسط بانک ارائه میشود، بفرستید. حوزه دیگر از کاربردها موضوع تشخیص تخلفات و کشف تقلب است. حوزه دیگر ارتباط بانک با مشتریان و اطلاعرسانی است. سیستمهای مختلفی داریم که به صورت متنی کار میکنند و مشتری میتواند در یک اپ یا وب سایت سوالش را بپرسد و جوابش توسط یک سیستم هوش مصنوعی داده شود. این یک حوزه بزرگ است که ما در آن کم کار کردیم. از چیزهای خیلی ابتدایی این است که مشتری بخواهد اطلاعات شعبه خاصی را بداند، خوب ما باید یک سری دسترسیها را تسهیل کنیم و نباید منتظر باشیم برای جواب یک سوال پشت صف اپراتور تلفنی باشم. میتوان این کار را سیستمهای تلفنی خودکار که از روی صحبت کردن مشتری نیاز او را تشخیص میدهند، انجام داد.
*آنچیزی که مدنظر من است این نکته است که دیتاها را بصورت آنلاین گرفته شود و بعد هم توسط بیگدیتا آنالیز و تحلیل شود.
اینها بستگی به کاربرد ما دارد. از اپلیکیشنها یک بخشی هم این است که شما میگویید. در تحلیل ریسک زمانی که فردی به بانک میرود و درخواست تسهیلات میکند آنجا لازم است که چک شود. کارشناس بانک بر اساس تاریخچه من یک مدلی از قبل ساخته (منظورم مدل فرد معتمد است) بیگدیتا و تاریخچه من با آن مقایسه میشود و در آخر به من پبشنهادی داده میشود. اینکه این آدم ریسکش زیاد یا کم است. با اینکه در بانکها دیتا داریم اما به اعتقاد من یک معضل جدی بانکها این است که دیتای خوب ندارند. دیتای تر و تمیز که بشود پردازش بیگ روی آنها انجام داد کم است.
*گفته میشود که دیتای خوب و بد نداریم و در واقع این شما هستید که به انها ارزش میدهید.
خیر. من نظری متفاوت از این دارم. در حوزه تحلیل ریسک حدود بیست یا سی سال است که در دنیا کار شده است. خیلی خوشحال شدم که دیدم به تازگی مسابقهای در دانشگاه امیر کبیر با همین موضوع تحلیل داده بانکی برگزار شد. خوشحال کننده است که یک بانک حاضر شده است تا دیتا در اختیار پژوهشگران بگذارد که مسابقه برگزار کنند (مسابقه ملی داده کاوی دانشگاه صنعتی امیر کبیر).
*یکی از چیزهایی که بیگدیتا را متفاوت میکند این است که به محض دریافت اطلاعات وارد سیستم میشود.
همینطور است. روش برخورد ما با دادهها این کار را میکند. عدهای از دادهها اینطور است که شما میگویید اما عدهای از دادهها هم باید پردازش آفلاین روی آنها انجام شود بعد وارد سیستم شوند.
در واقع از نظر سه رکن تکنولوژی، رگولاتوری و صنعت باید بگوییم که وضعیت هوش مصنوعی ما از نظر تکنولوژی بد نیست. هرچند نمیشود بگوییم که تاپ هستیم اما میدانیم در دنیا چه میگذرد شاید با یک فاصله یک ساله از دنیا اطلاعات را داریم. وضعمان از نظر دانش بد نیست. آدمهایی که در این حوزه هستند دانش خوبی دارند و میدانند چطور با مسائل برخورد کنند. صنعت و رگولاتوری به نسبت تکنولوژی وضعیت نامطلوبتری دارند. توجه داشته باشید من زمانی میتوانم از تکنولوژی در بانک استفاده کنم که تقاضایی برای آن وجود داشته باشد. یعنی تا زمانی که بانک نگوید که میخواهد تحلیل ریسک داشته باشد یا اینکه من به کدام مشتریها اطلاعرسانی و پیشنهاد خدمت جدید کنم. تا زمانی که بانک اینها را نخواهد این دانش عملیاتی نشده و میشود همان چیزی که در مقاله و جامعه علمی داریم.
*آیا نیاز به قوانین خاصی داریم؟
در این بخش،در حوزه بیگدیتا و هوش مصنوعی معضل اساسی در بخش قوانین دسترسی به داده است. به نظر من باید به حال برای این مساله فکری کرد. ما میدانیم دیتاها با ارزش هستند و خیلی از مجموعهها تمایلی به ارائه دیتاهای خود ندارند. از طرفی ما میدانیم که بسیاری از دیتاها حریم شخصی مشتریان هستند. به نظر من حریم شخصیها را میتوان یا کد کرد و یا حتی پاک کنید و یک بخشی را مانند همان اتفاقی که در امیرکبیر افتاد در اختیار محققین بگذارید. محقق با نیازهای واقعی آشنا میشود. ما در حوزهای هم که دیتاها از مجموعه خارج نمیشوند و در بیگدیتا مینشینند وضعیت خوبی نداریم. یک بخشی از اطلاعات بعد از یک مدت باید آزاد شوند بخشی هم خصوصی نیستند و میتوانند همین الان هم آزاد باشند. اما ذات کشور ما این است که داده در اختیار قرار نگیرد، به عنوان مثال اگر من یک سری اطلاعات دارم جرات نکنم در اختیار شما قرار بدهم.
اگر ما بخواهیم این تکنولوژی در بانک بنشیند اطلاعات حریم خصوصی را نه، اما اطلاعاتی را که میشود با آن کار کرد در اختیار محققین قرار داد. این کار را هر چند سال در اختیار محققین قرار دهند. در کنار این، بانک میتواند از همین تیمهایی که در این مسابقات شرکت کردند و ایده برتر دارند، استفاده کند. من چند شرکت را میشناسم که در حوزه تحلیل دادهها و بیگدیتا کار میکنند. میدانیم جای دیگری مانند دیجیکالا، اسنپ و تپسی که روزانه حجم زیادی از دیتا را تولید میکنند شروع به این نوع تحلیلها کردند. این بیزنسها خصوصی هستند و امیدوار به خروجی آنها هستیم. اما بانکها به ویژه بانکهایی که بزرگتر هستند و دیتاهای بیشتری دارند و نیازمند تحلیل بیشتر هم هستند، آن نگاه دولتی یا شبه دولتی را دارند.
*بانک ملت تقریبا شروع کرده است.
به نظرم هم راهی ندارد و باید به این سمت بروند. این حوزه نوظهوری است و جامعه ما هنوز به بلوغ نرسیده است. در این حوزه طبعا نو پا هستیم. بعضی از شرکتها هم دیتا به معنی عمومی را تحلیل نمیکنند به عنوان مثال فقط متن را تحلیل میکنند. چون یکی از نیازهای جدی صنعت تحلیل متن و فضای مجازی برای کاربردهای امنیتی و عمومی است. در این حوزه شرکتهای بیشتری داریم. ما خودمان هم در دانشگاه یک استارت آپ اینچنینی به اسم زاناپرداز داریم. ما توئیتر، اینستاگرام، تلگرام و سایتهای خبری را میگیریم و تجمعیش میکنیم و تحلیلهای مختلفی روی آنها انجام میدهیم. مثلا میگوییم چند درصد از کاربران موافق این محصول هستند یا چند نفر از این خبر استقبال کردهاند. منظور ما در اینجا چند هزار کانال و صفحه و سایت است. شرکتی که تخصصی روی دیتا کار میکنند شرکت کرانسو است. این شرکت با شرکتهایی که دیتا دارند مانند همراه اول کار کنند و یکی از ایدهها در حوزه بازگشت بدهیهای مشترکین دارند.
می توانم بگویم صنایع حول و هوش هوش مصنوعی در بیگدیتا شکل گرفته است اما هنوز ضعف داریم و یکی از دلایل این ضعف این هست که سفارشی به آنها نشده است. به نظر من بانکها و موسساتی که کار دیتایی دارند اگر بخواهد از دیتا درآمد داشته باشند باید حداقل یک سال کار کنند.
*شاید بهتر باشد یک خارجی این کار را انجام بدهد.
اینکه آنها از ما جلوتر هستند بدیهی است. به نظر من بین ما و برخی کشورهای پیشرو برای کاربردهای هوش مصنوعیدر صنعت گپی ده ساله داریم. از طرفی چون آنها در صنعت از ما جلوتر هستند تجربه شان هم بیشتر است در نتیجه اگر از یک خارجی استفاده کنیم زودتر نتیجه خواهیم گرفت. اما چون ریسکهایی از جمله دادن دیتا وجود دارد از داخل باید شروع کرد. یک چالش دیگر که به ویژه در حوزه بانک وجود دارد این است که دیتاهای بانکهای ما خیلی تر و تمیز برای کار یک فرد یا مجموعه پردازشکننده دیتا نیست. دیتاها به زبان عامیانه پر از نویز و هستند. دیتاهای بانکها نیمه ساختار یافته است. در بعضی از بخشها مانند تراکنشها کاملا ساختار یافته است. اما در مورد آدرس اصلا ساختار درست نیست و به زحمت میشود location دقیق فرد را دریافت. در مورد شغل هم همینطور است. بخش دیگری هم که برای کار بانکی چالش است این است که هر بانکی در این کار نیازمند به دیتاهای فراتر از بانک خود است، مثلا بانک مرکزی باید دیتاهایی را در اختیار آنها قرار دهد. شاید تاریخچه من در یک بانک خوب باشد اما در بانک دیگر نه. اینجا است که نیاز به دیتا بیرون از مجموعه لازم است. برای تحلیل درستتر بعضی از دیتاها اماکن دسترسی به دادههای بیرونی است که اگر وجود داشته باشد ما با تحلیلهای بهتری روبه رو هستیم.
در دنیای هوش مصنوعی هیچ چیز صد در صدی وجود ندارد. همانطور که در دنیای انسانها هم هیچ چیز بدون خطا و اشکالی وجود ندارد. در نتیجه وقتی با دیتا کار میکنیم باید بفهمیم که لازم نیست سیستم ما کامل باشد اگر با کیفیت هشتاد درصد هم کار کند خوب است. در کنار این وقتی کیفیت بهبود پیدا کرد میشود از آن بهبود یافته هم استفاده کرد. در مورد معضل تمیز یا پردازش کردن دیتاها هم همیشه این موضوع نسبی بوده است. ما با کیفیت موجود هم خروجی میگیریم و اگر داده را تمیزتر کنیم، کیفیت بهتری از آن میگیریم.
به عنوان جمعبندی اگر ما به دنبال یک تغییر در این حوزه هستیم خیلی خوب است که امکان دسترسی به این دیتاها به یک فرمی برای متخصصین این حوزه فراهم شود. تقاضای کاربردی برای رفع نیازمندهای بانک را داشته باشیم. شما شرکتی را با عنوان پردازشگر دیتا تاسیس میکنید. مشتری به شما اعتماد نداید و داده در اختیار قرار نمیدهد و بعد از دو سال آن را جمع میکنید. طبعا صنعت ما با این روش در این حوزه شکل نمیگیرد. معمولا موسسات با وجود همه مشغلهها و عدم اشراف و به روز شدنهای پیاپی خودشان وارد این حوزه میشوند و همین باعث میشود که این صنعت عقبتر باشد.
ما همایشی باعنوان data scienceپیش رو داریم که در IPM و در نهم آذر برگزار میشود. در این همایش عدهای از متخصصین دانشگاهی از اروپا میآیند.