پردازش گویش طبیعی؛گذشته،حال، آینده/ با حضور اساتید دانشگاه شریف و مسئولان فناوری اطلاعات بانک پارسیان
«بانکداری الکترونیک» طی میزگردی با حضور کارشناسان برگزار کرد:(بخش اول)
منصوری: این کار نیازمند فعالیت سنگین تحقیقاتی است که هزینه زیادی را نیز در بر میگیرد/صامتی:سابقه پردازش گویشهای طبیعی در دنیا به حدود 6 دهه پیش یعنی دهه 1950برمیگردد./ ویسی:علت اینکه ما تاکنون نتوانستهایم speech را راهاندازی کنیم بیشتر مشکلات پردازشی و فهم گفتار بوده است/ صامتی: برای اجرای طرح ما 15 سال است از چند زبانشناس کمک گرفتیم و زبانشناسی را کامپیوتری کردیم و در همین راستا دو سال پیش در دانشگاه شریف رشته گویش رایانه ای را برای اولینبار راهاندازی کردیم.
![پردازش گویش طبیعی؛گذشته،حال، آینده/ با حضور اساتید دانشگاه شریف و مسئولان فناوری اطلاعات بانک پارسیان](https://cdn.ebinews.com/imagesinv/ebinews-17435.jpg)
به گزارش پایگاه خبری بانکداری الکترونیک پردازش گویش طبیعی زبان فارسی ابتدا در دانشگاه شریف در 25 سال پیش کلید خورد اما به دلیل اینکه در کشور ما نگاه های بلند مدت چندان عملیاتی نشده به همین دلیل نتوانسته ایم پیشرفت های قابل توجهی را در این خصوص شاهد باشیم تا اینکه بانک پارسیان در قالب نیوشا توانست گام نخست را در حوزه بانکی بردارد. اینکه رایانه های ما بتوانند به صورت هوشمند صدای کاربر را بشنوند و دستورات وی را ترجمه و اجرا کنند از جمله خدماتی است که در دنیا توانسته جایگاه خوبی را کسب و گردش مالی چندین میلیاردی به وجود آورد. نکته اساسی اما آن است که به دلیل اینکه زبان فارسی متعلق به کشور ماست در نتیجه امکان واردات تکنولوژی پردازش گویش طبیعی فارسی به کشور وجود ندارد و راهی نیست جز اینکه کارشناسان داخلی به تکمیل این پروژه همت گمارند. پایگاه خبری بانکداری الکترونیک با برگزاری میزگردی در خصوص بحث پردازش گویش طبیعی به ابعاد مختلف این بحث پرداخته است.در این میزگردکه با حضور دکتر حسین صامتی پزوهشگر اصلی این حوزه و استاد دانشگاه شریف، دکتر هادی ویسی مدیرعامل شرکت عصر گویش پرداز تحت حمایت دانشگاه شریف، عبدالحمید منصوری معاون فناوری اطلاعات بانک پارسیان، فاطمه حجاران، مدیر بانکداری مدرن بانک پارسیان، زمانی و میرجلالی از کارشناسان حوزه آی تی بانک پارسیان برگزار شد ، تاریخچه صنعت پردازش گویش طبیعی، ابعاد فنی و امنیت اطلاعات و وضعیت حال و آینده این صنعت در ایران مورد بررسی قرار گرفت .بخش اول میزگزد از پی می آید.
*****************************************
*نقطه آغاز
منصوری در خصوص نحوه طرح بحث پردازش گویش طبیعی در بانک پارسیان گفت:سال 1998 من در بیست اولین announcement پردازش گویش طبیعی را توسط IBM دیدم من در جلسات مربوطه شرکت کردم که طی گفتگویی که با پروفسوری که مدرس جلسات بود داشتم وی گفت:" شما اگر 28 لهجه داشته باشید باید اجازه 6 ماه گویش روی لهجهها را به ما بدهید تا بتوانید عضویت زبان فارسی را در گویش طبیعی ثبت کنید "که البته در آن زمان زبانهای با پایه لاتین بیشتر عضو بودند، اعراب نیز تازه عضویت در آن تیم را داشتندو این تیم توسط IBM طراحی شده بود.
وی افزود: به هر حال از آن زمان پردازش گویش طبیعی زبان فارسی در ذهن من بود تا اینکه یک روز یکی از همکاران در نمایشگاهی با این تکنولوژی آشنا و قرار شد روی ان مطالعات بیشتری داشته باشیم زیرا این مساله برای من خیلی مهم بود وحتی در آن زمان به گروهی از همکارانم در حوزه سیاستگذاری گفتم اگر بخواهیم زبان فارسی را حفظ کنیم باید به سمت پردازش گویش طبیعی حرکت کنیم.
وی با بیان اینکه این کار نیازمند یک فعالیت سنگین تحقیقاتی است که هزینه زیادی را نیز در بر میگیرد گفت: درنهایت نرمافزار «نویسا» که توسط دکتر ویسی و دکتر صامتی در دانشگاه شریف طراحی شد بود را در نمایشگاه دیدم و منجر شد به اینکه این بحث گویش طبیعی را در یک محیط کاربردی پیادهسازی کنیم و تصمیم گرفته شد که با همکاری بانک پارسیان و دانشگاه شریف در سیستم بانکی این پروژه را انجام دهیم.
منصوری افزود: در فاز اول که حدود یک سال طول کشید بدون قرارداد با هم فعالیت کردیم و تیم همکاری با فعالیت خانم حجاران، زمانی و… را تشکیل دادیم و کار پیش رفت تا جایی که اکنون می توان گفت پروژه به یک نقطه قابل قبول رسیده است.
وی با بیان اینکه این پروژه زمانی تبدیل به قرار داد شد که هیات عامل شماره حسابها را عنوان کردند و عملیات انجام شد افزود:طی هفتههای اخیر این خدمت را در اختیار مشتریان محدود قرار دادیم که البته در فازهای بعدی براساس برنامهریزی در اختیار همه قرار خواهد گرفت.
وی گفت: در پردازشهای طبیعی یادگیری اهمیت فراوانی دارد و دوستان ما نیز Learning را روی سیستم قرار دادهاند و در اینجا از همه همکارانم در پروژه تشکر میکنم که این امکان را در اختیار جامعه ایرانی قرار دادند.
* تاریخچه پردازش گویشهای طبیعی در جهان
دکتر صامتی رئیس پروژه پردازش گویش طبیعی و نویسا و استاد دانشگاه شریف دیگر فرد شرکت کننده در میزگرد بود که درباره تاریخچه پردازش گویشهای طبیعی در جهان و اینکه از کجا شروع شده است را مورد بررسی قرار داد.
دکتر صامتی گفت:سابقه پردازش گویشهای طبیعی در دنیا به حدود 6 دهه پیش یعنی دهه 1950برمیگردد. البته به لحاظ تئوری پردازش گویشهای طبیعی به حدود 80 سال پیش برمیگردد ولی از آنجا که در آن زمان کامپیوتر نبود قابلیت پیادهسازی و تبدیل آن به سیستم عملی وجود نداشت. البته در فیلمهای قدیمی نیز به عنوان science fiction مطرح بوده است و همیشه این خواسته وجود داشت که بشر بتواند با روباتها سخن بگوید بنابراین این ایده و تئوری وجود داشت و منتظر بودند تا کامپیوترها آنقدر قوی شوند تا بتوانند این پردازش واقعا سنگین را انجام دهند.
وی افزود: دهه 1980 تا 90 دهه جهش این ابزار بود زیراکامپیوترها قویتر شد و PCها نیز پا به عرصه وجود گذاشت ، سیستمهای قابلیت ذخیره بالاتر پیدا شد و اولین سیستمهای آزمایشگاهی نیزحدود سال 80 تا 1985 آمد که عموما این سیستم ها در آمریکا پیشرفت کرد در این دهه همهچیز اغلب آزمایشگاهی بود و در زندگی روزمره چندان پیدا نمیشد.
وی تصریح کرد: بیشتر تحقیقات روی گویش طبیعی را نظامیها حمایت و پشتیبانی میکردند برای اینکه میخواستند در برخورد نظامیها ارتباط زبانی با افراد خارجی داشته باشند که هم ترجمه کند و هم صوتی صحبت کند بنابراین حدود 70 سال نظامیهای آمریکا روی این مساله سرمایهگذاری کردند، آزمایشگاهی نیز وجود داشت که به عنوان بهترین آزمایشگاه دنیا محسوب میشد و دهها میلیون دلار از نظامیها پول گرفته شد تا یک سیستم نمونه و عالی ارایه دهد.
صامتی افزود:در سال 1994 از یک سیستمی بازدید کردیم به نام «SLS» که سرپرست آن یکی از بزرگان تحقیقات در این زمینه محسوب میشد. سیستمی شبیه سیستم نیوشابود البته با قابلیتهای کمتر که روی چند سوپر کامپیوتر ارایه می شد ،در آن زمان به ما توصیه میکردند که آرام با این سیستم حرف بزنید چون ممکن است نتواند دستورات را اجرا کند و… ولی به هر حال اولین نمونه کاربردی محسوب میشد اما به مرور با رشد تکنولوژی و ارتقا کامپیوترها و کشش بازار بسیار سریع رشد کردند و وارد استفاده روزمره شدند.
*سال ورود به زندگی روزمره
صامتی افرود: از 1995 به بعد بحث پردازش گویش طبیعی وارد زندگی روزمره مردم شد امروزه در دنیا نسبتا کاربرد رایجی دارد اما به معنای پایان کار نیست بلکه دارند مدام ارتقا مییابند و نمونههای آینده این سیستمها بسیار قابلیتهای بیشتری خواهند داشت ،از سوی دیگر بیزنسهای بزرگی در این خصوص در دنیا شکل گرفته شرکتهایی هستند که فروش آنها در این زمینه در سال به حدود هشت میلیارد دلار میرسد.
*موسسات پیشرو در پردازش گویش طبیعی
دکتر ویسی ، مدیر عامل شرکت عصر گویش پردازش ، در ابتدای صحبت خودگفت:علاوه بر کارهای نظامی میتوان پایهگذاران پردازش گویش طبیعی را عمدتا دانشگاهها دانست. البته حمایتهایی مشخصا از سوی دارپا از تعدادی آزمایشگاه صورت گرفته که معروفترین آنها MIT، استنفورد و البته در اروپا نیز کمبریج بیشتر از سایرین روی این قضیه کار کرده است.
وی افزود:گوگل و مایکروسافت نیز روی این تکنولوژی بسیار کار کردهاند البته دیرتر از بقیه شروع کردند به طوری که مایکروسافت سیستم تایپ را از سال 2003 در آفیس (office) قرار داده است گوگل نیز روی این تکنولوژی کار کرده و الان در سایت یوتیوب voice serch را قرار داده است به طوریکه کاربر میتواند صحبت کند و این صحبت روی محتواهای صوتی search تبدیل به متن و این متن search میشود.
وی خاطر نشان ساخت :اگر مقداری عقبتر برگردیم شرکتهایی که مشخصا روی تکنولوژیهای تلفنی کار کردهاند یک شرکتی به اسم scansoft بود که از همان آزمایشگاههای دانشگاه استنفورد مشتق شد شرکت نوآنس نیز که یکی از رقبای آن بود سال 2004 scansoft را خریداری کرد و با هم ادغام شدند و در حال حاضر آنها به اسم نوآنس شناخته می شوند و شاید بزرگترین شرکت در دنیا در این زمینه محسوب میشود .
ویسی در خصوص کاربردهای اولیه speech گفت: عمدتا بحث تایپ به عنوان اولین کاربرد در اواسط دوره 80 محسوب میشود ولی در حال حاضر عمده بیزنس اصلی خیلی از شرکتها روی سیستمهای تلفنی و ارتباط مستقیم با کاربرهاست البته بسیاری از این شرکتها در آسیا و به ویژه در دوبی شعبه دارند و روی زبان انگلیسی و عربی زبان خود را آماده کردهاند و شرکتهایی که کاربر این تکنولوژی هستند و سرمایهگذاریهای میلیاردی روی این زمینه کردهاند بانکهای EBM امرو که در 60 کشور جهان شعبه دارد و از این سیستم استفاده میکند کلمبیا بانک و استاندارد لایف و… از اوایل 2000 این سیستمها را پیادهسازی کردند و روزبهروز تکمیلتر شده است به طور مثال استاندارد لایف (در آفریقای جنوبی) حدود 50 درصد تماسهای تلفنی را روی سیستم speech هندل میکند و90 درصد مشتریانش از security speechy استفاده میکنند در سایر کاربردها خطوط هوایی هستند که میتوان گفت تمامی خطوط هوایی معروف سیستم speech را دارند همچنین شرکتهای مسافربری و قطارها نیز استفاده میکنند.
وی افزود: دو مثال خیلی بزرگ سیستم tellme متعلق به شرکت مایکروسافت است که یک شبکه اطلاعرسانی کامل برای تمام آمریکا است و شامل رستورانها، هتلها، سینماها و تمام آدرسها است و ایدههای جالبی در این سیستم وجود دارد همچنین یک سیستم دیگری مشابه آن گوگل راهاندازی کرده به اسم goog4011 که کار مشابه tellme را انجام میدهد .
ویسی تصریح کرد: علت اینکه ما تاکنون نتوانستهایم speech را راهاندازی کنیم بیشتر مشکلات پردازشی و فهم گفتار بوده است و پیشبینی میشود که به مرور speech جایگزین دکمه و کلید شود با تکنولوژی که در حال حاضر وجود دارد میتوان پیشبینی کرد طی 10 سال آینده این اتفاق بیفتد.
*علت تاخیر راهاندازی در ایران
مدیر عامل شرکت عصر گویش پرداز درباره اینکه علت تاخیر راهاندازی این سیستم در ایران چه بوده است گفت: این دانش نسبتا جدید است و افراد توانمند در این زمینه تا قبل از جناب آقای دکتر صامتی در کشور وجود نداشت و در واقع نسل آقای دکتر این دانش را وارد ایران کرد. بنابراین یک وجه مساله توانمندی و تخصص و وجه مهمتر سرمایهگذاری روی این مساله است.
وی با بیان اینکه اهمیت سرمایهگذاری خیلی بیشتر از سایر موارد است خاطرنشان کرد: خیلی از شرکتها از دل «دارپا» رشد کردند به طوری که «دارپا» یک پروژه تعریف میکند و در اختیار چند تیم قرار میدهد و آنها همزمان یک کار را انجام میدهند اگر یکی از آنها موفق شوند همین کافی است و ادامه پروژه را تعریف میکند و پروژههایی که تعریف شده از سال 1970تاکنون هیچکدام زیر میلیارد دلار نبوده است.
وی افزود: اما در ایران این سرمایهگذاری وجود ندارد به ویژه اینکه ذات کار پژوهشی است و هزینه زیادی دربرمیگیرد.
*ضرورت سرمایهگذاری درازمدت و نبود بانک کلمات
دکتر صامتی نیز با بیان اینکه با نظر دکتر ویسی موافق است گفت: برای پیشبرد چنین پروژه هایی نیاز به سرمایهگذاری درازمدت است به عنوان مثال شرکتهای معتبر در این حوزه طی حدود 30 سال هزینه کرده و حتی هر سال سرمایهگذاری خود را افزایش هم داده اند و این دید بلندمدت است که اهمیت اساسی دارد زیرا میدانستند این تکنولوژی آیندهگرا است و باید سرمایهگذاری بلندمدت صورت گیرد.
این استاد دانشگاه شریف افزود: مساله دیگری که برای ما وجود داشت مساله زبان فارسی بود. یک بخش کار ما signal processing و هوش مصنوعی است و یک بخش کار ما natural language processing است که به زبان برمیگردد ما باید آمار تعداد کلمات زبان و احتمال وقوع هر کلمه بعد کلمه دیگر را داشته باشیم احتمال وقوع هر کلمه بعد از دو کلمه دیگر یا سه کلمه دیگر را نیز باید داشته باشیم که اینها سرمایهگذاری زیادی برای جمعآوری دادگان و سپس استخراج این اطلاعات نیاز دارد که سابقه این در زبان انگلیسی به 400 سال پیش برمیگردد در حالی که ما در بخش زبانشناسی جز یک یا دو کتاب زبانشناسی که مقداری به ما کمک کند منابع بیشتری نداریم بنابراین ما 15 سال است که داریم روی زبان فارسی کار میکنیم کاری که در اصل بایدزبانشناسان انجام میدادند بر این اساس از چند زبانشناس کمک گرفتم و زبانشناسی را کامپیوتری کردیم و در همین راستا دو سال پیش در دانشگاه شریف رشته computertional Linguastics را برای اولینبار راهاندازی کردیم و چون هیچ سوابقی در این باره وجود نداشت باید خودمان این کار را انجام میدادیم ضمن اینکه پول این کار را هم خودمان باید تهیه میکردیم.
*ابعاد فنی راهاندازی speach در ایران و چالشهای پیش رو
دکتر صامتی در خصوص راهاندازی speach در ایران گفت: از آنجا که من از حدود 25 سال پیش علاقمند به کار کردن در این زمینه بودم در آن زمان کار را به صورت آکادمیک و کارهای تحقیقاتی را در دانشگاهها آغاز کردم. یعنی شبیه به کاری که 30 سال پیش در خارج از کشور صورت گرفته بود.
وی با اشاره به فاصله کار آزمایشگاهی و تبدیل به خدمت شدن یک پروژه برای مصرف کننده گفت: تفاوتی که تیم ما با سایر تیمهایی که در ایران در این حوزه کار میکنند وجود دارد این است که از حدود دو سال پیش ما تصمیم گرفتیم تحقیقاتمان را در حوزه گویش طبیعی کاربردی کنیم در نتیجه مسایل را بررسی کردیم البته کاملا مشخص بود که کار کاربردی با کار آزمایشگاهی فاصله زیادی دارد در آزمایشگاه تنها 5 درصد کار تهیه می شود و تا رسیدن به نقطهای که مصرفکننده بتواند از محصول استفاده کند 95 درصد فاصله است.
صامتی عنوان کرد: با یک تیم 6 نفره شروع به کار کردیم و این تیم به مرور به حدود 40 نفر توسعه یافت مادر یک شرکت تحقیقاتی فعالیت میکنیم که البته واحد تحقیقاتی دانشگاه هم این تیم را پشتیبانی علمی میکند و پس از 5 سال کار اولین محصول را ارایه دادیم که محصول «نویسا» است که در واقع دیکته متون و نامها را انجام میدهد .
وی خاطر نشان کرد: در عین حال روی سیستمهای پیشرفتهتر هم تحقیقات خود را آغاز کردیم با این تفاوت که این بار یک دمو تهیه میکردیم و یک بخش بازاریابی و فروش نیز در شرکت داشتیم که در جاهای مختلف سمینار میگذاشتند و بدینترتیب افراد زیادی میتوانستند با محصولات ما آشنا شوند و کسانی که کاربر بودند و به عبارت بهتر دید وسیعتری داشتند و میدانستند که به هر حال به این کار باید درازمدت نگریست توانستند نیازهای خو را با این محصول مرتفع کنند.
وی درپاسخ به اینکه غیر از بانک پارسیان این سیستم را به چه افراد دیگری ارایه کردید،گفت: سیستم «نویسا» در حال حاضر پس از 5 سال که در بازار است کاملا شناخته شده است و حدود بیش از 200 سازمان و فرد و مجموعه این سیستم را خریداری کردند و استفاده میکنند حدود 2000 نسخه آن فروش رفته است اما در خصوص سیستم تلفن گویایی که با صوت کار کند در واقع اولین جایی که ما جدی وارد آن شدهایم بانک پارسیان است قبلا نمونههای محدودی داشتیم یک نمونه هم در سازمان منطقه آزاد کیش نصب است که برای راهنمایی توریستها است ولی از نظر ما بحث بانک پارسیان بسیار جدیتر از سایرین است و ما کار بیشتری روی آن انجام داده وزمینه های توسعه آن را بیشتر فراهم کرده ایم.
*نقش تعامل با نهادهای حاکمیتی
دکتر صامتی در پاسخ به این سوال که در این کار چه میزان تعامل با نهادهای حاکمیتی نیاز است و یا اینکه برای شما کافی است که با بخش خصوصی و دولتی کار کنید گفت: بخش حاکمیتی در جاهایی که سیاستهای کلی در خصوص استفاده از اینها و میزان امنیت آنها مطرح است تصمیم میگیرد ولی از نظر ما اگر یک سازمانی بتواند نیازش را قطعی کند ما میتوانیم این ابزار را از نظر فنی در اختیارش قرار دهیم البته در این راستا بحثهای امنیتی وجود دارد و یک مقدار هم سرمایهگذاریهای اولیه نیاز است که اگر توسط حاکمیت صورت گیرد این ابزار بسیار سریعتر فراگیر میشود.
ادامه دارد……
انشالا با سرمایه گذاری های دولتی و شرکت های معتبر خصوصی در بخش های تحقیقاتی و پژوهشی اینگونه تکنولوژی های جدید در ایران به دست پژوهشگران داخلی پیاده سازی شود.