ایران ناز، اگر كامپیوترها قادر به تشخیص زبان گفتاری انسان ها باشند، شاید روزی بتوانیم برای وارد كردن دستورات از صدا و دستورات گفتاری به جای صفحه كلید استفاده كنیم.
اما اینكه كامپیوتر بتواند گفتار انسان را بخوبی تشخیص دهد، امری بسیار سخت به نظر میرسد، چراكه زبان محاوره ای تفاوت بسیار زیادی با زبان نوشتاری داشته و تنوع زبان گفتاری و اینكه هر زبانی هم دارای لهجههای متفاوتی است، خود معضل دیگری است.
به گزارش ایران ناز هماكنون با سرمایهگذاری موسسه VERDIKT تحت نظارت شورای تحقیقاتی نروژ، پروفسور اسوندسن از دانشگاه NTNU نروژ و همكارانش در حال تست رویكرد ابداعی ـ ابتكاری برای خلق نسل بعدی تكنولوژی تشخیص گفتار هستند. محققان نروژی نشان دادهاند كه اساس تولید گفتار در همه زبانها یكسان است. به این ترتیب این تكنولوژی بدون اتكا به دادههای گفتاری هر زبان قابل توسعه و به كار بردن برای تمرین ماشینهاست.
محققان تحقیقاتشان را براساس مطالعه فونتیك یا مطالعه اصوات گفتار انسان انجام میدهند. همچنین اطلاعات اضافی دیگری همچون دانش زبان و گویشهای مختلفی را در بانك اطلاعاتی سیستم گنجاندند. تاكنون به منظور تشخیص گفتار دو رویكرد متفاوت شایعتر از بقیه بوده است؛ هر دو براساس استفاده از دادههای گفتاری و متون منبع، جهت آموزش به كامپیوتر برای تشخیص زبانهای مختلف بنا شده است.
یك رویكرد انتقال قوانین استنتاجی در مورد كلمات و صداها به كامپیوتر است. محققان معتقدند كه با آنالیز بخش كوچكی از یك سخنرانی میتوان تعیین كرد، صدای خاصی كه با تشدید بین 750 تا 1200 هرتز تلفظ شده مربوط به حرف A است و اگر میزان تشدید بین 350 تا 800 مگاهرتز باشد این صدا مربوط به حرف U است.
رویكرد دوم این است كه آموزش به ماشین را فراموش كرده و با خوراندن نمونههای مختلف آوایی و گفتاری بتوان از طریق مقایسه و نمونهبرداری كامپیوتر را قادر به تشخیص گفتار كرد. در ابتدا ماشین تمام پیشامدهای صوتی محتمل را دریافت میكند، در این میان احتمال تفسیر رخدادهایی با فركانس بالاتر توسط ماشین و تفسیر آن به صوت نمونه بیشتر است.
گروه تحقیقاتی رویكردی را انتخاب كرد كه بین این دو رویكرد سنتی قرار میگیرد، آنها اطمینان زیادی به رویكرد آماری دارند، از طرفی نیاز به توجه به الگوهای قابل پیشبینی در گفتار در دنیای واقعی نیز وجود دارد. در سیستم جدید شاهد تركیبی از یادگیری دادهمحور و رویكرد مبتنی بر قواعد هستیم.
الگوهای گفتار با توجه به فیزیولوژی، گویش، فرهنگ و سلامت افراد متفاوت بوده و همه اینها بر اصوات و تولید جملات تاثیر میگذارد. برای اینكه یك ماشین چگونگی درك این گفتار را بیاموزد باید قادر به تشخیص شایعترین تغییرات و اختلافات بین گفتار و زبان باشد.