جدول ۱- ۲ گروه­بندی ویزم­ها در زبان فارسی

 

۱٫ ف، و
۵٫ ر
۹٫ آ

 

۲٫ ث، س، ص، ز، ذ، ظ، ض
۶٫ج، چ، گ، ک، ن، ت، د، ی، ط
۱۰٫ ٳ

 

۳٫ ژ، ش
۷٫ ای
۱۱٫ ٱ

 

۴٫ ب، پ، م
۸٫ ٲ
۱۲٫ او

 

به طور کلی سه روش برای شناسایی صحبت وجود دارد شامل شناسایی صوتی صحبت[۳]، شناسایی تصویری صحبت[۴]، شناسایی صوتی و تصویری صحبت[۵]، که در این­ تحقیق به شناسایی تصویری صحبت پرداخته می­­شود.

( اینجا فقط تکه ای از متن فایل پایان نامه درج شده است. برای خرید متن کامل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. )

( اینجا فقط تکه ای از متن فایل پایان نامه درج شده است. برای خرید متن کامل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. )

۱-۲ ساختار پایان نامه
در فصل­های مختلف این پایان نامه روش­های شناسایی دیداری صحبت بررسی شده است. در فصل اول مقدمه­ای در مورد شناسایی گفتار بیان شد. در فصل دوم به بررسی تحقیقات انجام شده در زمینه شناسایی دیداری صحبت و روش­های مختلف برای انجام این کار پرداخته شده است. در فصل سوم روش­های مختلف جداسازی دهان از بقیه قسمت­های صورت معرفی شده است تا با بهره گرفتن از این روش­ها بتوانیم علاوه برکوچک نمودن اندازه تصاویر، از پیچیدگی­ و نیز ابعاد زیاد ویژگی­ها جلوگیری نماییم. در فصل چهارم نحوه محاسبه و استخراج ویژگی­های فرکانسی - زمانی از ناحیه مورد نظر از دهان از فریم­های مختلف ویدیو و نیز عملکرد آن­ها با تغییر تعداد فریم­های انتخابی و سایز تصاویر با یکی از روش­های کاهش ویژگی نیز بررسی شده است. که این ویژگی­های استخراجی برای تشخیص به شبکه عصبی اعمال شده ­اند و همچنین پایگاه داده­ای که ما در این تحقیق از آن استفاده نمودیم معرفی شده است.
فصل دوم : مروری بر تحقیقات انجام شده
۲- ۱ مقدمه
شناسایی تصویری صحبت یا به عبارتی دیگر، لب خوانی شامل دو قسمت می­باشد ابتدا استخراج ویژگی از تصاویر لب و سپس طبقه ­بندی (کلاسه­بندی) ویژگی­ها می­باشد. برای استخراج ویژگی­های تصویری دو روش مبتنی بر تصویر و مبتنی بر مدل را می­توان استفاده نمود. در روش مبتنی بر تصویر ویژگی­ها به طور مستقیم با اعمال تبدیل­های ریاضی مانند تبدیل فوریه[۶]، تبدیل موجک[۷]، تبدیل کسینوسی گسسته[۸]، آنالیز مؤلفه‌های خاص[۹]، آنالیز مجزا ساز خطی[۱۰] بر روی تصاویر استخراج می­شوند. مشکل این روش­ها، ابعاد بزرگ و تکراری بودن داده ­ها و حساس بودن به چرخش و جا به ­جایی لب است. در روش مبتنی بر مدل، مدلی از لب ساخته شده و به وسیله مجموعه کوچکی از پارامترها توصیف می­ شود همچون مدل­های شکل فعال[۱۱]، مدل­های مرز فعال[۱۲]، الگوهای انعطاف پذیر[۱۳]، که مزیت این روش، بیان ویژگی­ها در ابعاد کوچک و تأثیر ناپذیری مدل از روشنایی تصویر، چرخش، اندازه و جا به ­جایی لب است.
۲-۲ مدل­های مرز فعال
یکی از روش های مبتنی بر مدل که روش بالا به پایین نیز نامیده می شوند مدل کانتور فعال می باشد. پتاجان[۱۴] احتمالاً اولین محقق برای توسعه سیستم لب خوانی بوده است [۳]. مدل مرز فعال توسط منحنی باز یا بسته با تعدادی نقاط کنترل نزدیک تصویر شی­ای که می­خواهیم شکل آن را استخراج کنیم مدل می­ شود. برای فرم­پذیری آن چند فاکتور انرژی در نظر گرفته می­ شود و با کمینه کردن این انرژی­ها منحنی فرم لازم را به خود می­گیرد. این مدل توسط گس و همکارانش معرفی شد[۴] که به دلیل شباهت حرکت کانتور[۱۵] به خزش مار[۱۶]، آن­ها این مدل را مار نامیدند. مار می ­تواند توسط تعدادی نقطه، انرژی کشسان داخلی[۱۷]و یا انرژی بر اساس لبه خارجی بیان شود.
۲-۲-۱ تابع انرژی
یک مار می ­تواند توسط n نقطه به صورت Vi= (xi , yi) , i=0, 1, 2, …., n-1 نمایش داده شود.
تابع انرژی مار به صورت زیر بیان می­ شود.
E*snake= (V(s)) ds= (V(s)) + E image (V(s)) + E con(V(s)))ds
رابطه (۲- ۱)
رابطه (۲- ۲)E external = E image + E con
رابطه (۲- ۳)E internal = E cont + E curv
که انرژی خارجی از مجموع انرژی تصویر و انرژی محدودیت خارجی[۱۸] که توسط کاربر اعمال می­ شود تشکیل شده است. انرژی داخلی مجموع انرژی کانتور مار و انرژی خمش مار[۱۹] می­باشد.
E internal = (α(s)|Vs(s)|+ β(s)|V ss(s)|2 ) /۲
رابطه ( ۲- ۴) = (α(s) || d(s) ||۲ +β(s) ||d(s)||2)/2
مقادیر بزرگ(s) α و(s) β انرژی داخلی مار را هنگامی­که خیلی زیاد گسترش می­یابد افزایش خواهد داد و مقادیر کوچک آن­ها محدودیت­های کمتری روی اندازه و شکل مار قرار می­ دهند.

موضوعات: بدون موضوع  لینک ثابت


فرم در حال بارگذاری ...