جلسه دفاع پایان نامه: ابوالفضل صاحبان ملکی، گروه مخابرات
عنوان پایان نامه: تشخیص اشیا با شبکه های عصبی با در نظر گرفتن عدم تعادل در آموزش شبکه
ارائه کننده: ابوالفضل صاحبان ملکی استاد راهنما: دکتر مریم ایمانی آرانی استاد مشاور اول: دکتر محمد حسن قاسمیان یزدیاستاد ناظر داخلی: دکتر احمد رضا شرافت استاد ناظر خارج از دانشگاه: دکتر احمد کلهرتاریخ: ۱۴۰۳/۰۶/۱۹ ساعت: ۱۰ مکان: دانشکده مهندسی برق و کامپیوتر – کلاس 601
چکیده: تشخیص اشیا یکی از مسائل بنیادی بینایی ماشین می باشد که همزمان به دنبال طبقه بندی و پیدا کردن محل اشیا موجود در یک تصویر می باشد. از جمله مهم ترین کاربرد های تشخیص اشیا می توان به حوزه های نظارتی، خودرو های بدون سرنشین و تحلیل تصاویر پزشکی اشاره کرد که اهمیت و حساسیت کاربرد های نام برده و نیاز به عملکرد مطلوب و دقیق در این حوزه ها، اهمیت پژوهش در زمینه تشخیص اشیا را بیان می کند. با وجود پیشرفت های اخیر در مدل های تشخیص اشیا، همچنان عملکرد مدل های حاضر مورد بحث می باشد و بسیاری از این مدل ها در طراحی معماری خود دچار ضعف هایی هستند که به دلیل حساسیت بالای کاربرد مدل های تشخیص اشیا نیاز به توجه و رفع این ضعف ها به یکی از حوزه های پژوهشی مورد توجه بینایی ماشین تبدیل شده است. مشخص نمودن مکان دقیق اشیا داخل تصویر و همچنین طبقه بندی کردن اشیا تصویر ورودی می تواند با چالش های بسیاری همراه باشد. برای مثال، می توان تصور کرد که اشیا موجود در یک تصویر در فاصله های مختلفی از یکدیگر و از محل تصویربرداری قرار گرفته اند و یا برخی از این اشیا می توانند با دیگر اشیا موجود در صحنه هم پوشانی داشته باشند. همچنین زمان تصویربرداری، شرایط روشنایی صحنه در هنگام تصویر برداری، حالت ها و زاویه های مختلف اشیا و… را می توان از دیگر چالش های مسئله تشخیص اشیا نام برد که همه این پیچیدگی ها می بایست در طراحی یک مدل تشخیص اشیا در نظر گرفته شود تا مدل بتواند اشیا را در حالت ها و شرایط مختلف به درستی تشخیص دهد. در جمع آوری مجموعه داده های آموزشی یکی از مشکلات رایج، وجود عدم تعادل در داده های جمع آوری شده است. از معروف ترین عدم تعادل ها می توان به عدم تعادل در تعداد نمونه های آموزشی جمع آوری شده برای کلاس های مختلف اشاره کرد که این عدم تعادل می تواند باعث بایاس شدن مدل تشخیص اشیا به سمت کلاس هایی که نمونه آموزشی بیشتری دارند شود که در نهایت باعث افت عملکرد مدل در تشخیص اشیا کلاس ها با نمونه آموزشی کمتر می شود. همچنین، برخی از عدم تعادل ها مثل عدم تعادل در مقیاس اشیا داخل تصاویر به شکل ذاتی در داده های جمع آوری شده وجود دارند که به همین دلیل جمع آوری مجموعه داده ای متعادل از هر نظر کاری ناممکن است. علاوه بر این، مدل طراحی شده نیز می تواند در معماری خود باعث به وجود آمدن برخی از عدم تعادل ها در پردازش ویژگی های استخراج شده شود. با در نظر گرفتن پیچیدگی های ذاتی مسئله تشخیص اشیا و همچنین وجود عدم تعادل در داده و در طراحی معماری مدل های تشخیص اشیا، اهمیت این مسئله ایجاب می کند تا در طراحی مدل تشخیص اشیا به این عدم تعادل ها توجه نمود تا بتوان عملکرد مدل های تشخیص اشیا را با متعادل کردن آنها بهبود بخشید. هدف پژوهش انجام شده این بوده است تا برای برخی از عدم تعادل های موجود در مدل های تشخیص اشیا راه حل های مناسبی ارائه شود تا عملکرد مدل تشخیص اشیا بهبود یابد. از جمله راه حل های پیشنهاد شده در این پژوهش می توان به ۱-طراحی یک هرم ویژگی جهت مقابله با عدم تعادل در مقیاس اشیا که با در نظر گرفتن احتمال شباهت ویژگی ها آنها را با هم ادغام می کند، ۲-طراحی یک بلوک طبقه بند غیرمارکوف که ویژگی های پیشین استخراج شده از تصویر را نیز جهت پیش بینی کلاش اشیا در نظر می گیرد و ۳-طراحی رگرسوری که خروجی آن به مقیاس نقشه های ویژگی حساس می باشد، اشاره کرد. راه حل ها و بلوک های پیشنهادی در این پژوهش با اضافه شدن به مدل های معروف RetinaNet، FCOS و ATSS توانسته اند باعث افزایش عملکرد تا ۲.۵٪ در معیار mAP برای ارزیابی این مدل ها شوند. برای مثال عملکرد مدل ATSS بدون بلوک های پیشنهادی این پژوهش برابر ۳۰٪ در معیار mAP می باشد که با اضافه شدن بلوک های پیشنهادی، این عدد برابر ۳۲.۳٪ می باشد که نشان دهنده پیشرفت ۷.۶٪ مدل بر روی مجموعه داده معیار MS COCO برای مدل ها تشخیص اشیا می باشد.