مقالات و پایان نامه ها در رابطه ... |
1-3 اهداف تحقیق
هدف از این تحقیق ارائه راهکاری به منظور افزایش دقت متعادل سازی داده و غلبه بر مشکل عدم توازن کلاس است.سعی کرده ایم تا متعادل سازی داده که در مرحله پیش پردازش داده صورت میگیرد باعث بهبود نتایج طبقه بندی نمونه ها شود.بدین منظور اثربخشی و کارایی روش ارائه شده با سایر روش های موجود مورد مقایسه و ارزیابی قرار میگیرد.امید است که نتایج الگوریتم نهایی امیدوار کننده باشد و نشان دهنده پیشرفت الگوریتم باشد.این تحقیق بر اساس نیاز به دسته بندی دقیق داده ها و استفاده از تحلیل نتایج داده ها در بهبود شرایط مرجع مورد استفاده کننده داده ها شکل گرفته است.
1-4 پرسش های اصلی تحقیق
تحقیقات انجام شده در این پروژه سعی در پاسخگویی به سوالات زیر را دارد :
-
- معیارهای اندازه گیری کارایی روش های متعادل سازی چیست؟
-
- روش های کنونی متعادل سازی چیست؟
-
- چگونه می توان مشکل عدم توازن کلاس را حل کرد؟
-
- چگونه می توان مشکل نویز در طبقه بندی را حل کرد؟
1-5فرضیه های تحقیق
-
- کارایی روش ارائه شده در مقایسه با سایر روش ها بهتر است.
-
- استفاده از این روش باعث بهبود نتایج طبقه بندی داده ها در حضور داده های پرت و نویز میشود.
-
- استفاده از الگوریتم پیشنهادی باعث کاهش حساسیت به عدم توازن کلاس میشود.
1-6 نوآوری تحقیق
می توان نوآوری را به صورت استفاده از تکنیک حداقل مربعات با بهره گرفتن از مفاهیم فازی برای استفاده در ماشین بردار پشتیبان در جهت پیش پردازش داده های نامتوازن بیان کرد.
(( اینجا فقط تکه ای از متن درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. ))
1-7 تعریف واژگان کلیدی
-
- پیش پردازش داده
با توجه به حجم عظيم داده هاي موسسات جهت تحليل اطلاعات و كشف دانش نهفته در اين داده ها به مساله مهمی تبديل شده است . براي كشف دانش نهفته در اين داده ها به كارگيري تكنيك هاي داده كاوي امري بديهي است.وجود مسائلي نظير ناقص بودن داده ها، ناسازگاري آنها و وجود ناخالصي هايي همچون خطاها، مقادير تقريبي و مقادير خارج از محدوده نرمال در پايگاه داده هاي واقعي، باعث كاهش كيفيت داده كاوي ميشود. براي دستيابي به نتايج مطلوب تر، نياز به داده هاي با كيفيت بالاتر وجود دارد. پيش پردازش، گامي مهم در راستاي داده كاوي موفقيت آميز است. اعمالي كه در پيش پردازش انجام مي شوند عبارتند از حذف ناخالصيها و اصلاح داده هاي نادرست، يكپارچهسازي داده ها، تغيير داده ها و كاهش داده ها. بر اساس نوع كاربردي كه عمل داده كاوي بايد روي آن انجام شود، تكنيك هاي مختلفي براي هر يك از اين اعمال وجود دارد]4[.
-
- داده های نامتوازن
اصطلاح “مجموعه داده نامتوازن” عموما به مجموعه دادهای گفته میشود که در آن تعداد نمونههایی که نمایانگر یک کلاس هستند از نمونههای دیگر در کلاسهای متفاوت کمتر است.در واقع مشکل عدم توازن کلاس زمانی رخ میدهد که برای کلاس های با اهمیت، نمونه های کم و یا بسیار کمی در حوزه های کاربردی جهان واقعی در دسترس باشد. این حالت در کلاسه بندی زمانی مشکلساز میشوند که یک کلاس که عموما کلاس مطلق یا اقلیت(Minority Class) میباشد در مجموعه دادهها نشان داده نمیشود و به بیان دیگر تعداد مشاهدات اشتباه از مشاهدات درست در یک کلاس بیشتر میشود.مثلا در حوزه هایی مانند ارتباط از راه دور، تشخیص غنائم نفت در تصاویر راداری ماهواره ای، طبقه بندی متن، تشخیص پزشکی،تشخیص نفوذ و کشف تقلب. در این موارد الگوریتم استاندارد کلاسه بندی کننده تمایل بیشتری به کلاسهای اکثریت (MajorityClass)دارد، زیرا قوانینی که این نمونهها را به درستی پیشبینی میکنند به درستی وزندهی شده اند در حالی که قوانین خاصی که نمونههای کلاس اقلیت را پیشبینی میکنند عموما نادیده گرفته میشوند و در واقع به صورت نویز با آنها برخورد میشود و در نتیجه نمونههای کلاس اقلیت به اشتباه کلاسهبندی خواهند شد[15].
برای غلبه بر این مشکل، از طبقه بندی مجموعه داده های نامتوازن استفاده میشود. یکی از مشکلات کلیدی در هنگام یادگیری با مجموعه داده نامتوازن، فقدان داده است که در آن تعداد نمونه های کمی در دسترس است و یا هیچ نمونه ای برای یک کلاس خاص در دسترس نیست روش های مقابله با مشکل عدم توازن عبارتند از : تغییر اندازه مجموعه آموزشی( که شامل بیش نمونه گیری از نمونه های کلاس اقلیت و کوچک سازی نمونه های کلاس اکثریت)، تنظیم هزینه های طبقه بندی نادرست و تشخیص مبتنی بر یادگیری]14[.
-
- تکنیک های مواجهه با مجموعه داده های نامتوازن
به منظور رسیدگی به مسائل مربوط به مجموعه دادههای نامتوازن تکنیکهای متعددی معرفی شده اند که در سه دسته زیر طبقه بندی میشوند:
-
- رویکردهایی در سطح الگوریتم[1]
این رویکرد به الگوریتمهای یادگیری کلاسه بند کمک میکند تا فرایند یادگیری را به سمت کلاس اقلیت سوق دهد.
-
- رویکردهایی در سطح داده[2]
این رویکرد با باز نمونه گیری از فضای داده باعث تغییر توزیع دادهها میشود به طوری که تغییری در الگوریتم یادگیری ایجاد نمیشود و تلاش میکند در مرحله پیش پردازش تأثیرات ناشی از عدم توازن را برطرف کند.
-
- چارچوب یادگیری حساس به هزینه[3]
این رویکرد مابین رویکرد الگوریتمی و دادهای قرار دارد. به طوری که هم در سطح داده و هم در سطح الگوریتم تغییر ایجاد خواهد کرد. مهمترین نقطه ضعف این رویکرد تعریف هزینهی رده بندی نادرست میباشد که عموما در مجموعه داده وجود ندارند[15].
- ماشین بردار پشتیبان[4]
فرم در حال بارگذاری ...
[دوشنبه 1400-09-29] [ 03:58:00 ق.ظ ]
|