:دانلود فایل متن کامل پایان نامه در سایت sabzfile.com

عنوان : پیش پردازش داده های نا متوازن با بهره گیری از ماشین بردار پشتیبان

وزارت علوم، تحقیقات و فناوری

دانشگاه علوم و فنون مازندران

پایان نامه مقطع کارشناسی ارشد

رشته فناوری اطلاعات/مدیریت سیستم های اطلاعاتی

عنوان :

پیش پردازش داده های نا متوازن با بهره گیری از ماشین بردار پشتیبان

استاد راهنما : جناب دکتر جواد وحیدی

استاد مشاور : جناب دکتر بابک شیرازی

زمستان 1392

برای رعایت حریم خصوصی نام نگارنده پایان نامه درج نمی گردد

(در فایل دانلودی نام نویسنده موجود می باشد)

تکه هایی از متن پایان نامه به عنوان نمونه :

(ممکن می باشد هنگام انتقال از فایل اصلی به داخل سایت بعضی متون به هم بریزد یا بعضی نمادها و اشکال درج نشود اما در فایل دانلودی همه چیز مرتب و کامل می باشد)

چکیده

برای دست یابی به نتایج مطلوب در داده کاوی نیاز به پیش پردازش داده ها داریم.پیش پردازش داده ها یکی از اجزای مهم در فرایند کشف دانش می باشد.روش های بسیاری برای پیش پردازش داده هست که می­توان از آنها بهره گیری نمود.اما این روش ها برای داده های نامتوازن مناسب نیستند. اصطلاح “مجموعه داده نامتوازن” عموما به مجموعه داده‌ای گفته می گردد که در آن تعداد نمونه‌هایی که نمایانگر یک کلاس هستند از نمونه‌های دیگر در کلاس‌های متفاوت کمتر می باشد مشکل عدم توازن کلاس در بسیاری از برنامه های کاربردی جهان واقعی به رسمیت شناخته شده می باشد و موضوع تحقیقات یادگیری مبتنی بر ماشین قرار گرفته می باشد از این رو اخیراً مشکل نامتوازن بودن کلاسها مورد توجه محققان در زمینهی دادهکاوی قرار گرفته می باشد.آنها به دنبال کشف روش هایی بودند که با اعمال بر روی داده های نامتوازن به نتایج مطلوبی دست یابند.

در این پروژه روش های گوناگون پیش پردازش داده های نامتوازن مورد بحث قرار گرفته و الگوریتم جدیدی برای بهبود نتایج طبقه بندی ارائه می­گردد، به گونه ای که کارایی و دقت آن مورد توجه باشد.

 

 

 

 

کلمات کلیدی : پیش پردازش داده، مجموعه داده نامتوازن، ماشین بردار پشتیبان

فهرست مطالب

فصل اول مقدمه و کلیات پژوهش

1-1مقدمه………………………………………………………………………………………………………… 2

1-2بیان مساله…………………………………………………………………………………………………… 2

1-3 اهداف پژوهش…………………………………………………………………………………………….. 4

1-4 پرسش های اصلی پژوهش……………………………………………………………………………… 4

1-5فرضیه های پژوهش……………………………………………………………………………………….. 4

1-6 نوآوری پژوهش……………………………………………………………………………………………. 5

1-7 تعریف واژگان کلیدی………………………………………………………………………………….. 5

1-8 ساختار پایان نامه………………………………………………………………………………………… 9

فصل دوم ادبیات و پیشینه پژوهش

2-1 مقدمه…………………………………………………………………………………………………….. 11

2-2 مفاهیم داده کاوی……………………………………………………………………………………… 11

2-2-1 تعاریف داده کاوی………………………………………………………………………………. 11

2-2-2 فرایند کشف دانش……………………………………………………………………………… 12

2-2-3 حوزه ها و عملکردهای داده کاوی…………………………………………………………… 12

2-3  کاربردهای داده کاوی و کشف دانش……………………………………………………………. 14

2-4 چالش هایی برای KDD………………………………………………………………………………. 15

2-5 پیش پردازش و آماده سازی داده ها :…………………………………………………………….. 16

2-5-1اجزای اصلی پیش پردازش داده ها…………………………………………………………… 17

2-5-1-1 پاکسازی داده ها………………………………………………………………………… 18

2-5-1-2یکپارچه سازی داده ها………………………………………………………………….. 20 جستجو در سایت :   

2-5-1-3 تبدیل داده ها…………………………………………………………………………….. 20

2-5-1-3-1هموار سازی……………………………………………………………………….. 20

2-5-1-3-2 تجمیع……………………………………………………………………………… 21

2-5-1-3-3 تعمیم……………………………………………………………………………….. 21

2-5-1-3-4 ساخت ویژگی……………………………………………………………………. 21

2-5-1-3-5 نرمال سازی……………………………………………………………………….. 21

2-5-1-4 کاهش داده ها……………………………………………………………………………. 21

2-5-1-4-1 تجمیع مکعبی داده………………………………………………………………. 23

2-5-1-4-2 انتخاب زیر مجموعه مشخصه ها…………………………………………….. 23

2-5-1-4-3 کاهش تعدد نقاط………………………………………………………………… 24

2-5-1-5 تصویر کردن برای کاهش بعد………………………………………………………… 24

2-6 روش های ارزیابی دسته بندی……………………………………………………………………… 25

2-6-1 ارزیابی صحت روشهای دسته بندی…………………………………………………………. 27

2-7  تکنیک حداقل مربعات………………………………………………………………………………. 30

2-7-1 تقریب کمترین مربعات گسسته چند جمله ای…………………………………………… 31

2-8 ماشین بردار پشتیبان…………………………………………………………………………………… 33

2-8-1مقدمه………………………………………………………………………………………………. 33

2-8-2دلایل بهره گیری از SVM………………………………………………………………………….. 34

2-8-3 کاربردهای SVM…………………………………………………………………………………. 35

2-8-4 مزایا و معایب SVM…………………………………………………………………………….. 36

2-8-5 تعاریف کلی………………………………………………………………………………………. 36

2-8-5-1تابع تصمیم مسائل دو کلاسی…………………………………………………………. 36

2-8-5-2 تعیین تابع تصمیم(ابر صفحه جداکننده)……………………………………………. 38

2-8-5-3 بعد VC……………………………………………………………………………………. 39

2-8-5-4حداقل سازی ریسک تجربی………………………………………………………….. 40

2-8-5-5حداقل سازی ریسک ساختاری……………………………………………………….. 42

2-8-6 ماشین بردار پشتیبان طبقه بندی کننده خطی با داده های جدا شدنی به گونه خطی 44

2-8-7ماشین بردار پشتیبان طبقه بندی کننده خطی با داده های جدا نشدنی به گونه خطی (   49

2-8-8 ماشین بردار پشتیبان غیر خطی…………………………………………………………….. 52

2-8-9 انواع کرنل ها…………………………………………………………………………………….. 55

2-8-9-1 کرنل چند جمله ای…………………………………………………………………….. 55

2-8-9-2 کرنل های شبکه عصبی………………………………………………………………… 55

2-8-9-3  کرنل های گوسی………………………………………………………………………. 56

2-9 تکنیک های پیش پردازش نامتوازن………………………………………………………………… 58

2-9-1 ماشین بردار پشتیبان و مشکل عدم توازن کلاس……………………………………….. 58

2-9-1-1  عیب مشکل بهینه سازی با ناحیه مرزی نرم………………………………………. 59

2-9-1-2 نسبت بردار پشتیبان نامتوازن…………………………………………………………. 60

2-9-2  روشهای یادگیری عدم توازن خارجی برای SVM (روشهای پیش پردازش داده)       61

2-9-2-1  روشهای نمونه برداری دوباره……………………………………………………….. 61

2-9-2-1-1زیر نمونه برداری…………………………………………………………………. 61

2-9-2-1-2بیش نمونه برداری………………………………………………………………… 62

2-9-2-1-3 SCM………………………………………………………………………………… 63

2-9-2-1-4 نمونه برداری پیشرفته…………………………………………………………… 63

2-9-2-1-5 تکنیک بیش نمونه برداری اقلیت مصنوعی…………………………………. 64

2-9-2-1-6 نزدیک ترین همسایه فشرده(CNN)………………………………………….. 64

2-9-2-1-7 نزدیک ترین همسایه تغییر یافته(ENN)……………………………………… 66

2-9-2-1-8 Tomek-Link…………………………………………………………………….. 67

2-9-2-2 روشهای یادگیری جمعی……………………………………………………………… 68

2-9-2-2-1الگوریتم آموزشی Bagging……………………………………………………… 69

2-9-2-2-2 الگوریتم آموزشی Boosting…………………………………………………… 70

2-9-3 روشهای یادگیری عدم تعادل داخلی برای ماشین بردار پشتیبان                                    71

این مطلب رو هم توصیه می کنم بخونین:   دانلود پایان نامه : طراحی سیستم دسته‌بند فازی مبتنی بر بهینه سازی ازدحام ذرات برای تشخیص بیماری دیابت

2-9-3-1 هزینه خطای متفاوت…………………………………………………………………… 71

2-9-3-2 یادگیری یک کلاس…………………………………………………………………….. 73

2-9-3-3zSVM………………………………………………………………………………………. 73

2-9-3-4 روشهای اصلاح کرنل………………………………………………………………….. 74

2-9-3-5 یادگیری فعال……………………………………………………………………………. 75

2-9-3-6 روش های ترکیبی………………………………………………………………………. 75

فصل سوم:روش پژوهش

3-1مقدمه……………………………………………………………………………………………………… 77

3-2 ماشین بردار پشتیبان فازی برای یادگیری عدم توازن کلاس…………………………………. 77

3-2-1 روش SVMFuzzy………………………………………………………………………………. 77

3-2-2متد FSVM-CIL…………………………………………………………………………………. 79

3-3 ماشین بردار پشتیبان حداقل مربعات (LS-SVM)……………………………………………….. 83

3-4 الگوریتم پیشنهادی…………………………………………………………………………………….. 87

فصل چهارم:محاسبات و یافته های پژوهش

4-1 مقدمه…………………………………………………………………………………………………….. 90

4-2  مجموعه داده ها………………………………………………………………………………………. 90

4-3 نتایج کارایی روش های مختلف بر روی مجموعه داده ها……………………………………. 91

فصل پنجم:نتیجه گیری و پیشنهادات

5-1 جمع بندی و نتیجه گیری……………………………………………………………………………. 94

5-2 کارهای آتی…………………………………………………………………………………………….. 96

منابع و مآخذ :………………………………………………………………………………………. 97

چکیده انگلیسی……………………………………………………………………………………………………….102

 

 

 

 

 

 

 

 

 

 

 

 

فهرست جداول

 

جدول 2-1 متغیرهای ارزیابی دسته بندی.. 29

جدول 4-1 جزییات مجموعه داده های نامتوازن. 90

جدول 4-2- مقایسه کارایی روش های مختلف… 92

 

 

 

 

 

 

 

 

 

 

 

 

 

 

فهرست اشکال

شکل (2-1)- فرایند کشف دانش]1[ 12

شکل(2-2)-حوزه های مختلف داده کاوی]1[ 13

شکل(2-3)-عملکردهای داده کاوی]1[ 13

شکل(2-4)-عملیات مختلف در پاکسازی داده]1[ 18

شکل(2-5)-فشرده سازی بی اتلاف و پر اتلاف]1[ 22

شکل(2-6)-تجمیع مکعبی داده]1[ 23

شکل(2-7)-نمایی از ریسک در دسته بندی]1[ 27

شکل (2-8)-تابع تصمیم فضای دو بعدی.. 37

شکل (2-9)- مرکز کلاس برای شکل 2-8. 38

شکل (2-10)- مرز کلاس بدون هیچ اشتراکی.. 39

شکل (2-11)- بعد VC  ]11[ 40

شکل (2-12)- ابر صفحه جدا کننده بهینه در دو بعد. 47

شکل (2-13)- حالت جداناپذیر خطی در دو بعد. 49

شکل (2-14)- نگاشت داده های آموزشی غیرخطی به فضایی از ویژگی ها با ابعاد بالاتر با تابع   ]11[ 53

شکل (2-15)-مثالی از تقسیم بندی غیر خطی با کرنل گوسی بر روی داده ها ]11[ 57

شکل (2-16)- منحنی تغییرات خطا نسبت به مقادیرمختلف  ]11[ 57

شکل (2-17)- (a) مجموعه داده اصلی.  (b) مجموعه داده بعد از اعمال SMOTE. ) (c Tomek-Link های شناخته شده  (d) مجموعه داده بعد از پاکسازی Tomek-Link ها]36[ 68

مقدمه

کشف دانش و داده کاوی یک حوزه جدید میان رشته ای و در حال رشد می باشد که حوزه های مختلفی همچون پایگاه داده، آمار، یادگیری ماشین و سایر زمینه های مرتبط را با هم تلفیق کرده تا اطلاعات و دانش ارزشمند نهفته در حجم بزرگی از داده ها را استخراج کند.هدف کشف دانش و داده کاوی یافتن الگوها در پایگاه داده می باشد که در میان حجم عظیمی از داده ها مخفی هستند]1[ .کشف دانش شامل مراحل متعددی می باشد که در این پژوهش به مرحله پیش پردازش توجه می­کنیم.

 

مرحله آماده سازی داده ها مهم ترین و زمانبرترین مرحله در پروژه های داده کاوی می باشد.از آنجا که داده ها در این پروژه ها ورودی پروژه هستند هر قدر این ورودی دقیق تر باشد، خروجی کار دقیق تر خواهد بود.یعنی ما از پدیده “ورودی نامناسب، خروجی نامناسب ” دور می­شویم]1[.داده های خام معمولا دچار مشکلاتی مانند نویز، داده پرت، تغییرات در نمونه برداری هستند و بهره گیری از آنها به همین صورت موجب تضعیف نتایج مورد انتظار میشود.پس بایستی از روشی برای بهبود نتایج بهره گیری نمود.پیش پردازش داده ها جهت بهبود کیفیت داده های واقعی برای داده کاوی لازم می باشد.پس پردازش اولیه ای مورد نیاز می باشد تا مقادیر مفقوده، انحرافات و مسائلی از  این دست را در داده های اولیه بیابد. پیش پردازش داده ها شامل همه تبدیلاتی می باشد که بر روی داده های خام صورت می­گیرد وآنها را به صورتی در می­آورد که برای پردازشهای بعدی نظیر بهره گیری در دسته بندی و خوشه بندی، ساده تر و موثرتر می­سازد.

در حال حاضر سازمانها نیاز دارند تا بتوانند داده ها را به صورت کاراتر دسته بندی کنند و از تحلیل نتایج آن برای بهبود طریقه پیشرفت کسب و کار بهره گیری نمایند.ممکن می باشد که داده های در دسترس ، داده هایی مبهم و مغشوش باشند و یا کلاس های داده نامتوازن باشند. پس نیاز به پیش پردازش دقیق داده ها رو به افزایش می باشد. برای پاسخ به این نیاز رو به افزایش ، افراد  همواره کوشش در ارائه روش های جدید و موثرتری دارند.

 

 

تعداد صفحه : 113

قیمت : 14700 تومان

بلافاصله پس از پرداخت لینک دانلود فایل در اختیار شما قرار می گیرد

و در ضمن فایل خریداری شده به ایمیل شما ارسال می گردد.

پشتیبانی سایت :        ****       [email protected]

در صورتی که مشکلی با پرداخت آنلاین دارید می توانید مبلغ مورد نظر برای هر فایل را کارت به کارت کرده و فایل درخواستی و اطلاعات واریز را به ایمیل ما ارسال کنید تا فایل را از طریق ایمیل دریافت کنید.

***  **** ***