تحقیقات انجام شده با موضوع ارائه روشی جدید در ... |
دو معیار پایه اندازه گیری برای ارزیابی و انتخاب خوشههای بهینه عبارتند از:
( اینجا فقط تکه ای از متن فایل پایان نامه درج شده است. برای خرید متن کامل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. )
-
- تراکم[۱۸] : داده های متعلق به یک خوشه بایستی تا حد ممکن به یکدیگر نزدیک باشند. معیار رایج برای تعیین میزان تراکم داده ها واریانس داده ها است.
-
- جدایی [۱۹]: خوشه ها خود بایستی به اندازه کافی از هم جدا باشند. سه راه برای سنجش میزان جدایی خوشه ها مورد استفاده قرار می گیرد:
-
- فاصله بین نزدیکترین داده ها از دو خوشه
-
- فاصله بین دورترین داده ها از دو خوشه
-
- فاصله بین مراکز خوشه ها
همچنین، روشهای ارزیابی خوشههای حاصل از خوشهبندی را به سه دسته تقسیم می کنند: شاخص های خارجی، شاخص های داخلی و شاخص های نسبی.
شاخص های خارجی: شاخص های خارجی مبتنی بر بعضی ساختارهای از پیش تعیین شده اند که بازیاب اطلاعات قبلی درمورد داده ها بوده و به عنوان استانداردی برای اعتبار راه حلهای خوشهبندی استفاده میشوند.
شاخص های داخلی: تست داخلی به اطلاعات خارجی(دانش پیشین) وابستگی ندارد. آنها مستقیماً ساختار خوشهبندی را از روی داده های اصلی، آزمایش مینمایند. از روشهای ساده و معروف در این زمینه T-test میباشد.
شاخص های نسبی: معیارهای نسبی بر تفاوت ساختـــارهای خوشهبندی تأکید مینماید، به طوری که به عنوان مرجعی می تواند شایستگی خوشه ها را آشکار نماید.
Cluster
Pattern
Feature selection
Interpattern similarity
Grouping
شکل۲-۲ مراحل خوشه بندی
۲-۲-۵- انواع روشهای خوشهبندی
روشهای کلاسترینگ به انواع مختلف و در طبقه بندیهای مختلف معرفی میشوند. این روشها را می توان از چندین جنبه تقسیم بندی کرد[۲۰]:
-
- خوشهبندی انحصاری[۲۰] و خوشهبندی با همپوشی[۲۱]
در روش انحصاری پس از خوشهبندی، هر داده دقیقاً به یک خوشه تعلق می گیرد مانند روش خوشه بندی k-means . ولی در خوشهبندی با روش همپوشی پس از خوشهبندی، به هر داده یک درجه تعلق به ازاء هر خوشه نسبت داده می شود یعنی یک داده می تواند با نسبتهای متفاوتی به چندین خوشه تعلق داشته باشد. نمونه ای از این روش، خوشهبندی فازی است.
-
- خوشهبندی سلسله مراتبی[۲۲] و خوشهبندی مسطح[۲۳]
در روش سلسله مراتبی، به خوشههای نهایی بر اساس میزان عمومیت آنها، ساختاری سلسله مراتبی نسبت داده می شود مانند روش اتصال منفرد. در روش مسطح تمام خوشههای نهایی دارای یک میزان عمومیت هستند مانند k-means.
با توجه به اینکه روشهای خوشهبندی سلسله مراتبی اطلاعات بیشتر و دقیق تری تولید می کنند برای تحلیل داده های با جزئیات پیشنهاد میشوند، ولی از آن جایی که پیچیدگی محاسباتی بالایی دارند، برای مجموعه داده های بزرگ روش خوشهبندی مسطح پیشنهاد می شود.
۲-۲-۶- خوشهبندی سلسله مراتبی
همانگونه که بیان شد، در روش خوشهبندی سلسله مراتبی به خوشههای نهایی بر اساس میزان عمومیت آنها، ساختاری سلسله مراتبی، معمولاً به صورت درختی نسبت داده می شود. به این درخت سلسله مراتبی دندوگرام[۲۴] میگویند. گره ریشه نمودار درختی، تمام مجموعه داده را نشان میدهد و هرگره برگ، به عنوان یک نقطه داده در نظرگرفته می شود. بنابراین، گرههای میانی حوزه اشیایی که به هم نزدیک هستند؛ را توصیف می کنند و ارتفاع نمودار درختی معمولاً فاصلهی بین یک نقطه داده و یک خوشه را بیان می کند. نتایج نهایی خوشه بندی می تواند با برش نمودار درختی در سطوح مختلف به دست آید. این نمودار توصیفات آموزندهای از ساختار خوشه بندی داده را فراهم می کند، مخصوصاً وقتی ارتباطات سلسله مراتبی حقیقی در داده ها وجود داشته باشد. این روش خوشهبندی بر اساس ساختار سلسله مراتبی تولیدی توسط آنها به دو دسته تقسیم می شود[۲۱]: بالا به پایین یا تقسیم شونده[۲۵] و پایین به بالا یا متراکم شونده[۲۶].
۲-۲-۶-۱- خوشه بندی سلسله مراتبی تقسیم شونده
در این روش ابتدا تمام داده ها به عنوان یک خوشه در نظر گرفته می شوند و سپس طی یک فرایند تکراری، دادههایی که شباهت کمتری به هم دارند به خوشههای مجزایی شکسته میشوند. این روال تا رسیدن به خوشههایی که دارای یک عضو هستند؛ ادامه پیدا می کند.
۲-۲-۶-۲- خوشه بندی سلسله مراتبی متراکم شونده
ابتدا هر داده به عنوان خوشهای مجزا در نظر گرفته می شود و در طی یک فرایند تکراری در هر مرحله خوشههایی که شباهت بیشتری با هم دارند با یکدیگر ترکیب شده تا در نهایت یک یا تعداد مشخصی خوشه حاصل شود. از انواع الگوریتمهای خوشهبندی سلسله مراتبی متراکم شونده می توان اتصال منفرد، اتصال کامل و اتصال میانگین را نام برد. تفاوت اصلی بین این روشها به نحوه محاسبهی شباهت بین خوشه ها مربوط می شود.
شکل۲‑ ۳ محاسبه فاصله در اتصال منفرد، اتصال میانگین و اتصال کامل
Agglomerative
Divisive
شکل ۲-۴ تفاوت بین روش متراکم شوتده و تقسیم کننده
-
- اتصال منفرد
به این روش خوشهبندی، تکنیک نزدیکترین همسایه[۲۷] نیز گفته میشود. این الگوریتم برای دادههائی که خواص مشترکی ندارند[۲۸] (پراکندگی خوب، زنجیرهای مانند و یا هم مرکز ) بسیار خوب عمل می کند. این در حالی است که الگوریتم پارتیشنی چون K-means بر روی مجموعه دادههائی که همسانگرد[۲۹] هستند، کارا میباشد. در اتصال منفرد، فاصلهی بین دو خوشه برابر با کمترین فاصله بین جفت اشیایی است که هر کدام متعلق به یکی از دو خوشه است (شکل ۲-۳، قسمت الف). به بیان دیگر، و دو خوشه هستند و فاصلهی بین دو عضو و است. به کارگیری الگوریتم اتصال منفرد هنگامی مفید است که خوشهها دارای اشیای نزدیک به هم باشند؛ بهعبارت دیگر، خوشه پیوسته باشد.
فرم در حال بارگذاری ...
[دوشنبه 1400-09-29] [ 04:31:00 ق.ظ ]
|