k-means ﻢﺘﯾرﻮﮕﻟا ﯽﯾاﺪﺘﺑا...

6
روش اﮐﺘﺸﺎﻓﯽ ﺟﺪﯾﺪ ﺟﻬﺖ ﺧﻮﺷﻪ ﺑﻨﺪي اﺑﺘﺪاﯾﯽ اﻟﮕﻮرﯾﺘﻢk-means ﺳﯿﺪ ﻋﺴﮕﺮي ﻗﺎﺳﻤﭙﻮري1 ، اﺣﻤﺪ ﺑﺮآﻧﯽ2 ، ﺑﻬﺮوز ﺗﺮك ﻻداﻧﯽ3 1 ﻣﺮﺑﯽ، ﮔﺮوه ﮐﺎﻣﭙﯿﻮﺗﺮ، داﻧﺸﮕﺎه آزاد اﺳﻼﻣﯽ واﺣﺪ ﻗﺎﺋﻤﺸﻬﺮ، ﻗﺎﺋﻤﺸﻬﺮ[email protected] 2 داﻧﺸﯿﺎر، داﻧﺸﮑﺪه ﮐﺎﻣﭙﯿﻮﺗﺮ، داﻧﺸﮕﺎه اﺻﻔﻬﺎن، اﺻﻔﻬﺎن[email protected] 3 داﻧﺸﯿﺎر، داﻧﺸﮑﺪه ﮐﺎﻣﭙﯿﻮﺗﺮ، داﻧﺸﮕﺎه اﺻﻔﻬﺎن، اﺻﻔﻬﺎن[email protected] ﭼﮑﯿﺪه ﺑﺎ رﺷﺪ روز اﻓﺰون داده ﻫﺎ ﻟﺰوم اﺳﺘﺨﺮاج اﻟﮕﻮﻫﺎي ﻣﻔﯿﺪ از آن ﻫﺎ ﺑﯿﺸﺘﺮ ﺣﺲ ﻣﯽ ﮔﺮدد. ﯾﮑﯽ از روش ﻫﺎي ﮐﺸﻒ داﻧﺶ ﮐﻪ ﺑﺴﯿﺎر ﻣﻮرد اﺳﺘﻔﺎده ﻗﺮار ﻣﯽ ﮔﯿﺮد ﺧﻮﺷﻪ ﺑﻨﺪي ﻣﯽ ﺑﺎﺷﺪ. ﺧﻮﺷﻪ ﺑﻨﺪي ﺑﻪ روش ﻫﺎي ﻣﺨﺘﻠﻔﯽ از ﺟﻤﻠﻪ ﺳﻠﺴﻠﻪ ﻣﺮاﺗﺒﯽ و ﺗﮑﺮاري اﻧﺠﺎم ﻣﯽ ﯿﺮد. در اﻟﮕﻮرﯾﺘﻢ ﻫﺎي ﺧﻮﺷﻪ ﺑﻨﺪي ﺗﮑﺮاري ﯾﮑﯽ از ﻣﻬﻢ ﺗﺮﯾﻦ ﻣﺮاﺣﻞ، اﻧﺘﺨﺎب ﺧﻮﺷﻪ ﻫﺎي اوﻟﯿﻪ اﺳﺖ زﯾﺮا ﺗﺎﺛﯿﺮ ﻣﺴﺘﻘﯿﻢ ﺑﺮ ﺧﻮﺷﻪ ﻫﺎي ﻧ ﻬﺎﯾﯽ دارد. از آﻧﺠﺎﯾﯽ ﮐﻪ ﻫﺮ ﺧﻮﺷﻪ ﺷﺎﻣﻞ ﻧﻘﺎﻃﯽ ﻧﺰدﯾﮏ ﺑﻪ ﻫﻢ و دور از ﻧﻘﺎط ﺧﻮﺷﻪ ﻫﺎي دﯾﮕﺮ اﺳﺖ، اﻧﺘﺨﺎب ﺧﻮﺷﻪ ﻫﺎي اوﻟﯿﻪ اﻫﻤﯿﺖ زﯾﺎدي دارد. در اﯾﻦ ﻣﻘﺎﻟﻪ رو ﺷﯽ اﮐﺘﺸﺎﻓﯽ و ﺗﮑﺮاري اﻓﺰاﯾﺸﯽ ﺑﺮاي ﺗﻌﯿﯿﻦ ﺧﻮﺷﻪ ﻫﺎي اوﻟﯿﻪ در اﻟﮕﻮرﯾﺘﻢk-means ﻃﺮاﺣﯽ ﻧﻤﻮدﯾﻢ. در ﻫﺮ ﻣﺮﺣﻠﻪ دو ﻋﻨﺼﺮ ﺟﺪﯾﺪ را ﺑﺮاي ﺧﻮﺷﻪ ﻫﺎ اﻧﺘﺨﺎب ﻣﯽ ﮐﻨﯿﻢ. در اﺑﺘﺪا ﺑﺎ ﯾﮏ ﺧﻮﺷﻪ ﮐﻪ ﺷﺎﻣﻞ ﯾﮏ ﻋﻨﺼﺮ ﻣﯽ ﺑﺎﺷﺪ ﮐﺎر ﺧﻮدر را آﻏﺎز ﮐﺮده و در ﻫﺮ ﻣﺮﺣﻠﻪ ﻓﺎﺻﻠﻪ ي ﺳﺎﯾﺮ ﻋﻨﺎﺻﺮ ﺑﺎ ﻣﺮﮐﺰ ﺧﻮﺷ ﻫﺎي ﺗﻌﯿﯿﻦ ﺷﺪه را ﻣﺤﺎﺳﺒﻪ ﻣﯽ ﮐﻨﯿﻢ . اﯾﻦ ﻓﺎﺻﻠﻪ ﻣﻌﯿﺎري ﺟﻬﺖ ﺗﻌﯿﯿﻦ ﻋﻨﺎﺻﺮ ﺧﻮﺷﻪ ﻫﺎي ﺑﻌﺪي اﺳﺖ . در اﯾﻦ ﻣﻘﺎﻟﻪ اﻟﮕﻮرﯾﺘﻢ ﺧﻮد را ﺑﺮ روي ﭼﻨﺪ ﻣﺠﻤﻮﻋﻪ داده ي ﻣﺨﺘﻠﻒ در اﻧﺪازه ﻫﺎي ﻣﺘﻔﺎوت اﻋﻤﺎل ﮐﺮدﯾﻢ. ﻧﺘﺎﯾﺞ ﺑﻪ دﺳﺖ آﻣﺪه ﻧﺸﺎن ﻣﯽ دﻫﺪ روش اراﺋﻪ ﺷﺪه ﺑﺎﻋﺚ ﺑﻬﺒﻮد ﻋﻤﻠﮑﺮد اﻟﮕﻮرﯾﺘﻢk-means ﻧﺴﺒﺖ ﺣﺎﻟﺘﯽ اﺳﺖ ﮐﻪ از ﺧﻮﺷﻪ ﻫﺎي اوﻟﯿﻪ ي ﺗﺼﺎدﻓﯽ اﺳﺘﻔﺎده ﺷﺪه اﺳﺖ. ﮐﻠﻤﺎت ﮐﻠﯿﺪي اﻟﮕﻮرﯾﺘﻢk-means ، ﺧﻮﺷﻪ ﻫﺎي اوﻟﯿﻪ، ﺧﻮﺷﻪ ﺑﻨﺪي، ﮐﺸﻒ داﻧﺶ1 - ﻣﻘﺪﻣﻪ ﯾﮑﯽ از اﺑﺰارﻫﺎي ﻣﻬﻢ داده ﮐﺎوي و ﺗﺤﻠﯿﻞ داده ﻫﺎي آﻣﺎري ﺧﻮﺷﻪ ﺑﻨﺪي اﺳﺖ ﮐﻪ داراي ﮐﺎرﺑﺮدﻫﺎي ﻓﺮاواﻧﯽ ﻣﯽ ﺑﺎﺷﺪ. ﻫﺪف ﺧﻮﺷﻪ ﺑﻨﺪي اﯾﻦ اﺳﺖ ﮐﻪ داده ﻫﺎ را ﺑﻪ ﺧﻮﺷﻪ ﻫﺎﯾﯽ ﺗﻘﺴﯿﻢ ﮐﻨﯿﻢ ﺗﺎ داده ﻫﺎي درون ﯾﮏ ﺧﻮﺷﻪ داراي ﺑﯿﺸﺘﺮﯾﻦ ﺷﺒﺎﻫﺖ و داده ﻫﺎي ﺧﻮﺷﻪ ﻫﺎي ﻣﺨﺘﻠﻒ داراي ﮐﻤﺘﺮﯾﻦ ﺷﺒﺎﻫﺖ ﺑﺎﺷﻨﺪ. روش ﻫﺎي ﻣﺨﺘﻠﻔﯽ ﺑﺮاي ﺧﻮﺷﻪ ﺑﻨﺪي ﻣﻮﺟﻮد اﺳﺖ ﮐﻪ ﺑﻪ دو دﺳﺘﻪ ي ﺳﻠﺴﻠﻪ ﻣﺮاﺗﺒﯽ و ﻏ ﯿﺮ ﺳﻠﺴﻠﻪ ﻣﺮاﺗﺒﯽ ﺗﻘﺴﯿﻢ ﻣﯽ ﮔﺮدﻧﺪ. روش ﻫﺎي ﺳﻠﺴﻠﻪ ﻣﺮاﺗﺒﯽ داده ﻫﺎ را ﺑﻪ ﺧﻮﺷﻪ ﻫﺎي ﺳﻠﺴﻠﻪ ﻣﺮاﺗﺒﯽ ﺗﻮدرﺗﻮ ﺗﻘﺴﯿﻢ ﻣﯽ ﮐﻨﻨﺪ ﮐﻪ ﺑﺎ درﺧﺖ دﻧﺪوﮔﺮام ﻗﺎﺑﻞ ﻧﻤﺎﯾﺶ اﺳﺖ. روش ﻫﺎي ﻏﯿﺮﺳﻠﺴﻠﻪ ﻣﺮاﺗﺒﯽ داده ﻫﺎ را ﺑﺮ ﺣﺴﺐ ﺷﺒﺎﻫﺘﺸﺎن ﺑﻪ ﻫﻢ درون ﺧﻮﺷﻪ ﻫﺎي ﻣﺨﺘﻠ ﻗﺮار ﻣﯽ دﻫ ﺪ ﺑﻪ ﻃﻮري ﮐﻪ داده ﻫﺎي ﻣﺘﺸﺎﺑﻪ درون ﯾﮏ ﺧﻮﺷﻪ و داده ﻫﺎي ﻧﺎﻣﺘ ﺸﺎﺑ درون ﺧﻮﺷﻪ ﻫﺎي ﻣﺠﺰا ﻗﺮار ﮔﯿﺮﻧﺪ. اﯾﻦ ﺧﻮﺷﻪ ﻫﺎ ﻣﻤﮑﻦ اﺳﺖ داراي داده ﻫﺎي ﻣﺸﺘﺮك ﻧﯿﺰ ﺑﺎﺷﻨﺪ. اﻟﮕﻮرﯾﺘﻢk-means ] 1 ﯾﮑﯽ از ﻣﻌﺮوف[ ﺗﺮﯾﻦ و ﺳﺮﯾﻊ ﺗﺮﯾﻦ روش ﻫﺎي ﺧﻮﺷﻪ ﺑﻨﺪي ﻣﯽ ﺑﺎﺷﺪ. اﯾﻦ اﻟﮕﻮرﯾﺘﻢ ﻏﯿﺮ ﺳﻠﺴﻠﻪ ﻣﺮاﺗﺒﯽ اﺳﺖ. ﺳﺎدﮔﯽk-means ﺑﺎﻋﺚ ﺷﺪه اﺳﺖ ﮐﻪ در زﻣﯿﻨﻪ ﻫﺎي ﻣﺨﺘﻠﻒ ﻣﻮرد اﺳﺘﻔﺎده ﻗﺮار ﮔﯿﺮد. روش ﮐﺎر326

Upload: others

Post on 31-Jul-2020

4 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: k-means ﻢﺘﯾرﻮﮕﻟا ﯽﯾاﺪﺘﺑا …confnews.um.ac.ir/images/41/conferences/csicc2015/186.pdfahmadb@eng.ui.ac.ir نﺎﻬﻔﺻا ،نﺎﻬﻔﺻا هﺎﮕﺸﻧاد

k-meansابتدایی الگوریتم بنديخوشهروش اکتشافی جدید جهت

3بهروز ترك الدانی، 2برآنیاحمد ، 1قاسمپوري سید عسگري

مربی، گروه کامپیوتر، دانشگاه آزاد اسالمی واحد قائمشهر، قائمشهر 1

[email protected]

دانشیار، دانشکده کامپیوتر، دانشگاه اصفهان، اصفهان 2

[email protected]

دانشیار، دانشکده کامپیوتر، دانشگاه اصفهان، اصفهان 3

[email protected]

چکیده

هاي کشف دانش که بسیار مورد گردد. یکی از روشها بیشتر حس میها لزوم استخراج الگوهاي مفید از آنبا رشد روز افزون داده

در یرد. گهاي مختلفی از جمله سلسله مراتبی و تکراري انجام میبندي به روشباشد. خوشهبندي میگیرد خوشهاستفاده قرار می

هایی دارد. هاي نهاي اولیه است زیرا تاثیر مستقیم بر خوشهترین مراحل، انتخاب خوشهبندي تکراري یکی از مهمهاي خوشهالگوریتم

هاي اولیه اهمیت زیادي دارد. در هاي دیگر است، انتخاب خوشهکه هر خوشه شامل نقاطی نزدیک به هم و دور از نقاط خوشهاز آنجایی

در هر مرحله دو عنصر طراحی نمودیم. k-meansهاي اولیه در الگوریتم براي تعیین خوشه و تکراري افزایشی شی اکتشافیاین مقاله رو

ي باشد کار خودر را آغاز کرده و در هر مرحله فاصلهکه شامل یک عنصر می کنیم. در ابتدا با یک خوشهها انتخاب میجدید را براي خوشه

این. در هاي بعدي است. این فاصله معیاري جهت تعیین عناصر خوشهکنیممی هاي تعیین شده را محاسبههسایر عناصر با مرکز خوش

دهد روشدست آمده نشان میهاي متفاوت اعمال کردیم. نتایج بهي مختلف در اندازهالگوریتم خود را بر روي چند مجموعه دادهمقاله

ي تصادفی استفاده شده است.هاي اولیهنسبت حالتی است که از خوشه k-meansارائه شده باعث بهبود عملکرد الگوریتم

کلمات کلیدي

بندي، کشف دانشهاي اولیه، خوشه، خوشهk-meansالگوریتم

مقدمه -1

بندي است که هاي آماري خوشهکاوي و تحلیل دادهیکی از ابزارهاي مهم داده

ها را به بندي این است که دادهباشد. هدف خوشهکاربردهاي فراوانی میداراي

هاي درون یک خوشه داراي بیشترین شباهت و هایی تقسیم کنیم تا دادهخوشه

هاي مختلفی هاي مختلف داراي کمترین شباهت باشند. روشهاي خوشهداده

یر مراتبی و غي سلسلهبندي موجود است که به دو دستهبراي خوشه

گردند.مراتبی تقسیم میسلسله

مراتبی تودرتو هاي سلسلهها را به خوشهمراتبی دادههاي سلسلهروش

هاي کنند که با درخت دندوگرام قابل نمایش است. روشتقسیم می

ف هاي مختلهم درون خوشهها را بر حسب شباهتشان بهمراتبی دادهغیرسلسله

ه شابهاي نامتمتشابه درون یک خوشه و دادههاي که دادهطوريد بهندهقرار می

هاي ها ممکن است داراي دادهگیرند. این خوشههاي مجزا قرار درون خوشه

مشترك نیز باشند.

هاي ترین روشترین و سریع] یکی از معروفk-means ]1الگوریتم

k-meansمراتبی است. سادگی باشد. این الگوریتم غیر سلسلهبندي میخوشه

هاي مختلف مورد استفاده قرار گیرد. روش کار شده است که در زمینهباعث

326

Page 2: k-means ﻢﺘﯾرﻮﮕﻟا ﯽﯾاﺪﺘﺑا …confnews.um.ac.ir/images/41/conferences/csicc2015/186.pdfahmadb@eng.ui.ac.ir نﺎﻬﻔﺻا ،نﺎﻬﻔﺻا هﺎﮕﺸﻧاد

گردند. سپس در ي مجزا تقسیم میخوشه kها به این صورت است که دادهبه

ي دیگر اي به خوشهها از خوشهجا کردن دادهگردد با جابههر مرحله سعی می

که جایی. از آني عناصر یک خوشه تا مرکز آن خوشه کمینه گرددمیانگین فاصله

k-means بندي نماید هاي حجیم را به صورتی کارا خوشهتواند دادهمی

ها ي خوشهباشد. اما این الگوریتم به انتخاب اولیهالگوریتمی بسیار پرکاربرد می

ه، هاي اولیکه در صورت انتخاب تصادفی خوشهطوريبسیار حساس است، به

هاي ره یکسان نبوده و داراي کیفیتبندي حاصل از این الگوریتم همواخوشه

گوریتم هاي اولیه، الدلیل انتخاب بد خوشهباشد. در بعضی اوقات بهمتفاوتی می

ي دلیل فاصلهگردد. همچنین ممکن است بهي محلی ختم میبه مقدار بهینه

ن فاز تریها خالی بماند. بنابراین مهمدور نقاط به بعضی مراکز خوشه، آن خوشه

باشد.ي مناسب میهاي اولیهریتم انتخاب خوشهاین الگو

پیشنهاد شده k-meansبندي اولیه در هاي مختلفی براي خوشهروش

هاي اولیه ارائه شده است. خوشه دهی] روشی بازگشتی براي آغازین2است. در [

ود شي تصادفی اجرا میهاي اولیهچندین بار با خوشه k-mean] الگوریتم 3در [

ي نهایی خواهد شد.ها برابر مراکز خوشهمقادیر خوشهو میانگین

گیري تصادفی] الگوریتم پاالیشی ارائه شد که ابتدا با نمونه4در [

عدد از این kنمود. سپس با در نظر گرفتن اي از داده را تهیه میمجموعه

بندي هاي این مجموعه را خوشه، داده١مرکز ثقل kها به عنوان مجموعه داده

داري برمختلف از مجموعه نمونه هايمرکز ثقلد. این عمل با انتخاب کرمی

بندي هاي نهایی با حداقل خطاي خوشهی که خوشهمرکز ثقلشد و شده تکرار می

گردید.کاندید انتخاب می هايمرکز ثقلرا داشت به عنوان

ویا صورت پ] روشی مبتنی برتکرار را پیشنهاد داد که در آن به5ي [مقاله

گردد. یافتن این مراکز خوشه به ي جدید اضافه میهربار یک مرکز خوشه

با k-meansاجراي الگوریتم Nي جستجوي سراسري که شامل وسیله

گیرد.هاي آغازین مناسب است انجام میمکان

ارائه (CCIA)دهی مرکز خوشه وریتم آغازین] روشی موسوم به الگ6در [

نمود. این روش بر اساس ها را حل میدهی خوشهشد که مشکل آغازین

نماید. در این روش ابتدا اي مشابه را تعیین میي دو معیار، الگوهاي دادهمشاهده

ها به گردد سپس دادهها محاسبه میمیانگین و انحراف از معیار صفات داده

شوند. در گام آخر هاي خاصی تقسیم میمودار نرمال به بخشي نوسیله

ي مبتنی بر تراکم شباهت و چگالش داده k-meansي الگوریتم وسیلهبه

ها گردد. نتایج آزمایشهاي اولیه مشاهده میاي جهت تعیین خوشهالگوهاي داده

بندي کارایی مناسبیهاي خوشهنشان داده که این روش در بسیاري از روش

دارد.

k-meansي اولیه براي ] الگوریتمی جهت تعیین مراکز خوشه7ي [مقاله

ها را به دو ها آندادهي شامل مجموعهارائه داده است. این روش با برش صفحه

اي کند. این صفحه عمود بر محور دادهي مجزا به نام سلول تقسیم میمجموعه

دهد کهدف تقسیم را انجام میاست که باالترین واریانس را دارد و به این ه

دو يهمزمان مجموع میانگین مربعات خطاي دو سلول را کمینه نموده و فاصله

سلول را بیشینه نماید.

الگوریتم 2در ادامه، مقاله به شکل زیر سازمان یافته است. در بخش

شرح داده شده k-meansهاي آغازین روش ي خوشهپیشنهادي براي محاسبه

بندي معیار ارزیابی مورد استفاده براي تعیین کیفیت خوشه 3ش است. در بخ

١ Centroid

سري مجموعه داده نتایج آزمایشات برروي یک 4بیان شده است. در بخش

، Irisهاي آوري شده که در آن الگوریتم پیشنهادي به مجموعه دادهجمع

Wine وAbalone گیري شامل نتیجه 5اعمال گشته است. در نهایت بخش

باشد.می

الگوریتم پیشنهادي -2

هاي آغازین برايدست آوردن خوشهدر این بخش الگوریتم پیشنهادي جهت به

دهیم. روش ما که یک روش تکراراي را شرح می k-meansبندي روش خوشه

گزیند. اینها بر میافزایشی است، در هر مرحله دو عنصر جدید را براي خوشه

باشد کار خودر را آغاز کرده عنصر می که شامل یک روش در ابتدا با یک خوشه

هاي تعیین شده را محاسبه ي سایر عناصر با مرکز خوشهو در هر مرحله فاصله

هاي بعدي است. روند کند. این فاصله معیاري جهت تعیین عناصر خوشهمی

اجراي الگوریتم در ادامه شرح داده شده است.

صر ت. در روش ما اولین عني الگوریتم تعیین عنصر آغازین اساولین مرحله

شود. عنصر آغازین به مجموعه داده به عنوان عنصر آغازین در نظر گرفته می

گردد و از مجموعه داده اولیه حذف ي اول تعیین میعنوان تنها عضو خوشه

شود تا در محاسبات بعدي درنظر گرفته نشود. پس از تخصیص هر عنصر به می

یک خوشه میانگین مرکز ثقلگردد. وز میرآن خوشه به مرکز ثقلیک خوشه

) انجام 1هاي متعلق به آن خوشه است. این کار با استفاده از فرمول (داده

ي داده و مرکز ثقلتک صفات شود. باید توجه داشت که این فرمول به تکمی

گردد.جدید اعمال می

)1( (c) * size ( )

( )( ) 1

old old new

new

old

mean c datamean c

size c

مرکز ثقلي تمام عناصر مجموعه داده نسبت به ي بعد فاصلهدر مرحله

اي که ما در الگوریتم خود لحاظ گردد. معیار فاصلهي اول محاسبه میخوشه

) آمده است. در پایان این 2ي اقلیدسی است که در فرمول (ایم فاصلهکرده

را قلمرکز ثشود. عنصر اول که کمترین فاصله با مرحله دو عنصر استخراج می

ته رین فاصله را داشي اول است و عنصر دوم که بیشتداشته عضو جدید خوشه

هاي ي دوم است. پس از اضافه شدن این دو عنصر به خوشهاولین عنصر خوشه

ها این خوشه مرکز ثقلي اولیه مقدار ها از مجموعه دادهمربوطه و حذف آن

آید.دست می) به1طبق فرمول (

)2( 2 2 2

1 1 2 2( ) ( ) ... ( )

i c i c in cnd x x x x x x

n ،تعداد صفات =i ،عنصر جدید =c =خوشه مرکز ثقل

ه این نماید، بطور مشابه تکرار میدر مراحل بعدي، الگوریتم این روند را به

ه داده ها از مجموعها و حذف آنمعنی که روند اضافه شدن دو عنصر به خوشه

خوشه داراي حداقل یک عضو باشند. با این kآنقدر ادامه دارد که هر یک از

ه دست آمده محاسبهاي بهتمامی خوشه مرکز ثقلي نقاط تا تفاوت که فاصله

اشت به ها دمرکز ثقلاي که بیشترین میانگین فاصله را با تمام گردد. دادهمی

327

Page 3: k-means ﻢﺘﯾرﻮﮕﻟا ﯽﯾاﺪﺘﺑا …confnews.um.ac.ir/images/41/conferences/csicc2015/186.pdfahmadb@eng.ui.ac.ir نﺎﻬﻔﺻا ،نﺎﻬﻔﺻا هﺎﮕﺸﻧاد

قلمرکز ثه کمترین فاصله را با اي کي جدید و دادهعنوان اولین عنصر خوشه

گردد. پس از اضافه یک خوشه داشت به عنوان عضوي از آن خوشه تعیین می

گیرد.انجام می مرکز ثقلروز رسانی ها بهشدن عناصر به خوشه

خوشه داریم که هر کدام حداقل داراي یک عضو kدر این مرحله ما

ز مرکداده را جستجو کرده تا عناصر نزدیک به باشند. از این پس مجموعهمی

ها را بیابیم. در این جستجو در هر مرحله یک عنصر جدید یافت خوشه ثقل

اي که کمترین شود. عنصر جدید از مجموعه داده حذف شده و به خوشهمی

ن ي تعییي مهم این است در مرحلهگردد. نکتهدارد اضافه میفاصله را با آن

ی شرکت دارند که هایمرکز ثقلها فقط مرکز ثقلي نقاط جدید با فاصله

هایشان پر نشده باشد.خوشه

nگردد که به تعداد اي پر محسوب میخوشه :)1(تعریف k عنصر

ها برابر تعداد خوشه kداد عناصر مجموعه داده و برابر تع nداشته باشد که در آن

باشد.می

کند ي تعیین فاصله تضمین میهاي پر در مرحلهبه حساب نیامدن خوشه

ها حداکثر یک عنصر اي خالی نماند و تعداد اعضاي نهایی خوشهکه هیچ خوشه

باشند.با هم اختالف داشته

بندي شد، میانگین خوشهي اولیه دادهکه تمام عناصر مجموعهپس از آن

ر ها د مرکز ثقلتوان به عنوان هر خوشه نیز فراهم است. از این میانگین می

هایی که رود روش مذکور براي دادهسود جست. انتظار می k-meansروش

باشند بسیار خوب عمل کند.هاي دور میداراي خوشه

به اولیه يهامرکز ثقلي ي جالب توجه این است که روند محاسبهنکته

دلیل ماهیت افزایشی و درنظر گرفتن کل مجموعه داده در هر مرحله، خود یک

گردد.بندي محسوب میروش خوشه

ها فقط شامل دو صفت نرمال شده باشند که دادهاین الگوریتم با فرض این

دست آوردن تصادفی اولین ) به1تصویر کشیده شده است. شکل () به1در شکل (

دهد. در روش ما فرض شده است اولین داده به را نشان می 1cمرکز خوشه

ي اول بیانگر مرکز اولین خوشه است. باید توجه داشت عنوان اولین عضو خوشه

گردند. پس از آن در دور بعدي جا میدر هر مرحله از الگوریتم مراکز خوشه جابه

دارند پیدا 1cاز ترتیب بیشترین و کمترین فاصله راکه به 2iو 1iدو داده مانند

ي اول است.عضو بعدي خوشه 2iي دوم و مرکز خوشه 1iشوند. می

ي اول یعنی ي اول، مقدار مرکز ثقل خوشهبه خوشه 2iپس از اضافه شدن

1c 1ي میانگین تغییر کرده و به نقطهi 1وc 2در شکل ( ×قبلی که با عالمت (

هایی که دهد. سپس تمام نقاط با تمامی مرکز ثقلایم تغییر مکان مینشان داده

ترین نقطه به گردند. نزدیکمقایسه می 2cو 1cاند یعنی تا کنون تعیین شده

تا تمامی مرکز میانگین فاصله اي که دورترینو نقطه 3iیک مرکز ثقل یعنی

اي است که به مرکز عضو جدید خوشه 3iود. شیافت می 4iثقلها را دارد یعنی

باشد.ي جدید مینیز مرکز ثقل خوشه 4iي اول) و آن نزدیک است (یعنی خوشه

این روند تا انتخاب شدن تمامی نقاط چه به عنوان مرکز خوشه یا به عنوان

گردد از این روش طور که مشاهده مییابد. همانعضوي از یک خوشه ادامه می

بندي سود جست.صورت مستقل براي خوشه توان بهمی

هاي دور افتاده در مشکلی که در روش ما وجود دارد این است که داده

د. اما آینحساب میي تعیین مرکز ثقل دوم به بعد، کاندیداي خوبی بهمرحله

، عنوان مرکز ثقلاي است که پس از تعیین شدن بهگونهها بهماهیت این داده

شود و در واقع انحرافی براي تعیین مرکز ثقل به آن یافت نمیهایی نزدیک داده

هاي دور افتاده از مرکز گردد. دلیل این مشکل دور بودن دادهواقعی محسوب می

ي دور بودن از مرکز ثقل قبلی کاندیداي ها است. به واسطهثقل قبلی و تمام داده

داي ها کاندیي دادهیهي دور بودن از بقبعدي براي مرکز ثقل است اما به واسطه

اي دور هتوان ابتدا دادهخوبی براي مرکز ثقل نیست. براي رفع این مشکل می

افتاده را از مجموعه داده حذف نمود.

ي اول و دوم و عضو دوم خوشه هايمرکز ثقل): انتخاب 1شکل (

ي اول الگوریتم)ي اول (دو مرحلهخوشه

ي سوم خوشه مرکز ثقلي اول و ): انتخاب عضو سوم خوشه2شکل (

ي سوم الگوریتم)(مرحله

معیار ارزیابی -3

1964بندي عملی دشوار و چند معیاري است. در سال هاي خوشهروشارزیابی

بندي شمول براي ارزیابی یک خوشهبونر به این نتیجه رسید که روشی جهان

ي خارجی و داخلی تقسیم خوب وجود ندارد. معیارهاي ارزیابی موجود به دو دسته

گردند.می

0 25 50 75 100

25

50

75

100

A2

A1

c1 i2

i1

0 25 50 75 100

25

50

75

100

A2

A1

c1

c2

×

i3

i4

328

Page 4: k-means ﻢﺘﯾرﻮﮕﻟا ﯽﯾاﺪﺘﺑا …confnews.um.ac.ir/images/41/conferences/csicc2015/186.pdfahmadb@eng.ui.ac.ir نﺎﻬﻔﺻا ،نﺎﻬﻔﺻا هﺎﮕﺸﻧاد

ز پیش تعیین شده هاي اها را با کالسمعیارهاي ارزیابی خارجی، خوشه

هاياي نیاز دارند. روشزمینهکنند و به دانش پیشها مقایسه میبراي داده

ها واي ندارند و از دانش آماري موجود در دادهزمینهداخلی نیازي به دانش پیش

کنند.ها استفاده میخوشه

ضریب ایم معیاري که در ارزیابی روش پیشنهادي از آن سود جسته

گنجد ابتدا هاي داخلی میم دارد. در این روش که در دسته روشنا ٢سیلوات

اند. سپس براي هر قلم خوشه تقسیم گشته kها با روشی به شود دادهفرض می

و سایر i ٣آید که برابر میانگین عدم شباهتمی به دست a(i)معیار iي داده

عد میانگین عدم باشد. در گام بمی iي ي دربرگیرندههاي متعلق به خوشهداده

گردد و هایی که به آن تعلق ندارد محاسبه میبا هر یک از خوشه iشباهت

ي اي که کمترین شباهت را با دادهشود. خوشهنامیده می b(i)کمترین میانگین

i ي مجاور دارد خوشهi ي بعدي است که شود زیرا بهترین خوشهنامیده میi

) 4در فرمول ( b(i)) و 3در فرمول ( a(i)تواند به آن متعلق باشد. تعریف می

آمده است.

)3( ,

( , )( )

1

ii C i i

i

dist i ia i

C

)4( :1 ,

( , )( ) min

j

j

i C

C j k j ij

dist i ib i

C

دست آورد.) به5را طبق فرمول ( s(i)توان مقدار می b(i)و a(i)با توجه به

)5(

( ) ( )( )

max ( ), ( )

b i a is i

a i b i

s(i) باشد. می -1و 1مقداري بینa(i) کوچک به معنی انطباق خوب

iي بزرگ به معنی انطباق بد داده b(i)باشد همچنین اش میو خوشه iي داده

s(i)تر باشد بزرگ b(i)کوچکتر و a(i)باشد. هر چه ي مجاورش میبا خوشه

بندي خوب است. همچنین با منطقی ي خوشهدهندهنزدیکتر بوده که نشان 1به

باشد. مقدار نهایی بندي ضعیف میبه معنی خوشه -1نزدیک به s(i)مشابه

باشد.ها می s(i)بندي، میانگین کل مورد نظر براي تعیین کیفیت یک خوشه

نتایج آزمایش -4

سازي کردیم. در را پیادهنهادي آنجهت نشان دادن کاربردي بودن روش پیش

ي واقعی از جمله گام بعدي کارایی روش را برروي تعدادي مجموعه داده

ب، داده٤هاي گل زنبقداده ٦ي صدفو مجموعه داده ٥ي تشخیص شرا

٢ ilhouette coefficientS ٣ dissimilarity ٤ iris ٥ wine ٦ abalone ٧ setosa

]UCI ]9ي یادگیري ماشین آزمودیم. این سه مجموعه داده از انبار داده

استخراج شده است.

] عموما به عنوان استانداردي جهت آزمون 8زنبق [ ي گلمجموعه داده

گردد. این مجموعه داده شامل سه کالس بندي استفاده میهاي خوشهروش

) 2، (٧) زنبق ستوزا1هاي زنبق از جمله (ي مختلف گلباشد که سه گونهمی

ها دهد. هر یک از این کالسرا نشان می ٩) زنبق ویرجینیکا3و ( ٨زنبق وِرسیکالر

نمونه است. هر یک 150شامل باشند بنابراین مجموعه دادهنمونه می 50اي دار

، عرض ١٠اند که عبارتند از: طول کاسبرگها با چهار صفت مشخص شدهاز نمونه

و عرض برگ. ١١کاسبرگ، طول برگ

هایی است که در ي شراب حاصل تحلیل شیمیایی شرابمجموعه داده

اند. مختلف تشکیل شده ١٢اند اما از سه کالتیورآمدهیک منطقه از ایتالیا به عمل

ي تشکیل دهنده را در هریک این سه شراب ماده 13آزمایشات، مقداري از

و 71، 59باشد که به ترتیب نمونه می 178نشان داد. این مجموعه داده شامل

هاي یک، دو و سه قرار دارند.نمونه در کالس 48

تخمین سن صدف از طریق ي صدف مربوط به مجموعه داده

، باشد. تخمین سن صدف از طریق برش پوستههاي فیزیکی میگیرياندازه

گیرد. روش کارا و در دسترس هاي آن انجام میرنگ آمیزي و شمارش دایره

گیري معیارهایی همچون طول و وزن پوسته دیگر براي تخمین سن صدف اندازه

ه شامل یک صفت کالس به نام باشد. این مجموعه دادصدف و گوشت آن می

rings دهد. تعداد ها یا همان سن صدف را نشان میاست که تعداد حلقه

گر صفت دیگر بیان 8عدد است. عالوه بر آن 28هاي مجموعه داده برابر کالس

4177هاي این مجموعه داده باشند. تعداد نمونهخصوصیات فیزیکی صدف می

و 0قی بین هایی حقیهاي غیر عددي این مجموعه داده به دادهعدد بوده و داده

نرمال شده است. 1

دسی است ي اقلیگیري فاصله در نظر گرفتیم فاصلهمعیاري که براي اندازه

هاي انجام شده به شکل ماکروهاي سازيتمام پیاده ) آمده است.1که در فرمول (

ي اول صفحه است که صفحه 3باشد. فایل اکسل ما شامل اکسل می

ه ي نوشتي دوم حاوي واسط کاربر برنامهههاي ورودي، صفحي دادهدربرگیرنده

هاي موقتی است.ي سوم جهت نگهداري دادهشده و صفحه

ا با پردازش تصادفی بوده یتوان تعیین کرد پیشاز طریق واسط کاربر می

و k، مقدار k-meansروش پیشنهادي انجام گردد. همچنین تعداد تکرارهاي

یین بندي باید درنظر گرفته شود قابل تعهایی که براي خوشهتعداد صفات و نمونه

است.

ها را برابر تعداد هاي هر یک از مجموعه دادهدر این آزمایش تعداد خوشه

ها ایم. براي هریک از مجموعه دادههاي آن مجموعه داده تعیین کردهکالس

-kهاي تصادفی و پیشنهادي تعیین نمودیم. سپس مراکز خوشه را با روش

means اکز تعیین شده با تکرارهاي مختلف انجام دادیم. معیار ارزیابی را با مر

بندي است که براي هر آن خوشه ضریب سیلواتبندي خوب مقدار یک خوشه

٨ versicolor ٩ virginica

١٠ sepal length ١١ petal length ا� از گياهان که به جهت خصوصيات مطلوبشان انتخاب، گياه يا مجموعه ١٢

شوند.تکثير و نگهدار� مي

329

Page 5: k-means ﻢﺘﯾرﻮﮕﻟا ﯽﯾاﺪﺘﺑا …confnews.um.ac.ir/images/41/conferences/csicc2015/186.pdfahmadb@eng.ui.ac.ir نﺎﻬﻔﺻا ،نﺎﻬﻔﺻا هﺎﮕﺸﻧاد

بندي اولیه تصادفی در جدول دست آوردیم. نتایج آزمایشات با خوشهخروجی به

ت.) آمده اس2بندي اولیه با روش پیشنهادي در جدول () و براي خوشه1(

k-meansبندي اولیه تصادفی در براي خوشه ضریب سیلوات: مقادیر 1جدول

تکرار

داده

1 3 5 10 20

iris 0,215484883187626 0,470474987319524 0,527720777182417 0,550964374670744 0,550964374670744

wine 0,213518215465451 0,405745837724505 0,412524431846103 0,416643603260252 0,416643603260252

abalone 0,214550268477679 0,268135667275772 0,2740440747249 0,280106261295383 0,284251967059378

k-meansبندي اولیه پیشنهادي در براي خوشه سیلواتضریب : مقادیر 2جدول

تکرار

داده

1 3 5 10 20

iris 0,541007012272819 0,550964374670744 0,550964374670744 0,550964374670744 0,550964374670744

wine 0,364016699583253 0,416643603260252 0,416643603260252 0,424697023587371 0,424697023587371

Abalone 0,244284249804904 0,334236957470695 0,349389590776855 0,361125171255765 0,361125171255765

بندي اولیه با خوشه k-meansگرایی الگوریتم ) سرعت هم3در شکل (

ي گل زنبق مقایسه گشته است. پیشنهادي و تصادفی براي مجموعه داده

ي شراب و ) این نمودار براي مجموعه داده5) و (4هاي (همچنین در شکل

صدف نشان داده شده است.

با k-meansي سرعت همگرایی الگوریتم : مقایسه3شکل

ي زنبقي تصادفی و پیشنهادي براي دادههاي اولیهبنديخوشه

با k-meansي سرعت همگرایی الگوریتم : مقایسه4شکل

ي شرابي تصادفی و پیشنهادي براي دادههاي اولیهبنديخوشه

با k-meansي سرعت همگرایی الگوریتم : مقایسه5شکل

ي صدفنهادي براي دادهي تصادفی و پیشهاي اولیهبنديخوشه

گیرينتیجه -5

k-meansگردد سرعت همگرایی مشاهده می )2) و (1هاي (با نگاهی به جدول

د. نکته باشبندي اولیه تصادفی از روش پیشنهادي به مراتب کمتر میبا خوشه

بندي اولیه ارائه شده همیشه یک نتیجه دربر مهم دیگر این است که خوشه

اوتی ي متفبندي اولیه تصادفی در هر اجرا نتیجهخوشه خواهد داشت در حالیکه

دربر دارد.

بندي اولیه انقدر خوب باشد رسد روش پیشنهادي براي خوشهبه نظر می

بندي نهایی سود جست. عنوان خوشهاز آن به k-meansکه بتوان بدون نیاز به

ر تعیین تها را با دقت بیشتوان صفات دخیل در تعیین خوشهبه این منظور می

یري از گي اولیه را با روشی دیگر همچون میانگینتوان نقطهنمود. همچنین می

نقاط تعیین کرد.

ا رود بباشد. انتظار میهاي دور افتاده حساس میروش پیشنهادي به داده

ها بهبود یابد.هاي دور افتاده کیفیت خوشهحذف داده

منابع -6

[1] Mac Queen, J., 1967. Some methods for classification and analysis of multivariate observations (pp. 281297). In: Le Cam, L.M., Neyman, J. (Eds.), Proc. 5th Berkley Symp. on Mathematical Statistics and Probability, vol. 1. University of California Press, p. 666, xvii.

0

0.2

0.4

0.6

1 3 5 10 20

توا

يلس

ب ري

ضر

دامق

k-meansتعداد تکرار الگوريتم

خوشه بند� اوليه تصادفي خوشه بند� اوليه پيشنهاد�

0

0.1

0.2

0.3

0.4

0.5

1 3 5 10 20

توا

يلس

ب ري

ضر

دامق

k-meansتعداد تکرار الگوريتم

خوشه بند� اوليه تصادفي خوشه بند� اوليه پيشنهاد�

0

0.1

0.2

0.3

0.4

1 3 5 10 20

توا

يلس

ب ري

ضر

دامق

k-meansتعداد تکرار الگوريتم

خوشه بند� اوليه تصادفي خوشه بند� اوليه پيشنهاد�

330

Page 6: k-means ﻢﺘﯾرﻮﮕﻟا ﯽﯾاﺪﺘﺑا …confnews.um.ac.ir/images/41/conferences/csicc2015/186.pdfahmadb@eng.ui.ac.ir نﺎﻬﻔﺻا ،نﺎﻬﻔﺻا هﺎﮕﺸﻧاد

[2] Duda, R.O., Hart, P.E., 1973. Pattern Classification and Scene Analysis. John Wiley and Sons, NY.

[3] Jain, A.K., Dubes, R.C., 1988. Algorithms for Clustering Data. Prentice Hall, Englewood Cliffs, NJ.

[4] Bradley, P.S., Fayyad, U.M., 1998. Refinning initial points fork-means algorithm. In: Proceeding of the 15th Internat. Conf. on Machine Learning (ICML’98).

[5] Likas, A., Vlassis, N., Jakob, J.V., 2003. The globalk-means algorithm algorithm. Pattern Recognition 36, 451–461.

[6] Khan, S.S., Ahmad, A., 2004. Cluster center initialization algorithm fork-means algorithm. Pattern Recognition Lett. 25, 1293–1302.

[7] Deelers, S., Auwatanamongkol, S., 2007. Enhancingk-means algorithm with initial cluster centers derived from data partitioning along the data axis with the highest variance. Internat. J. Comput. Sci. 2, 247–252.

[8] Fisher, R.A., 1936. The use of multiple measurements in taxonomic problems. Ann. Eugenic. 7 (part 2), 179–188.

[9] http://archive.ics.uci.edu/ml/datasets.html

331