داده کاوی کارا برای زیر درخت های مکرر بیشینه efficient data...
DESCRIPTION
داده کاوی کارا برای زیر درخت های مکرر بیشینه Efficient Data Mining for Maximal Frequent Subtrees. استاد راهنما : دکتر رهگذر سبحان موسوی نژاد تابستان 89. مراجع. Proceedings of 3rd IEEE International Conference on Data Mining (ICDM), pages 379{386, 2003. فهرست مطالب. مقدمه مفاهیم اولیه - PowerPoint PPT PresentationTRANSCRIPT
![Page 1: داده کاوی کارا برای زیر درخت های مکرر بیشینه Efficient Data Mining for Maximal Frequent Subtrees](https://reader035.vdocument.in/reader035/viewer/2022062321/5681331c550346895d99e465/html5/thumbnails/1.jpg)
داده کاوی کارا برای زیر درخت های مکرر بیشینه
Efficient Data Mining for Maximal Frequent Subtrees
استاد راهنما : دکتر رهگذرسبحان موسوی نژاد
89 تابستان
![Page 2: داده کاوی کارا برای زیر درخت های مکرر بیشینه Efficient Data Mining for Maximal Frequent Subtrees](https://reader035.vdocument.in/reader035/viewer/2022062321/5681331c550346895d99e465/html5/thumbnails/2.jpg)
مراجع
Proceedings of 3rd IEEE International Conference on Data Mining (ICDM), pages 379{386, 2003.
![Page 3: داده کاوی کارا برای زیر درخت های مکرر بیشینه Efficient Data Mining for Maximal Frequent Subtrees](https://reader035.vdocument.in/reader035/viewer/2022062321/5681331c550346895d99e465/html5/thumbnails/3.jpg)
فهرست مطالب
مقدمه•مفاهیم اولیه •بیان مسئله•Path Joinالگوریتم •نتایج تجربی•نتیجه گیری•مراجع•
![Page 4: داده کاوی کارا برای زیر درخت های مکرر بیشینه Efficient Data Mining for Maximal Frequent Subtrees](https://reader035.vdocument.in/reader035/viewer/2022062321/5681331c550346895d99e465/html5/thumbnails/4.jpg)
مقدمه
کاوشAssociation Rules( و رشته ها Sequence مسائل یک : )بعدی
کاوش زیر درخت و گراف : مسائل دو بعدی
![Page 5: داده کاوی کارا برای زیر درخت های مکرر بیشینه Efficient Data Mining for Maximal Frequent Subtrees](https://reader035.vdocument.in/reader035/viewer/2022062321/5681331c550346895d99e465/html5/thumbnails/5.jpg)
کاربرد درخت کاوی
Web Usage Mining
Bio informatics
![Page 6: داده کاوی کارا برای زیر درخت های مکرر بیشینه Efficient Data Mining for Maximal Frequent Subtrees](https://reader035.vdocument.in/reader035/viewer/2022062321/5681331c550346895d99e465/html5/thumbnails/6.jpg)
نقطه آغاز این کار
Traversal و Usage و یافتن الگوهای Websites های Logبررسی
مسائل : بوده Usage ها برای Sequenceتحقیقات قبلی کثرا به دنبال رشته ها و
اند.Web!را به صورت تکبعدی نگریسته اند Web ذاتا ساختار سلسله مراتبی Hierarchal.و یا گرافی دارد
ها.Access Sessionکار ما : یافتن الگوها با استفاده از Tree Structure ها Access Sessionساختار
و Induced و زیر درخت ها نامرتبدرخت ها در اینجا Maximal.هستند
![Page 7: داده کاوی کارا برای زیر درخت های مکرر بیشینه Efficient Data Mining for Maximal Frequent Subtrees](https://reader035.vdocument.in/reader035/viewer/2022062321/5681331c550346895d99e465/html5/thumbnails/7.jpg)
مفاهیم اولیه
Root Pathمسیر ریشه ای نمایش هر مسیر ریشه ای توسط برچسب آخرین نود در
مسیر
Root Subtreeزیر درخت ریشه ای (F,B,D,E)
![Page 8: داده کاوی کارا برای زیر درخت های مکرر بیشینه Efficient Data Mining for Maximal Frequent Subtrees](https://reader035.vdocument.in/reader035/viewer/2022062321/5681331c550346895d99e465/html5/thumbnails/8.jpg)
)ادامه(مفاهیم اولیه
Embedded(درونی)
Induced(منتج)
![Page 9: داده کاوی کارا برای زیر درخت های مکرر بیشینه Efficient Data Mining for Maximal Frequent Subtrees](https://reader035.vdocument.in/reader035/viewer/2022062321/5681331c550346895d99e465/html5/thumbnails/9.jpg)
Item Set Representation For Root Subtree
Itemsetنمایش هر زیر درخت به عنوان یک
باشند : نمایش یکتاInducedاگر الگو ها
<A,C,E> :
![Page 10: داده کاوی کارا برای زیر درخت های مکرر بیشینه Efficient Data Mining for Maximal Frequent Subtrees](https://reader035.vdocument.in/reader035/viewer/2022062321/5681331c550346895d99e465/html5/thumbnails/10.jpg)
Maximal Subtree
یک زیر درخت مکرر، بیشینه است اگر زیر درختی از •یک زیر درخت مکرر دیگری نباشد
![Page 11: داده کاوی کارا برای زیر درخت های مکرر بیشینه Efficient Data Mining for Maximal Frequent Subtrees](https://reader035.vdocument.in/reader035/viewer/2022062321/5681331c550346895d99e465/html5/thumbnails/11.jpg)
بیان مسئله
Unweighted Support
freqD(s) = ∑ TєD freq T (S) ( freqT(s) =0,1)
supD(s)= freqD(s) / |D|
Weighted Support
SUPD(s) = ∑ FREQT(S) / ∑ TєD |T| FREQT(S) = 0 , n (n : if accurse n time )
![Page 12: داده کاوی کارا برای زیر درخت های مکرر بیشینه Efficient Data Mining for Maximal Frequent Subtrees](https://reader035.vdocument.in/reader035/viewer/2022062321/5681331c550346895d99e465/html5/thumbnails/12.jpg)
The Frequent Subtree mining Problem
، با تعریف Dدر یک پایگاه داده از درختان همچون •
، هدف یافتن تمام زیر Smin یا sminآستانه ای همچون درخت های مکرر بیشینه.
فرضیات :•درخت ها نامرتب–برچسب ها : قابل تکرار –برچسب فرزندان یک نود : یکتا– باشد.Unweighted و یا Weighted می تواند Supمقدار –
![Page 13: داده کاوی کارا برای زیر درخت های مکرر بیشینه Efficient Data Mining for Maximal Frequent Subtrees](https://reader035.vdocument.in/reader035/viewer/2022062321/5681331c550346895d99e465/html5/thumbnails/13.jpg)
یک نکته !
چرا ما به دنبال درخت های نامرتب هستیم ؟
تحلیWل و بررسWی حWال در رفتWار وقWتی هسWتید، مسWئله Web Pageدر یWک کWاربر
کWه اسWت صWفحاتی یWافتن نظWر مWورد تWرتیب نWه نمWوده؛ بازدیWد آنهWا از کWاربر
آنها!
![Page 14: داده کاوی کارا برای زیر درخت های مکرر بیشینه Efficient Data Mining for Maximal Frequent Subtrees](https://reader035.vdocument.in/reader035/viewer/2022062321/5681331c550346895d99e465/html5/thumbnails/14.jpg)
ایده آغازین
ها Maximal Frequent Pathیافتن تمامی Infrequentحذف تمامی نودهای
Maximal Frequentادغام آنها جهت دستیابی به Subtree ها
Maximal Frequent Path 1- Freq Itemset
K- Freq Itemset ها Freq Itemset- 1 تا از Kادغام
![Page 15: داده کاوی کارا برای زیر درخت های مکرر بیشینه Efficient Data Mining for Maximal Frequent Subtrees](https://reader035.vdocument.in/reader035/viewer/2022062321/5681331c550346895d99e465/html5/thumbnails/15.jpg)
Path Joinالگوریتم
Outline
.I اسکن اولیه پایگاه داده برای شناساییFreq 1-Itemset
.II اسکن ثانویه جهتPrune کردن نودهای غیر مکرر و FST-Forestساختن ساختار داده
.III یافتن تمامMaximal Frequent Root Path
.IV ادغام اینRoot Path ها و ساختن Maximal Freq Root Subtrees
![Page 16: داده کاوی کارا برای زیر درخت های مکرر بیشینه Efficient Data Mining for Maximal Frequent Subtrees](https://reader035.vdocument.in/reader035/viewer/2022062321/5681331c550346895d99e465/html5/thumbnails/16.jpg)
FST - Forest
Forest treesBasic Node Structure
![Page 17: داده کاوی کارا برای زیر درخت های مکرر بیشینه Efficient Data Mining for Maximal Frequent Subtrees](https://reader035.vdocument.in/reader035/viewer/2022062321/5681331c550346895d99e465/html5/thumbnails/17.jpg)
FST – Forest (cont)
برای هر درخت، ایندکس بر اساس ریشه آن درخت •می باشد.
FP-Growthشباهت این ساختار با • تنها در برگ ها : صرفه جویی در Tree Idsذخیره •
حافظهذخیره درخت ها به صورت رشته •بازسازی سریعتر درخت ها در حافظه•
![Page 18: داده کاوی کارا برای زیر درخت های مکرر بیشینه Efficient Data Mining for Maximal Frequent Subtrees](https://reader035.vdocument.in/reader035/viewer/2022062321/5681331c550346895d99e465/html5/thumbnails/18.jpg)
گام اول : حذف نودهای غیر مکررInfrequent Nodes Elimination
After Pruning
![Page 19: داده کاوی کارا برای زیر درخت های مکرر بیشینه Efficient Data Mining for Maximal Frequent Subtrees](https://reader035.vdocument.in/reader035/viewer/2022062321/5681331c550346895d99e465/html5/thumbnails/19.jpg)
ادغام درخت های با ریشه مشترک
![Page 20: داده کاوی کارا برای زیر درخت های مکرر بیشینه Efficient Data Mining for Maximal Frequent Subtrees](https://reader035.vdocument.in/reader035/viewer/2022062321/5681331c550346895d99e465/html5/thumbnails/20.jpg)
برخی نکات
، ممکن است درختانی با ریشه Pruningتوجه : پس از فرآیند جدید حاصل گردند.
ها به صورت مرتب Tree ids Listپس از اتمام این مرحله، .FST Forestخواهند بود : ساختار
برای هر رشته ی درختی در پایگاه داده، زمان ساختن درخت متناظر در حافظه : به صورت خطی و متناسب با طول رشته.
.O(n)، زمان DFSمشخص کردن نودهای مکرر : الگوریتم .O(n)، زمان DFSزمان مورد نیاز برای ادغام : الگوریتم
زمان کلی الزم جهت ساختن کل جنگل : خطی متناسب با تعداد درختان.
تنها در برگ ها.Tree Idsاستفاده بهینه از حافظه اصلی : ذخیره
![Page 21: داده کاوی کارا برای زیر درخت های مکرر بیشینه Efficient Data Mining for Maximal Frequent Subtrees](https://reader035.vdocument.in/reader035/viewer/2022062321/5681331c550346895d99e465/html5/thumbnails/21.jpg)
یافتن مسیرهای ریشه ایRoot Paths
مسیر های مکرر ریشه ای: مسیرهای مکرر بیشینه•
هدف: شمردن تمام مسیر های ریشه ای، چه مکرر و •چه غیر مکرر.
ادغام: مسیری که ریشه ای نیست؛ برچسب شروع آن –ریشه یک درخت دیگر است؛ ادغام این مسیر با آن درخت.
درج کردن: برای مسیر بیشینه غیر ریشه ای، درختی جدید –اضافه می شود.
![Page 22: داده کاوی کارا برای زیر درخت های مکرر بیشینه Efficient Data Mining for Maximal Frequent Subtrees](https://reader035.vdocument.in/reader035/viewer/2022062321/5681331c550346895d99e465/html5/thumbnails/22.jpg)
)ادامه(یافتن مسیرهای ریشه ای
![Page 23: داده کاوی کارا برای زیر درخت های مکرر بیشینه Efficient Data Mining for Maximal Frequent Subtrees](https://reader035.vdocument.in/reader035/viewer/2022062321/5681331c550346895d99e465/html5/thumbnails/23.jpg)
Merge پس از مرحله Pruningگام
DFSحذف نودهای غیر مکرر، اجرای الگوریتم • نودهای حذف شده با اولین جد حذف Tree Idsادغام •
نشده آنها.
After Pruning
![Page 24: داده کاوی کارا برای زیر درخت های مکرر بیشینه Efficient Data Mining for Maximal Frequent Subtrees](https://reader035.vdocument.in/reader035/viewer/2022062321/5681331c550346895d99e465/html5/thumbnails/24.jpg)
گام آخر
Maximal Frequent Root Pathحاال تمام مسیر ها •هستند.
Aprioriحاال با توجه به الگوریتم •Level Wiseبه صورت – Itemset(-K-1 های مکرر از روی )K-Itemsetپیدا کردن –
های مکرر. ها.Itemset-2شروع از –
![Page 25: داده کاوی کارا برای زیر درخت های مکرر بیشینه Efficient Data Mining for Maximal Frequent Subtrees](https://reader035.vdocument.in/reader035/viewer/2022062321/5681331c550346895d99e465/html5/thumbnails/25.jpg)
ها و الگوریتم Itemsetبحث بر سر Apriori
(آیتم ست :k-1برای دو تا ) •
و
k آیتم ست
تولید خواهد شد اگر :
و تمامی زیر مجموعه های آن مکرر باشند.
![Page 26: داده کاوی کارا برای زیر درخت های مکرر بیشینه Efficient Data Mining for Maximal Frequent Subtrees](https://reader035.vdocument.in/reader035/viewer/2022062321/5681331c550346895d99e465/html5/thumbnails/26.jpg)
Maximizingگام
تا اینجا تمامی زیر درخت های مکرر یافته شده اند
حاال باید به دنبال زیر درخت های مکرر بیشینه بود.
Local Maximizing بیشینه سازی محلی برای هر درخت، زیر درخت های آن میباید بیشینه باشند.
Global Maximizingبیشینه سازی کلی در حالت کلی، در بین تمام درخت های جنگل، زیر درخت های
کاوش شده میباید بیشینه باشند.
![Page 27: داده کاوی کارا برای زیر درخت های مکرر بیشینه Efficient Data Mining for Maximal Frequent Subtrees](https://reader035.vdocument.in/reader035/viewer/2022062321/5681331c550346895d99e465/html5/thumbnails/27.jpg)
؟ Maximizingچرا
در اختیار داشتن یک دید کلی از کل وب سایت.
![Page 28: داده کاوی کارا برای زیر درخت های مکرر بیشینه Efficient Data Mining for Maximal Frequent Subtrees](https://reader035.vdocument.in/reader035/viewer/2022062321/5681331c550346895d99e465/html5/thumbnails/28.jpg)
نتایج تجربی
![Page 29: داده کاوی کارا برای زیر درخت های مکرر بیشینه Efficient Data Mining for Maximal Frequent Subtrees](https://reader035.vdocument.in/reader035/viewer/2022062321/5681331c550346895d99e465/html5/thumbnails/29.jpg)
زمان اجرا
![Page 30: داده کاوی کارا برای زیر درخت های مکرر بیشینه Efficient Data Mining for Maximal Frequent Subtrees](https://reader035.vdocument.in/reader035/viewer/2022062321/5681331c550346895d99e465/html5/thumbnails/30.jpg)
زمان اجرا
![Page 31: داده کاوی کارا برای زیر درخت های مکرر بیشینه Efficient Data Mining for Maximal Frequent Subtrees](https://reader035.vdocument.in/reader035/viewer/2022062321/5681331c550346895d99e465/html5/thumbnails/31.jpg)
تعداد زیر درخت های کاندید
![Page 32: داده کاوی کارا برای زیر درخت های مکرر بیشینه Efficient Data Mining for Maximal Frequent Subtrees](https://reader035.vdocument.in/reader035/viewer/2022062321/5681331c550346895d99e465/html5/thumbnails/32.jpg)
استفاده از حافظه
![Page 33: داده کاوی کارا برای زیر درخت های مکرر بیشینه Efficient Data Mining for Maximal Frequent Subtrees](https://reader035.vdocument.in/reader035/viewer/2022062321/5681331c550346895d99e465/html5/thumbnails/33.jpg)
نتیجه گیری
نوعی جدید از درخت کاوی در این مقاله معرفی شد الگوریتمPath Join برای یافتن Maximal Frequent
Subtree.ها ارائه شد استفاده الگوریتم از ساختمان داده فشردهFST
Forest استفاده از روش تولید زیر درخت های کاندید به
صورت محلی.کاهش تعداد زیر درخت های کاندید
![Page 34: داده کاوی کارا برای زیر درخت های مکرر بیشینه Efficient Data Mining for Maximal Frequent Subtrees](https://reader035.vdocument.in/reader035/viewer/2022062321/5681331c550346895d99e465/html5/thumbnails/34.jpg)
مراجع
1. Y. Xiao and J.F. Yao. Efficient data mining for maximal frequent subtrees. Proceedings of 3rd IEEE International Conference on Data Mining (ICDM) , 2003.
2. M. J. Zaki. Efficiently mining frequent trees in a forest. In Proceedings of the 8th ACM SIGKDD Int’l Conference on Knowledge Discovery and Data Mining, Edmonton, Canada, jul 2002.
![Page 35: داده کاوی کارا برای زیر درخت های مکرر بیشینه Efficient Data Mining for Maximal Frequent Subtrees](https://reader035.vdocument.in/reader035/viewer/2022062321/5681331c550346895d99e465/html5/thumbnails/35.jpg)
)ادامه(مراجع
3. J. Han, J. Pei, and Y. Yin. Mining frequent patterns without candidate generation. In Proceedings of the ACM SIGMOD Conference, 2000.
4. R. Agrawal and R. Srikant. Fast algorithms for mining association rules in large databases. In Proceedings of the Twentieth International Conference on Very Large Databases, pages 487–499, Santiago, Chile, 1994.
![Page 36: داده کاوی کارا برای زیر درخت های مکرر بیشینه Efficient Data Mining for Maximal Frequent Subtrees](https://reader035.vdocument.in/reader035/viewer/2022062321/5681331c550346895d99e465/html5/thumbnails/36.jpg)
سوالی که نیست؟!؟!
![Page 37: داده کاوی کارا برای زیر درخت های مکرر بیشینه Efficient Data Mining for Maximal Frequent Subtrees](https://reader035.vdocument.in/reader035/viewer/2022062321/5681331c550346895d99e465/html5/thumbnails/37.jpg)
با تشکر از توجه شما
سبحان موسوی نژاد
89 تابستان