feature selection methodsresearch.iaun.ac.ir/pd/mahmoodian/pdfs/uploadfile_3429.pdf ·...

15
Feature Selection Methods

Upload: others

Post on 03-Feb-2021

9 views

Category:

Documents


0 download

TRANSCRIPT

  • Feature Selection Methods

  • انتخاب ویژگی در برابر استخراج ویژگی•

  • Filters,Wrappers, andEmbedded methods

    All features FilterFeature subset Predictor

    All features

    Wrapper

    Multiple Feature subsets

    Predictor

    All featuresEmbedded method

    Feature subset

    Predictor

  • استراتژی های مبتنی بر جستجو

    (Sequential Forward Selection (SFSروش جستجوی رو به جلو •

    (Sequential Backward Selection (SBSروش جستجوی رو به عقب •

    (Sequential Floating Selection (SFSروش جستجوی شناور•

    قلمداد میگردد الزم است تابع هزینه Wrapperدر روشهای جستجو که جزء روشهای •طبقه بندی مثال در مسئله. تعیین گردد تا براساس صورت مسئله ماکزیمم یا مینیمم گردد

    .میزان صحت میتواند مد نظر قرارگیرد

    .تاز معایب این روش ها افزایش نمایی حجم محاسبات با زیاد شدن تعداد ویژگیها اس•

  • Forward Selection (embedded)

    Start

    n

    n-1

    n-2

    1

    ا مجموعه ویژگیها با مجموعه تهی شروع شده و ابتدا ب

    ه تک تک ویژگیها آغاز میگردد و تابع هزینه محاسب

    های ویژگی برنده شده، انتخاب شده و تمام حالت. میشود

    ینه ممکن با دومین ویژگی محاسیه شده و مجددا تابع هز

    ن محاسبه شده و برترین مجموعه انتخاب میگردد و ای

    رین مسیر تا تمام ویژگیها به سمت جلو رفته تا بهت

    .مجموعه انتخاب گردد

  • Backward Elimination (wrapper)

    1

    n-2

    n-1

    n

    Start

    ا مجموعه ویژگیها با تمام ویژگیها آغاز شده و ابتدا ب

    ینه خارج شدن تک تک ویژگیها آغاز میگردد و تابع هز

    شده مجموعه ویژگی برنده شده، انتخاب. محاسبه میشود

    ن و تمام حالتهای ممکن با تمام حالتها که با حذف دومی

    ابع ویژگی ایجاد میگردد در نظر گرفته شده و مجددا ت

    ین هزینه محاسبه و برترین مجموعه انتخاب میگردد و ا

    رین مسیر تا تمام ویژگیها به سمت عقب رفته تا بهت

    .مجموعه انتخاب گردد

  • :عیب دو روش بیان شده در قبل بصورت زیر است•

    .در روش رو به جلو چنانچه ویژگی در انتخاب گردد دیگر امکان در حذف شدن ندارد•

    در روش رو به عقب چنانچه ویژگی حذف گردد دیگر امکان اضافه شدن به مجموعه •.ندارد

    ده شده به این منظور از روش شناور استفاده میگردد که در مراجع معرفی شده توضیح دا•.است

  • روشهای آماری

    یکی از روشهای انتخاب ویژگی در روشهای فیلتر استفاده از پارامترهای آماری •به عنوان مثال برای یک مجموعه . است(within class)ویژگیهای درون هر کالس

    کیک دو رابطه زیر میتواند ویژگیها را براساس میزان قدرت آنها در تف( دو طبقه)باینری :طبقه رتبه بندی کند

    𝑅𝑎𝑛𝑘 𝑜𝑓 𝑖𝑡ℎ𝑓𝑒𝑎𝑡𝑢𝑟𝑒 = 𝑅𝑎 =𝜇𝑖1 − 𝜇𝑖2𝜎𝑖1 + 𝜎𝑖2

    میانگین مقادیر همین 𝜇𝑖1ام در طبقه اول و 𝑖میانگین مقادیر ویژگی 𝜇𝑖1در این رابطه ر نیز به ترتیب انحراف معیار مقادیر این ویژگی د𝜎𝑖2و 𝜎𝑖1. ویژگی در طبقه دوم است

    .این دو طبقه میباشد

    .بزرگتر باشد بیانگر قدرت بیشتر ویژگی در جداسازی است𝑅𝑎هرچه

  • روش مبتنی بر محاسبه میزان اطالعات و اطالعات متقابل

    • Consider two discrete random variables (,)

    • (In)Dependence often measured by MI

    • Also known as cross-entropy or information gain• Examples

    • Inference of Bayesian nets, classification trees• Selection of relevant variables for the task at hand

    ,, of chancejoint jiij sjri ,,1 and ,,1

    iiji of chance marginal j jijj of chance marginal i

    ij

    ji

    ijijI

    log0 π

  • Empirical Mutual Informationa common way to use MI in practice

    • Data ( ) contingency table

    • Empirical (sample) probability:• Empirical mutual information:

    • Problems of the empirical approach• due to random fluctuations? (finite sample)• How to know if it is reliable, e.g. by

    j\i 1 2 … r

    1 n11 n12 … n1r

    2 n21 n22 … n2r

    s ns1 ns2 … nsr

    M M M MO

    occurred times of# i,jnij

    occurred times of# i nnj iji

    occurred times of# j nn

    i ijj

    sizedataset ij ijnn

    nnijij ̂ π̂I

    0ˆ πI ?nIP

    n

  • استفاده از تعریف همبستگی

    بقه در این روش معموال میزان همبستگی هر ویژگی با لیبلهای تعریف شده برای هر ط•ترین مطابق با تعریف همبستگی پیرسون سنجیده شده و ویژگیهایی که دارای بیش

    .را دارند برای ایجاد مدل استفاده میشوند( از لحاظ قدر مطلق)همبستگی

  • روشهای ماکزیمم ارتباط و مینیمم تکراری

    بیشترین در این روش ویژگیها به نحوی مرتب میشوند که ویژگیهای با رتبه باالتر دارای•گی های دیگر همبستگی با لیبل طبقه ها داشته و در ضمن کمترین همبستگی را نیز با ویژ

    .داشته باشند

    .به عنوان مثال رابطه زیر میتواند بیانگر این روش باشد•

  • استفاده از پارامترهای آماری درمدلهایی با چند طبقه

    ا از برای انتخاب ویژگی با استفاده از روشهای آماری برای مدلهایی با چند طبقه عمدت•استفاده میگردد که در روش (Scatter Matrix)روشهای مبتنی برماتریس گستردگی

    LDAبیان میشود.

  • PCAانتخاب ویژگی براساس

    PCAمجموعه اسالید در فایل •

  • LDAانتخاب ویژگی براساس

    LDAمجموعه اسالید در فایل •