classifier evaluation and comparison

Статистическое сравнение классификаторов намножестве наборов данных

Влад Шахуро

Факультет ВМК МГУ им. М.В.ЛомоносоваЛаборатория КГиМ

Семинар «Компьютерное зрение»

29 октября 2012 г.

1

Постановка задачи

Дано k обученных классификаторов, протестированныхна N наборов данных. Пусть cji — оценка качества j-гоклассификатора на i-м наборе данных. Предполагается, чтооценки качества классификаторов достаточно надёжны.

Требуется определить по значениям cji , являются лирезультаты классификаторов статистически различными и,в случае k > 2, определить, какие именно классификаторыотличаются по качеству.

2

Проверка гипотез

X = (X1, . . . , Xn) - данные (выборка)F — совокупность априори допустимых распределений XFX — неизвестное истинное распределение данных, FX ∈ FF0 ⊂ F — выделенное множество функций распределения

Задача проверки гипотез: необходимо по данным X проверитьсправедливость утверждения H0 : FX ∈ F0. H0 называетсянулевой гипотезой. Утверждение H1 : FX ∈ F\F0 называетсяальтернативной гипотезой.

Правило, согласно которому мы, наблюдая X, принимаемрешение принять гипотезу H0 как истинную либо принятьальтернативную гипотезу H1, называется статистическимкритерием.

3

Проверка гипотез (продолжение)

P(H1|H0) = α — вероятность ошибки I рода или уровеньзначимости (significance level) критерия

P(H0|H1) = β — вероятность ошибки II рода, 1− β —мощность критерия

На практике обычно стараются выбрать наиболее мощныйкритерий при заданном значении ошибки первого рода.

4

Проверка гипотез (продолжение)

В случае сравнения классификаторов в качестве нулевойгипотезы выступает предположение о том, что всеклассификаторы в некотором роде эквивалентны, в качествеальтернативной гипотезы — предположение о том, что хотя быдва некоторых классификатора неэквивалентны.

Критерии, включающие в себя расчёт параметроввероятностного распределения признака, называютсяпараметрическими.

Критерии, основанные на оперировании частотами и рангами,называются непараметрическими.

5

Сравнение двух классификаторов

Простейший способ сравнения множества классификаторов —выделить все возможные пары классификаторов и сравниватькаждую пару классификаторов выбранным критерием.

6

Парный критерий Стьюдента

Пусть c1i , c

2i — результаты двух классификаторов на i-м из N

наборов данных и di = c2i − c1

i — их разница.

Статистика t = d/σd распределена по закону Стьюдентас N − 1 степенью свободы. Здесь d — среднее арифметическоеразниц результатов, а σd — стандартная ошибка.

t ∼ t(N − 1)

7

Парный критерий Стьюдента (продолжение)

Недостатки критерия:— Не работает на несоизмеримых наборах данных,

отвечающих различным проблемам. Можно решить,поделив разницу на среднее значение качестваdi =

c2i−c1i(c1i +c2i )/2

— Требует, чтобы k был достаточно большим (≥ 30).В противном случае выборка должна быть взятаиз нормального распределения. Любопытно, что все тестына нормальное распределение недостаточно мощныпри таких размерах выборки

— Чувствителен к выбросам

8

Критерий УилкинсонаПроранжируем di по возрастанию модулей. Посчитаем суммырангов результатов на наборах данных, на которых одинклассификатор показал результат лучше другого.

R+ =∑di>0

rank(di) +1

2

∑di=0

rank(di)

R− =∑di<0

rank(di) +1

2

∑di=0

rank(di)

Введём статистику T = min(R+, R−). Для T при N < 25существуют таблицы точных критических значений,при больших N статистика

z =T − 1

4N(N + 1)√124N(N + 1)(2N + 1)

имеет примерно нормальное распределение.

9

Критерий Уилкинсона (продолжение)

Особенности критерия:— Работает на несоизмеримых наборах данных— Устойчив к выбросам— Не требует предположений о характере распределения

результатов классификаторов— Если выполняются условия для критерия Стьюдента,

то критерий Уилкинсона менее мощен

10

Критерий знаков

Посчитаем количество наборов данных, на которых одинклассификатор превосходит второй. Если гипотезаэквивалентности классификаторов верна, то каждыйклассификатор должен выиграть примерно N/2 раз на Nнаборах данных. Количество побед является случайнойвеличиной, распределённой по биномиальному закону.

При больших N количество побед при условии верностигипотезы распределено по нормальному закону N(N/2,

√N/2).

Тогда для проверки гипотезы эквивалентности можноиспользовать z-тест: если количество побед по меньшей мереравно N/2 +

√N , алгоритм значительно превосходит другой

алгоритм с ошибкой предсказания 5%.

11

Критерий знаков (продолжение)

Особенности критерия:— Применим к любым наборам данных, не требует

ни соизмеримости сложности данных, ни нормальностирезультатов

— Намного слабее критерия Уилкинсона, не отвергаетнулевую гипотезу до тех пор, пока исследуемый алгоритмне превосходит значительно второй алгоритм

12

Сравнение множества классификаторов

Приведенные ранее критерии не были созданы специально дляисследования множества случайный величин. В силу того, чтодля проверки нулевой гипотезы нужно сделать k(k−1)

2сравнений, определённая доля нулевых гипотез отвергаетсяиз-за погрешностей и случайностей.

В статистике существуют методы, специально предназначенныедля тестирования эквивалентности многих случайных величин.

13

ANOVA

В случае множественного сравнения классификаторов выборкаподелена на k групп с N наблюдений в каждой группе.

σ2bg =

N

k − 1

k∑j=1

(cj − c)2

σ2wg =

1

k(N − 1)

k∑j=1

N∑i=1

(cji − cj)2

σ2bg — межгрупповая дисперсия, σ2

wg — внутригрупповаядисперсия

F =σ2bg

σ2wg

∼ F (k − 1, k(N − 1))

14

ANOVA (продолжение)

Для попарного сравнения классификаторов используетсястатистика

T =

√N(ci − cj)√

2σ2wg

∼ t(k(N − 1))

Необходимые условия для теста:— Выборки должны быть взяты из нормального

распределения— Равенство дисперсий результатов каждого классификатора

15

Тест Фридмана

Тест Фридмана является непараметрическим аналогом ANOVAс повторными измерениями.Пусть rji — ранг j-го алгоритма на i-м наборе данных,Rj = 1

N

∑i r

ji - средний ранг j-го алгоритма. Если верна

гипотеза об эквивалентности алгоритмов, их средние рангитакже должны быть равны.

16

Тест Фридмана (продолжение)

Введём статистику Фридмана

χ2F =

12N

k(k + 1)

∑j

R2j −

k(k + 1)2

4

χ2F ∼ χ2(k − 1), k > 5, N > 10

Статистика Фридмана косервативна (т.е. стремитсяк недооценке). Можно ввести более надежную статистику

FF =(N − 1)χ2

F

N(k − 1)− χ2F

FF ∼ F (k − 1, (k − 1)(N − 1))

17

Тест Фридмана (продолжение)

Если тест Фридмана отвергает нулевую гипотезу, можно ввестистатистику для сравнения i-го и j-го классификаторов:

z =(Ri −Rj)√

k(k+1)6N

Статистика z имеет нормальное распределение. Значение zиспользуется для определения соответствующей вероятности(p-value) и её последующего сравнения с вероятностью αошибки I рода.

18

Корректировки вероятностей ошибок

В самом простом случае каждая гипотеза, соответствующаяпаре классификаторов, тестируется независимо от всехостальных гипотез. Более хорошие результаты даёттестирование гипотез в совокупности.

Будем контролировать ошибку на семействе гипотез(family-wise error) — вероятность совершить хотя бы однуошибку I рода при сравнении множества пар.

19

Процедуры Nemenyi и Хольма

Nemenyi: значение ошибки α делится на количествопроизведённых сравнений классификаторов m = k(k−1)

2

Хольм-Бонферрони: пусть p1, . . . , pm — упорядоченныевероятности (p-values) и H1, . . . ,Hm — соответствующиеим гипотезы. Процедура Хольма отвергает гипотезыH1, . . . ,Hi−1, если i — минимальное целое число, для котороговыполнено неравенство pi > α/(m− i+ 1).

20

Процедура Бергманна и Хоммеля

Множество индексов I ⊆ {1, . . . ,m} называетсяисчерпывающим (exhaustive), если в точности все гипотезыHj , j ∈ I, могут быть верными.

Рассмотрим это определение для трёх классификаторов.H1 : C1 ∼ C2, H2 : C2 ∼ C3, H3 : C3 ∼ C1

Из 23 возможных сочетаний гипотез исчерпывающимиявляются следующие:— Все гипотезы верны— H1 верна, H2 и H3 неверны— H2 верна, H1 и H3 неверны— H3 верна, H1 и H2 неверны— Все гипотезы неверны

21

Процедура Бергманна и Хоммеля (продолжение)

function obtainExhaustive(C = {c1, . . . , ck}):let E = ∅E = E ∪ {all possible pairwise comparisons using C}if E == ∅:

return Efor all possible divisions of C into C1 & C2, ck ∈ C2 and C1 6= ∅:E1 = obtainExhaustive(C1)E2 = obtainExhaustive(C2)foreach family of hypotheses e1 of E1:

foreach family of hypotheses e2 of E2:E = E ∪ (e1 ∪ e2)

return E

Процедура Бергманна и Хоммеля: отвергнуть гипотезу Hj ,если j 6∈ A

A =⋃{I : I − exhaustive, min{pi : i ∈ I} > α/|I|}

22

Статическая процедура Шеффера

Пусть p1, . . . , pm — упорядоченные вероятности (p-values) иH1, . . . ,Hm — соответствующие им гипотезы. Процедураотвергает гипотезы H1, . . . ,Hi−1, если i — минимальное целоечисло, для которого выполнено неравенство pi > α/ti, где ti —максимальное число гипотез, которые могут быть верны,при условии, что какая-то i− 1 гипотеза неверна. ti ∈ S(k), гдеS(k) — набор чисел возможных верных гипотез приk сравниваемых классификаторов.

S(k) =

k⋃j=1

{C2j + x : x ∈ S(k − j)

}

23

Сравнение критериев

Будем сравнивать мощности критериев косвенно черезследующие параметры:— Количество отвергнутых нулевых гипотез— Среднее значение статистики критерия (average p-value,

APV)Чем меньше значение APV, тем больше вероятностьотвергнуть нулевую гипотезу на заданном уровне доверия

— Вопроизводимость результатов — вероятность того, чтодва эксперимента на одной и той же паре алгоритмовдадут одинаковый результат (отвергнут или примутнулевую гипотезу):

R(p) = 1− 2var(p) = 1− 2

∑i(pi − p)n− 1

24

Сравнение критериев (продолжение)

При сравнении двух классификаторов сэмплированиепроизводится из нескольких наборов данных так, чтовероятность выбрать i-й набор данных пропорциональна1/(1 + e−kdi), где di — разница точности классификаторовна этом наборе данных, а k — смещённость.

25

Сравнение парных критериев

Слева: k и APV, справа: k и количество отвергнутых нулевыхгипотез

26

Сравнение множественных критериев

Слева: k, APV и R(p), справа: k и количество отвергнутыхнулевых гипотез

27

Сравнение процедур корректировки

28

Резюме

— При сравнении классификаторов на реальных данныхнепараметрические критерии более предпочтительны,т.к. они накладывают меньшие ограничения на выборкурезультатов

— Для сравнения большого количества классификаторовстоит пользоваться специализированными критериями,например, тестом Фридмана

— Для попарного сравнения классификаторов после того, какотвергнута нулевая гипотеза, стоит пользоватьсякорректировками (post hoc tests), учитывающимизависимость гипотез друг от друга

29

Список материалов

Demsar. Statistical Comparison of Classifiers over Multiple DataSets. JMLR 6 (2006).

Garcıa, Herrera. An Extension on «Statistical Comparisonof Classifiers over Multiple Data Sets» for all PairwiseComparisons. JMLR 9 (2008).

Ивченко, Медведев. Введение в математическую статистику.

http://statmaster.sdu.dk/courses/st111/module11/index.html

http://ru.wikipedia.org/wiki/F-тест

classifier evaluation and comparison

Education

c2 i n

h1 h3 h3

f ff f

x sk j j

e e1 e2

fx f f0 f

pm pvalues h1

xn f x fx