classifier evaluation and comparison
TRANSCRIPT
![Page 1: Classifier evaluation and comparison](https://reader033.vdocument.in/reader033/viewer/2022052823/55509582b4c9058b208b45a5/html5/thumbnails/1.jpg)
Статистическое сравнение классификаторов намножестве наборов данных
Влад Шахуро
Факультет ВМК МГУ им. М.В.ЛомоносоваЛаборатория КГиМ
Семинар «Компьютерное зрение»
29 октября 2012 г.
![Page 2: Classifier evaluation and comparison](https://reader033.vdocument.in/reader033/viewer/2022052823/55509582b4c9058b208b45a5/html5/thumbnails/2.jpg)
1
Постановка задачи
Дано k обученных классификаторов, протестированныхна N наборов данных. Пусть cji — оценка качества j-гоклассификатора на i-м наборе данных. Предполагается, чтооценки качества классификаторов достаточно надёжны.
Требуется определить по значениям cji , являются лирезультаты классификаторов статистически различными и,в случае k > 2, определить, какие именно классификаторыотличаются по качеству.
![Page 3: Classifier evaluation and comparison](https://reader033.vdocument.in/reader033/viewer/2022052823/55509582b4c9058b208b45a5/html5/thumbnails/3.jpg)
2
Проверка гипотез
X = (X1, . . . , Xn) - данные (выборка)F — совокупность априори допустимых распределений XFX — неизвестное истинное распределение данных, FX ∈ FF0 ⊂ F — выделенное множество функций распределения
Задача проверки гипотез: необходимо по данным X проверитьсправедливость утверждения H0 : FX ∈ F0. H0 называетсянулевой гипотезой. Утверждение H1 : FX ∈ F\F0 называетсяальтернативной гипотезой.
Правило, согласно которому мы, наблюдая X, принимаемрешение принять гипотезу H0 как истинную либо принятьальтернативную гипотезу H1, называется статистическимкритерием.
![Page 4: Classifier evaluation and comparison](https://reader033.vdocument.in/reader033/viewer/2022052823/55509582b4c9058b208b45a5/html5/thumbnails/4.jpg)
3
Проверка гипотез (продолжение)
P(H1|H0) = α — вероятность ошибки I рода или уровеньзначимости (significance level) критерия
P(H0|H1) = β — вероятность ошибки II рода, 1− β —мощность критерия
На практике обычно стараются выбрать наиболее мощныйкритерий при заданном значении ошибки первого рода.
![Page 5: Classifier evaluation and comparison](https://reader033.vdocument.in/reader033/viewer/2022052823/55509582b4c9058b208b45a5/html5/thumbnails/5.jpg)
4
Проверка гипотез (продолжение)
В случае сравнения классификаторов в качестве нулевойгипотезы выступает предположение о том, что всеклассификаторы в некотором роде эквивалентны, в качествеальтернативной гипотезы — предположение о том, что хотя быдва некоторых классификатора неэквивалентны.
Критерии, включающие в себя расчёт параметроввероятностного распределения признака, называютсяпараметрическими.
Критерии, основанные на оперировании частотами и рангами,называются непараметрическими.
![Page 6: Classifier evaluation and comparison](https://reader033.vdocument.in/reader033/viewer/2022052823/55509582b4c9058b208b45a5/html5/thumbnails/6.jpg)
5
Сравнение двух классификаторов
Простейший способ сравнения множества классификаторов —выделить все возможные пары классификаторов и сравниватькаждую пару классификаторов выбранным критерием.
![Page 7: Classifier evaluation and comparison](https://reader033.vdocument.in/reader033/viewer/2022052823/55509582b4c9058b208b45a5/html5/thumbnails/7.jpg)
6
Парный критерий Стьюдента
Пусть c1i , c
2i — результаты двух классификаторов на i-м из N
наборов данных и di = c2i − c1
i — их разница.
Статистика t = d/σd распределена по закону Стьюдентас N − 1 степенью свободы. Здесь d — среднее арифметическоеразниц результатов, а σd — стандартная ошибка.
t ∼ t(N − 1)
![Page 8: Classifier evaluation and comparison](https://reader033.vdocument.in/reader033/viewer/2022052823/55509582b4c9058b208b45a5/html5/thumbnails/8.jpg)
7
Парный критерий Стьюдента (продолжение)
Недостатки критерия:— Не работает на несоизмеримых наборах данных,
отвечающих различным проблемам. Можно решить,поделив разницу на среднее значение качестваdi =
c2i−c1i(c1i +c2i )/2
— Требует, чтобы k был достаточно большим (≥ 30).В противном случае выборка должна быть взятаиз нормального распределения. Любопытно, что все тестына нормальное распределение недостаточно мощныпри таких размерах выборки
— Чувствителен к выбросам
![Page 9: Classifier evaluation and comparison](https://reader033.vdocument.in/reader033/viewer/2022052823/55509582b4c9058b208b45a5/html5/thumbnails/9.jpg)
8
Критерий УилкинсонаПроранжируем di по возрастанию модулей. Посчитаем суммырангов результатов на наборах данных, на которых одинклассификатор показал результат лучше другого.
R+ =∑di>0
rank(di) +1
2
∑di=0
rank(di)
R− =∑di<0
rank(di) +1
2
∑di=0
rank(di)
Введём статистику T = min(R+, R−). Для T при N < 25существуют таблицы точных критических значений,при больших N статистика
z =T − 1
4N(N + 1)√124N(N + 1)(2N + 1)
имеет примерно нормальное распределение.
![Page 10: Classifier evaluation and comparison](https://reader033.vdocument.in/reader033/viewer/2022052823/55509582b4c9058b208b45a5/html5/thumbnails/10.jpg)
9
Критерий Уилкинсона (продолжение)
Особенности критерия:— Работает на несоизмеримых наборах данных— Устойчив к выбросам— Не требует предположений о характере распределения
результатов классификаторов— Если выполняются условия для критерия Стьюдента,
то критерий Уилкинсона менее мощен
![Page 11: Classifier evaluation and comparison](https://reader033.vdocument.in/reader033/viewer/2022052823/55509582b4c9058b208b45a5/html5/thumbnails/11.jpg)
10
Критерий знаков
Посчитаем количество наборов данных, на которых одинклассификатор превосходит второй. Если гипотезаэквивалентности классификаторов верна, то каждыйклассификатор должен выиграть примерно N/2 раз на Nнаборах данных. Количество побед является случайнойвеличиной, распределённой по биномиальному закону.
При больших N количество побед при условии верностигипотезы распределено по нормальному закону N(N/2,
√N/2).
Тогда для проверки гипотезы эквивалентности можноиспользовать z-тест: если количество побед по меньшей мереравно N/2 +
√N , алгоритм значительно превосходит другой
алгоритм с ошибкой предсказания 5%.
![Page 12: Classifier evaluation and comparison](https://reader033.vdocument.in/reader033/viewer/2022052823/55509582b4c9058b208b45a5/html5/thumbnails/12.jpg)
11
Критерий знаков (продолжение)
Особенности критерия:— Применим к любым наборам данных, не требует
ни соизмеримости сложности данных, ни нормальностирезультатов
— Намного слабее критерия Уилкинсона, не отвергаетнулевую гипотезу до тех пор, пока исследуемый алгоритмне превосходит значительно второй алгоритм
![Page 13: Classifier evaluation and comparison](https://reader033.vdocument.in/reader033/viewer/2022052823/55509582b4c9058b208b45a5/html5/thumbnails/13.jpg)
12
Сравнение множества классификаторов
Приведенные ранее критерии не были созданы специально дляисследования множества случайный величин. В силу того, чтодля проверки нулевой гипотезы нужно сделать k(k−1)
2сравнений, определённая доля нулевых гипотез отвергаетсяиз-за погрешностей и случайностей.
В статистике существуют методы, специально предназначенныедля тестирования эквивалентности многих случайных величин.
![Page 14: Classifier evaluation and comparison](https://reader033.vdocument.in/reader033/viewer/2022052823/55509582b4c9058b208b45a5/html5/thumbnails/14.jpg)
13
ANOVA
В случае множественного сравнения классификаторов выборкаподелена на k групп с N наблюдений в каждой группе.
σ2bg =
N
k − 1
k∑j=1
(cj − c)2
σ2wg =
1
k(N − 1)
k∑j=1
N∑i=1
(cji − cj)2
σ2bg — межгрупповая дисперсия, σ2
wg — внутригрупповаядисперсия
F =σ2bg
σ2wg
∼ F (k − 1, k(N − 1))
![Page 15: Classifier evaluation and comparison](https://reader033.vdocument.in/reader033/viewer/2022052823/55509582b4c9058b208b45a5/html5/thumbnails/15.jpg)
14
ANOVA (продолжение)
Для попарного сравнения классификаторов используетсястатистика
T =
√N(ci − cj)√
2σ2wg
∼ t(k(N − 1))
Необходимые условия для теста:— Выборки должны быть взяты из нормального
распределения— Равенство дисперсий результатов каждого классификатора
![Page 16: Classifier evaluation and comparison](https://reader033.vdocument.in/reader033/viewer/2022052823/55509582b4c9058b208b45a5/html5/thumbnails/16.jpg)
15
Тест Фридмана
Тест Фридмана является непараметрическим аналогом ANOVAс повторными измерениями.Пусть rji — ранг j-го алгоритма на i-м наборе данных,Rj = 1
N
∑i r
ji - средний ранг j-го алгоритма. Если верна
гипотеза об эквивалентности алгоритмов, их средние рангитакже должны быть равны.
![Page 17: Classifier evaluation and comparison](https://reader033.vdocument.in/reader033/viewer/2022052823/55509582b4c9058b208b45a5/html5/thumbnails/17.jpg)
16
Тест Фридмана (продолжение)
Введём статистику Фридмана
χ2F =
12N
k(k + 1)
∑j
R2j −
k(k + 1)2
4
χ2F ∼ χ2(k − 1), k > 5, N > 10
Статистика Фридмана косервативна (т.е. стремитсяк недооценке). Можно ввести более надежную статистику
FF =(N − 1)χ2
F
N(k − 1)− χ2F
FF ∼ F (k − 1, (k − 1)(N − 1))
![Page 18: Classifier evaluation and comparison](https://reader033.vdocument.in/reader033/viewer/2022052823/55509582b4c9058b208b45a5/html5/thumbnails/18.jpg)
17
Тест Фридмана (продолжение)
Если тест Фридмана отвергает нулевую гипотезу, можно ввестистатистику для сравнения i-го и j-го классификаторов:
z =(Ri −Rj)√
k(k+1)6N
Статистика z имеет нормальное распределение. Значение zиспользуется для определения соответствующей вероятности(p-value) и её последующего сравнения с вероятностью αошибки I рода.
![Page 19: Classifier evaluation and comparison](https://reader033.vdocument.in/reader033/viewer/2022052823/55509582b4c9058b208b45a5/html5/thumbnails/19.jpg)
18
Корректировки вероятностей ошибок
В самом простом случае каждая гипотеза, соответствующаяпаре классификаторов, тестируется независимо от всехостальных гипотез. Более хорошие результаты даёттестирование гипотез в совокупности.
Будем контролировать ошибку на семействе гипотез(family-wise error) — вероятность совершить хотя бы однуошибку I рода при сравнении множества пар.
![Page 20: Classifier evaluation and comparison](https://reader033.vdocument.in/reader033/viewer/2022052823/55509582b4c9058b208b45a5/html5/thumbnails/20.jpg)
19
Процедуры Nemenyi и Хольма
Nemenyi: значение ошибки α делится на количествопроизведённых сравнений классификаторов m = k(k−1)
2
Хольм-Бонферрони: пусть p1, . . . , pm — упорядоченныевероятности (p-values) и H1, . . . ,Hm — соответствующиеим гипотезы. Процедура Хольма отвергает гипотезыH1, . . . ,Hi−1, если i — минимальное целое число, для котороговыполнено неравенство pi > α/(m− i+ 1).
![Page 21: Classifier evaluation and comparison](https://reader033.vdocument.in/reader033/viewer/2022052823/55509582b4c9058b208b45a5/html5/thumbnails/21.jpg)
20
Процедура Бергманна и Хоммеля
Множество индексов I ⊆ {1, . . . ,m} называетсяисчерпывающим (exhaustive), если в точности все гипотезыHj , j ∈ I, могут быть верными.
Рассмотрим это определение для трёх классификаторов.H1 : C1 ∼ C2, H2 : C2 ∼ C3, H3 : C3 ∼ C1
Из 23 возможных сочетаний гипотез исчерпывающимиявляются следующие:— Все гипотезы верны— H1 верна, H2 и H3 неверны— H2 верна, H1 и H3 неверны— H3 верна, H1 и H2 неверны— Все гипотезы неверны
![Page 22: Classifier evaluation and comparison](https://reader033.vdocument.in/reader033/viewer/2022052823/55509582b4c9058b208b45a5/html5/thumbnails/22.jpg)
21
Процедура Бергманна и Хоммеля (продолжение)
function obtainExhaustive(C = {c1, . . . , ck}):let E = ∅E = E ∪ {all possible pairwise comparisons using C}if E == ∅:
return Efor all possible divisions of C into C1 & C2, ck ∈ C2 and C1 6= ∅:E1 = obtainExhaustive(C1)E2 = obtainExhaustive(C2)foreach family of hypotheses e1 of E1:
foreach family of hypotheses e2 of E2:E = E ∪ (e1 ∪ e2)
return E
Процедура Бергманна и Хоммеля: отвергнуть гипотезу Hj ,если j 6∈ A
A =⋃{I : I − exhaustive, min{pi : i ∈ I} > α/|I|}
![Page 23: Classifier evaluation and comparison](https://reader033.vdocument.in/reader033/viewer/2022052823/55509582b4c9058b208b45a5/html5/thumbnails/23.jpg)
22
Статическая процедура Шеффера
Пусть p1, . . . , pm — упорядоченные вероятности (p-values) иH1, . . . ,Hm — соответствующие им гипотезы. Процедураотвергает гипотезы H1, . . . ,Hi−1, если i — минимальное целоечисло, для которого выполнено неравенство pi > α/ti, где ti —максимальное число гипотез, которые могут быть верны,при условии, что какая-то i− 1 гипотеза неверна. ti ∈ S(k), гдеS(k) — набор чисел возможных верных гипотез приk сравниваемых классификаторов.
S(k) =
k⋃j=1
{C2j + x : x ∈ S(k − j)
}
![Page 24: Classifier evaluation and comparison](https://reader033.vdocument.in/reader033/viewer/2022052823/55509582b4c9058b208b45a5/html5/thumbnails/24.jpg)
23
Сравнение критериев
Будем сравнивать мощности критериев косвенно черезследующие параметры:— Количество отвергнутых нулевых гипотез— Среднее значение статистики критерия (average p-value,
APV)Чем меньше значение APV, тем больше вероятностьотвергнуть нулевую гипотезу на заданном уровне доверия
— Вопроизводимость результатов — вероятность того, чтодва эксперимента на одной и той же паре алгоритмовдадут одинаковый результат (отвергнут или примутнулевую гипотезу):
R(p) = 1− 2var(p) = 1− 2
∑i(pi − p)n− 1
![Page 25: Classifier evaluation and comparison](https://reader033.vdocument.in/reader033/viewer/2022052823/55509582b4c9058b208b45a5/html5/thumbnails/25.jpg)
24
Сравнение критериев (продолжение)
При сравнении двух классификаторов сэмплированиепроизводится из нескольких наборов данных так, чтовероятность выбрать i-й набор данных пропорциональна1/(1 + e−kdi), где di — разница точности классификаторовна этом наборе данных, а k — смещённость.
![Page 26: Classifier evaluation and comparison](https://reader033.vdocument.in/reader033/viewer/2022052823/55509582b4c9058b208b45a5/html5/thumbnails/26.jpg)
25
Сравнение парных критериев
Слева: k и APV, справа: k и количество отвергнутых нулевыхгипотез
![Page 27: Classifier evaluation and comparison](https://reader033.vdocument.in/reader033/viewer/2022052823/55509582b4c9058b208b45a5/html5/thumbnails/27.jpg)
26
Сравнение множественных критериев
Слева: k, APV и R(p), справа: k и количество отвергнутыхнулевых гипотез
![Page 28: Classifier evaluation and comparison](https://reader033.vdocument.in/reader033/viewer/2022052823/55509582b4c9058b208b45a5/html5/thumbnails/28.jpg)
27
Сравнение процедур корректировки
![Page 29: Classifier evaluation and comparison](https://reader033.vdocument.in/reader033/viewer/2022052823/55509582b4c9058b208b45a5/html5/thumbnails/29.jpg)
28
Резюме
— При сравнении классификаторов на реальных данныхнепараметрические критерии более предпочтительны,т.к. они накладывают меньшие ограничения на выборкурезультатов
— Для сравнения большого количества классификаторовстоит пользоваться специализированными критериями,например, тестом Фридмана
— Для попарного сравнения классификаторов после того, какотвергнута нулевая гипотеза, стоит пользоватьсякорректировками (post hoc tests), учитывающимизависимость гипотез друг от друга
![Page 30: Classifier evaluation and comparison](https://reader033.vdocument.in/reader033/viewer/2022052823/55509582b4c9058b208b45a5/html5/thumbnails/30.jpg)
29
Список материалов
Demsar. Statistical Comparison of Classifiers over Multiple DataSets. JMLR 6 (2006).
Garcıa, Herrera. An Extension on «Statistical Comparisonof Classifiers over Multiple Data Sets» for all PairwiseComparisons. JMLR 9 (2008).
Ивченко, Медведев. Введение в математическую статистику.
http://statmaster.sdu.dk/courses/st111/module11/index.html
http://ru.wikipedia.org/wiki/F-тест