U-критерий Манна-Уитни – непараметрический статистический критерий, используемый для сравнения двух независимых выборок по уровню какого-либо признака, измеренного количественно. Метод основан на определении того, достаточно ли мала зона перекрещивающихся значений между двумя вариационными рядами (ранжированным рядом значений параметра в первой выборке и таким же во второй выборке). Чем меньше значение критерия, тем вероятнее, что различия между значениями параметра в выборках достоверны.
1. История разработки U-критерия
Данный метод выявления различий между выборками был предложен в 1945 году американским химиком и статистиком Фрэнком Уилкоксоном
.
В 1947 году он был существенно переработан и расширен математиками Х.Б. Манном
(H.B. Mann) и Д.Р. Уитни
(D.R. Whitney), по именам которых сегодня обычно и называется.
![](https://i0.wp.com/medstatistic.ru/theory/mann.jpg)
2. Для чего используется U-критерий Манна-Уитни?
U-критерий Манна-Уитни используется для оценки различий между двумя независимыми выборками по уровню какого-либо количественного признака.
3. В каких случаях можно использовать U-критерий Манна-Уитни?
U-критерий Манна-Уитни является непараметрическим критерием, поэтому, в отличие от t-критерия Стьюдента , не требует наличия нормального распределения сравниваемых совокупностей.
U-критерий подходит для сравнения малых выборок: в каждой из выборок должно быть не менее 3 значений признака. Допускается, чтобы в одной выборке было 2 значения, но во второй тогда должно быть не менее пяти.
Условием для применения U-критерия Манна-Уитни является отсутствие в сравниваемых группах совпадающих значений признака (все числа – разные) или очень малое число таких совпадений.
Аналогом U-критерия Манна-Уитни для сравнения более двух групп является Критерий Краскела-Уоллиса .
4. Как рассчитать U-критерий Манна-Уитни?
Сначала из обеих сравниваемых выборок составляется единый ранжированный ряд , путем расставления единиц наблюдения по степени возрастания признака и присвоения меньшему значению меньшего ранга. В случае равных значений признака у нескольких единиц каждой из них присваивается среднее арифметическое последовательных значений рангов.
Например, две единицы, занимающие в едином ранжированном ряду 2 и 3 место (ранг), имеют одинаковые значения. Следовательно, каждой из них присваивается ранг равный (3 + 2) / 2 = 2,5.
В составленном едином ранжированном ряду общее количество рангов получится равным:
N = n 1 + n 2где n 1 - количество элементов в первой выборке, а n 2 - количество элементов во второй выборке.
Далее вновь разделяем единый ранжированный ряд на два, состоящие соответственно из единиц первой и второй выборок, запоминая при этом значения рангов для каждой единицы. Подсчитываем отдельно сумму рангов, пришедшихся на долю элементов первой выборки, и отдельно - на долю элементов второй выборки. Определяем большую из двух ранговых сумм (T x ) соответствующую выборке с n x элементами.
Наконец, находим значение U-критерия Манна-Уитни по формуле:
5. Как интерпретировать значение U-критерия Манна-Уитни?
Полученное значение U-критерия сравниваем по таблице для избранного уровня статистической значимости (p=0.05 или p=0.01 ) с критическим значением U при заданной численности сопоставляемых выборок:
- Если полученное значение U меньше табличного или равно ему, то признается статистическая значимость различий между уровнями признака в рассматриваемых выборках (принимается альтернативная гипотеза). Достоверность различий тем выше, чем меньше значение U.
- Если же полученное значение U больше табличного, принимается нулевая гипотеза.
U-критерий Манна-Уитни чаще всего используется при обработке результатов эмпирического исследования при написании курсовых, дипломных и магистерских работ по психологии.
U-критерий Манна-Уитни - непараметрический статистический критерий. Это означает, что его требования к группам и измеренным психологическим показателям минимальны:
- Сравниваемые выборки не должны быть очень большими - не более 60 человек в каждой. Если группы большего объема, то лучше использовать t-критерий Стъюдента .
- Минимальная численность групп ограничена 3-мя испытуемыми в каждой группе.
- Численность сравниваемых групп может быть не одинаковой, но не должна очень сильно различаться.
- Психологические показатели могут быть показателями психологических тестов, школьными оценками, экспертными оценки успешности профессиональной деятельности и т.п.
Как рассчитывается U-критерий Манна-Уитни
Не вдаваясь в математические тонкости, рассмотрим логику расчёта U-критерия Манна-Уитни.
Например, в результате тестирования были получены интегральные показатели осмысленности жизни замужних и незамужних женщин . Одной из задач дипломной работы ставится выявление различий осмысленности жизни у женщин, состоящих и не состоящих в браке. Выборки небольшие (по 30 человек), поэтому можно использовать U-критерий Манна-Уитни.
Процедура расчёта U-критерия Манна-Уитни в самом общем и приближенном виде выглядит следующим образом:
- Показатели осмысленности жизни женщин обеих групп ранжируются (располагаются в порядке возрастания).
- Оба упорядоченных ряда объединяются и вновь ранжируются.
- Если в общем ранжированном ряду показателей осмысленности жизни показатели замужних и незамужних женщин чередуются или пересекаются, то различий, скорее всего, нет.
- Возможно, что в общем ранжированном ряду показателей осмысленности жизни показатели замужних и незамужних женщин слабо пересекаются. Например, показатели незамужних женщин расположены в области низких показателей осмысленности жизни, а показатели замужних - в области высоких. В этом случае, скорее всего, различия в уровне осмысленности жизни в экспериментальной и контрольной группах есть - осмысленность жизни у замужних женщин выше, чем у незамужних.
При расчете U-критерия Манна-Уитни с помощью статистических программ выдается значение самого критерия и уровень статистической значимости различий выраженности психологического показателя. Эти показатели необходимо занести в таблицу и выделить те психологические показатели, уровень значимости различий которых в группах ниже, чем 0,05.
Пример расчета U-критерия Манна-Уитни вручную
В результате психодиагностического обследования групп мужчин и женщин (по 20 человек в каждой) были выявлены показатели внутреннего сопротивления при обращении в службу знакомств (в баллах):
- Мужчины: 45 67 45 67 88 67 56 67 78 56 45 67 89 56 4 56 74 57 89 67
- Женщины: 70 66 66 66 63 63 61 60 54 47 13 45 56 45 34 45 34 5 62 34
В этой статье Вы узнаете, почему кроме t-теста существуют другие методы сравнения двух выборок. Начнем мы с того, что вспомним о нормальности данных и связанной с ней делением статистических тестов на две категории: параметрические и непараметрические. О последних мы поговорим более подробно: разберем три наиболее популярных теста, а также научимся их запускать в среде R.
Параметрический или непараметрический критерий различия?
Статистические методы, использующие параметры нормального распределения данных (среднее, стандартное отклонение и прочее) называются параметрическими . Так например, рассмотренный в предыдущей статье является типичным параметрическим методом. Почему? Потому, что главным условием для его проведения является нормальное распределение количественных данных. Непараметрические методы, напротив, не зависят от распределения данных и позволяют работать как с количественными, так и с порядковыми данными (например: размер обуви, шкала силы землетрясений).
При нормальном распределении данных параметрические критерии имеют большую мощность по сравнению с непараметрическими. Однако, когда данные выборок не проходят тесты нормальности (такие, как qqplot и Шапиро тест), непараметрические методы дают более точные предсказания. Особенно они эффективны с выборками небольшого размера (<100 наблюдений), на распределение которых могут влиять неизвестные факторы. Сегодня мы познакомимся с непараметрическими аналогами t-теста, использующимися также, для сравнения двух выборок. При выборе критерия следует обратить внимание на две вещи: зависимость данных выборок друг от друга и объем выборок.
На приведенном выше рисунке Вы видите упрощенную классификацию методов сравнения средних (или медиан) двух выборок. Мы кратко поговорим о каждом из непараметрических критериев, и научимся применять их в среде R. Чтож, приступим!
Критерий Уилкоксона
Начнем знакомство с непараметрических тестов для зависимых выборок. Прежде всего стоит отметить, что выборки называются зависимыми, когда испытуемые одной и той же группы были протестированы в разные моменты времени с меняющимися (1) или неменяющимися (2) условиями эксперимента. В первом случае проверяется эффект какого либо действия в сравнении с контрольным измерением ("до и после"), во втором - повторяемость результатов эксперимента ("контроль-повтор").
Тест Уилкоксона (от английского "Wilcoxon signed-rank test") является широко используемым и эффективным методом выявления различий между медианами двух зависимых выборок с распределением данных отличным от нормального. Он идеально подходит для сравнения маленьких выборок, где количество испытуемых/исследований больше 5, но меньше 50. Как и для всех критериев, рассмотренных в этой статье, данные могут быть как количественными, так и порядковыми. Метод был разработан в 1945 году американским статистиком и химиком Фрэнком Уилкоксоном (фото справа).
Чтобы запустить тест Уилкоксона в среде R следует загрузить данные выборок и ввести следующую команду:
wilcox.test("выборка_1", "выборка_2" , paired = T)Как и в t-тесте, в непараметрических статистических тестах внутри скобок можно добавить дополнительные параметры, такие как alternative , conf.int , conf.level . Чтобы посмотреть все аргументы функции, поставьте перед ней знак вопроса, в нашем случае: ?wilcox.test
G-критерий знаков
Если же количество исследований в выборке больше 50, то следует использовать G-критерий знаков. Критерий знаков по статистической мощности уступает Уилкоксону, но превосходит большинство других непараметрических аналогов. Данные выборок должны быть зависимыми, количество исследований в выборке от 5, но не более 300 (про механизм расчетов и ограничения метода можно почитать ).
Провести тест в R не сложно, но потребуется сделать несколько манипуляций с данными. Сначала мы загрузим данные двух зависимых выборок, например систолическое (верхнее) давление до и после применения лекарства у 60 пациентов-гипертоников. Загрузим данные "before" и "after" в среду R. Затем визуализируем их.
before <- c(171.2, 169.8, 154.6, 130.9, 158.5, 145.5, 143.5, 144.7, 147.7, 160.7, 154.7, 181.8, 167.2, 137.4, 180.2, 138.7, 159.9, 141.8, 172.2, 167.0, 137.2, 170.9, 168.4, 163.7, 160.1, 163.5, 146.7, 173.9, 180.1, 136.0, 159.0, 145.6, 186.5, 177.7, 167.7, 167.4, 165.9, 147.2, 165.2, 133.3, 175.0, 174.7, 163.0, 154.1, 189.4, 166.5, 153.0, 134.3, 177.1, 150.4, 152.4, 176.2, 160.3, 135.3, 131.2, 172.1, 137.0, 156.6, 178.5, 168.1) after <- c(179.5, 141.9, 124.7, 103.2, 143.1, 146.0, 132.2, 104.9, 145.3, 123.5, 135.2, 176.2, 142.7, 114.1, 171.9, 115.0, 126.4, 108.0, 171.7, 148.8, 103.5, 178.5, 138.9, 150.0, 131.8, 169.2, 131.4, 138.8, 146.2, 116.1, 148.8, 109.2, 186.3, 164.1, 147.3, 165.3, 140.0, 122.6, 174.4, 104.6, 156.6, 175.3, 126.8, 122.6, 184.0, 139.6, 149.4, 105.3, 181.9, 134.6, 129.4, 148.0, 170.2, 144.2, 133.3, 171.8, 118.4, 131.2, 150.0, 131.0) boxplot(before, after, col = c(6,5), main = "The effect of treatment", outer = TRUE) axis(1, at=1:2, labels=c("before","after"))Затем найдем разность между векторами "before" и "after" и назовем новый вектор "difference", после чего при помощи команды length узнаем его длину. Так как нас интересует, снижает ли лекарство давление у пациентов, мы узнаем какое количество элементов в векторе "difference" больше нуля. Это количество принято называть числом "успехов".
difference <- before - after difference length(difference) length(difference)Теперь все готово для того, чтобы запустить G-критерий знаков в R. Для этого воспользуемся командой binom.test , где в параметрах функции укажем сначала число "успехов", затем число исследований в выборке.
binom.test(50, 60)Нулевая гипотеза говорит о том, что медианы выборок статистически не отличаются, альтернативная - что статистические различия есть. В нашем случае p-value значительно меньше 0.05, поэтому мы можем с уверенностью отвергнуть нулевую гипотезу и принять альтернативую: две выборки статистически отличаются друг от друга. Также мы видим, что у 83% пациентов давление снизилось. Для демонстрации статистической значимости результатов эксперимента, просто добавьте к графику надпись p-value < 0.001.
Критерий Манна-Уитни
Этот тест также был изначально разработан и опубликован Уилкоксоном в 1945 году. Однако спустя два года его существенно усовершенствовали два математика, в честь которых и был назван критерий. В отличие от двух предыдущих критериев, тест Манна-Уитни используется при сравнении двух независимых выборок , также имеющих отклонения от нормального распределения. Подробнее об алгоритме расчета данного критерия можете почитать в этой статье .
Запустить тест Манна-Уитни в R крайне просто, используем уже известную нам функцию "wilcox.test" и убираем из скобок "paired = T":
wilcox.test("выборка_1", "выборка_2" )Однако при проведении этого метода необходимо соблюдать два условия. Во-первых, одинаковые значения в выборке должны быть сведены к минимуму (все числа должны быть разными). Во-вторых, в каждой выборке должно быть не менее трех исследований (минимум 3 и 3, также допускается 5 и 2).
Заключение
Непараметрических методов существует великое множество, сегодня мы познакомились лишь с тремя наиболее используемыми критериями для сравнения двух выборок. В среде R эти тесты запустить довольно просто, поэтому главный акцент в выборе метода следует делать на его пригодность к решению конкретно Вашей задачи.
Ограничения критерия
Назначение критерия
Непараметрический критерий Манна-Уитни
U - критерий Манна-Уитни предназначен для оценки различий между двумя выборками по уровню какого-либо признака, измеренного начиная со шкалы порядка (не ниже). Он позволяет выявлять различия между малыми выборками, когда n 1 , n 2 ³ 3 или n 1 = 2, n 2 ³ 5, и является более мощным, чем критерий Розенбаума.
Этот метод определяет, достаточно ли мала зона перекрещивающихся значений между двумя рядами упорядоченных значений. При этом 1-м рядом (выборкой группой) называется тот ряд значений, в котором значения, по предварительной оценке, выше, а 2-м рядом - тот, где они предположительно ниже.
Чем меньше область перекрещивающихся значений, тем более вероятно, что различия достоверны. Иногда эти различия называют различиями в расположении двух выборок.
Расчетное (эмпирическое) значение критерия U отражает то, насколько велика зона совпадения между рядами. Поэтому чем меньше U эмп. , тем более вероятно, что различия достоверны.
1. Признак должен быть измерен по ординальной, интервальной или пропорциональной шкале.
2. Выборки должны быть независимыми.
3. В каждой выборке должно быть не менее 3 наблюдений: n 1 , n 2 ³ 3 ; допускается, чтобы в одной выборке было 2 наблюдения, но тогда во второй их должно быть не менее 5.
4. В каждой выборке должно быть не более 60 наблюдений: n 1 , n 2 £ 60. Однако уже при n 1 , n 2 ³ 20 ранжирование становится достаточно трудоемким.
1. Для расчета критерия необходимо мысленно все значения 1-й выборки и 2-й выборки объединить в одну общую объединенную выборку и упорядочить их.
Все расчеты удобно производить в таблице (таблица 16), состоящей из 4-х столбцов. В эту таблицу заносятся упорядоченные значения объединенной выборки.
При этом:
a) значения объединенной выборки упорядочиваются по нарастанию значений;
b) значения каждой из выборок записываются в свой столбик: значения 1-й выборки записываются в столбик № 2, значения 2-й выборки записываются в столбик № 3;
c) каждое значение записывается на отдельной строчке;
d) общее число строк в этой таблице равно N=n 1 +n 2 , где n 1 - число испытуемых в 1-й выборке, n 2 - число испытуемых во 2-й выборке
Таблица 16
R 1 | x | y | R 2 |
1 | 2 | 3 | 4 |
7,5 | |||
7,5 | |||
….. | ….. | ||
….. | ….. | ||
∑=28,5 | ….. | ….. | ∑=16,5 |
2. Значения объединенной выборки ранжируются согласно правилам ранжирования, причем в столбике № 1 записываются ранги R 1 соответствующие значениям 1-й выборки, в столбике № 4 - ранги R 2 , соответствующие значениям 2-й выборки,
3. Подсчитывается сумма рангов отдельно по столбику № 1 (для выборки 1) и отдельно по столбику № 4 (для выборки 2). Обязательно проверить, совпадает ли общая сумма рангов с расчетной суммой рангов для объединенной выборки.
4. Определить бόльшую из двух ранговых сумм. Обозначим ее как Т х.
5. Определить расчетное значение критерия U по формуле:
где n 1 - количество испытуемых в выборке 1,
n 2 - количество испытуемых в выборке 2,
T x - бόльшая из двух ранговых сумм,
n x - количество испытуемых в выборке с бόльшей суммой рангов.
6. Правило вывода: Определить критические значения U по таблице критических значений для критерия Манна-Уитни (см. приложение 1.4) в зависимости от n 1 и n 2 .
Если U эмп. > U кр. 0,05 , различия между выборками статистически незначимы.
Если U эмп. £ U кр. 0,05 , различия между выборками статистически достоверны.
Чем меньше значения U, тем достоверность различий выше.
Критерий U Манна - Уитни
Назначение критерия. Критерий предназначен для оценки различий между двумя выборками по уровню какого-либо признака, количественно измеренного. Он позволяет выявлять различия между малыми выборками, когда п 1, п 2 > 3 или п Л = 2, п 2 > 5, и является более мощным, чем критерий Q Розенбаума.
Этот метод определяет, достаточно ли мала зона перекрещивающихся значений между двумя рядами. Мы помним, что 1-м рядом (выборкой, группой) мы называем тот ряд значений, в котором значения, по предварительной оценке, выше, а 2-м рядом - тот, где они предположительно ниже.
Чем меньше область перекрещивающихся значений, тем более вероятно, что различия достоверны. Иногда эти различия называют различиями в расположении двух выборок. Эмпирическое значение критерия и отражает то, насколько велика зона совпадения между рядами. Поэтому чем меньше t/ 3Mn , тем более вероятно, что различия достоверны.
Гипотезы.
Уровень невербального интеллекта в группе студентов физиков выше, чем в группе студентов-психологов.
Графическое представление критерия U. Па рис. 7.25 представлены три из множества возможных вариантов соотношения двух рядов значений.
В варианте (а) второй ряд ниже первого, и ряды почти не перекрещиваются. Область наложения (S j) слишком мала, чтобы скрадывать различия между рядами. Есть шанс, что различия между ними достоверны. Точно определить это мы сможем с помощью критерия U.
В варианте (б) второй ряд тоже ниже первого, но и область перекрещивающихся значений у двух рядов достаточно обширна (5 2). Она может еще не достигать критической величины, когда различия придется признать несущественными. Но так ли это, можно определить только путем точного подсчета критерия U.
В варианте (в) второй ряд ниже первого, но область наложения настолько обширна (5 3), что различия между рядами скрадываются.
Рис. 7.25.
в двух выборках
Примечание. Перекрытием (5 t , S 2 , *$з) обозначены зоны возможного наложения. Ограничения критерия U.
- 1. В каждой выборке должно быть не менее трех наблюдений: n v п 2 > 3; допускается, чтобы в одной выборке было два наблюдения, но тогда во второй их должно быть не менее 5.
- 2. В каждой выборке должно быть не более 60 наблюдений; п л, п 2 щ, п 2 > 20 ранжирование становится достаточно трудоемким.
Вернемся к результатам обследования студентов физического и психологического факультетов Ленинградского университета с помощью методики Д. Векслера для измерения вербального и невербального интеллекта. С помощью критерия Q Розенбаума было с высоким уровнем значимости определено, что уровень вербального интеллекта в выборке студентов физического факультета выше. Попытаемся установить теперь, воспроизводится ли этот результат при сопоставлении выборок по уровню невербального интеллекта. Данные приведены в таблице.
2 ниже уровня признака в выборке 1 на достоверно значимом уровне. Чем меньше значения U, тем достоверность различий выше.
Теперь проделаем всю эту работу на материале нашего примера. В результате работы по 1-6 шагам алгоритма построим таблицу (табл. 7.4).
Таблица 7.4
Подсчет ранговых сумм по выборкам студентов физического и психологического факультетов
Студенты-физики (п = 14) |
Студенты-психологи (п= 12) |
||
Показатель невербального интеллекта |
|||
Средние 107,2 |
Общая сумма рангов: 165 + 186 = 351. Расчетная сумма по формуле (5.1) такова:
![](https://i0.wp.com/studme.org/htm/img/20/1520/59.png)
Равенство реальной и расчетной сумм соблюдено. Мы видим, что по уровню невербального интеллекта более «высоким» рядом окалывается выборка студентов-психологов. Именно на эту выборку приходится большая ранговая сумма: 186. Теперь мы готовы сформулировать статистические гипотезы:
Я 0: группа студентов-психологов не превосходит группу студентов- физиков по уровню невербального интеллекта;
Я,: группа студентов-психологов превосходит группу студентов-физи- ков по уровню невербального интеллекта.
В соответствии со следующим шагом алгоритма определяем эмпирическую величину U :
Поскольку в нашем случае п л * п 2 , подсчитаем эмпирическую величину U и для второй ранговой суммы (165), подставляя в формулу (7.4) соответствующее ей п х.:
![](https://i0.wp.com/studme.org/htm/img/20/1520/61.png)
По приложению 8 определяем критические значения для п л = 14, п 2 = 12:
Мы помним, что критерий U является одним из двух исключений из общего правила принятия решения о достоверности различий, а именно, мы можем констатировать достоверные различия, если {/ эмп U Kp 0 05 (при ^эмп = 60, и шп > U Kf) о,05).
Следовательно, Н 0 принимается следующей: группа студентов-психологов не превосходит группы студентов-физиков по уровню невербального интеллекта.
Обратим внимание на то, что для данного случая Q-критерий Розенбаума неприменим, так как размах вариативности в группе физиков шире, чем в группе психологов: и самое высокое, и самое низкое значения невербального интеллекта приходятся на группу физиков (см. табл. 7.4).