Тест манна уитни пример. U-критерий Манна-Уитни в дипломной, курсовой и магистерской работе по психологии

​ U-критерий Манна-Уитни – непараметрический статистический критерий, используемый для сравнения двух независимых выборок по уровню какого-либо признака, измеренного количественно. Метод основан на определении того, достаточно ли мала зона перекрещивающихся значений между двумя вариационными рядами (ранжированным рядом значений параметра в первой выборке и таким же во второй выборке). Чем меньше значение критерия, тем вероятнее, что различия между значениями параметра в выборках достоверны.

1. История разработки U-критерия

Данный метод выявления различий между выборками был предложен в 1945 году американским химиком и статистиком Фрэнком Уилкоксоном .
В 1947 году он был существенно переработан и расширен математиками Х.Б. Манном (H.B. Mann) и Д.Р. Уитни (D.R. Whitney), по именам которых сегодня обычно и называется.

2. Для чего используется U-критерий Манна-Уитни?

U-критерий Манна-Уитни используется для оценки различий между двумя независимыми выборками по уровню какого-либо количественного признака.

3. В каких случаях можно использовать U-критерий Манна-Уитни?

U-критерий Манна-Уитни является непараметрическим критерием, поэтому, в отличие от t-критерия Стьюдента , не требует наличия нормального распределения сравниваемых совокупностей.

U-критерий подходит для сравнения малых выборок: в каждой из выборок должно быть не менее 3 значений признака. Допускается, чтобы в одной выборке было 2 значения, но во второй тогда должно быть не менее пяти.

Условием для применения U-критерия Манна-Уитни является отсутствие в сравниваемых группах совпадающих значений признака (все числа – разные) или очень малое число таких совпадений.

Аналогом U-критерия Манна-Уитни для сравнения более двух групп является Критерий Краскела-Уоллиса .

4. Как рассчитать U-критерий Манна-Уитни?

Сначала из обеих сравниваемых выборок составляется единый ранжированный ряд , путем расставления единиц наблюдения по степени возрастания признака и присвоения меньшему значению меньшего ранга. В случае равных значений признака у нескольких единиц каждой из них присваивается среднее арифметическое последовательных значений рангов.

Например, две единицы, занимающие в едином ранжированном ряду 2 и 3 место (ранг), имеют одинаковые значения. Следовательно, каждой из них присваивается ранг равный (3 + 2) / 2 = 2,5.

В составленном едином ранжированном ряду общее количество рангов получится равным:

N = n 1 + n 2

где n 1 - количество элементов в первой выборке, а n 2 - количество элементов во второй выборке.

Далее вновь разделяем единый ранжированный ряд на два, состоящие соответственно из единиц первой и второй выборок, запоминая при этом значения рангов для каждой единицы. Подсчитываем отдельно сумму рангов, пришедшихся на долю элементов первой выборки, и отдельно - на долю элементов второй выборки. Определяем большую из двух ранговых сумм (T x ) соответствующую выборке с n x элементами.

Наконец, находим значение U-критерия Манна-Уитни по формуле:

5. Как интерпретировать значение U-критерия Манна-Уитни?

Полученное значение U-критерия сравниваем по таблице для избранного уровня статистической значимости (p=0.05 или p=0.01 ) с критическим значением U при заданной численности сопоставляемых выборок:

  • Если полученное значение U меньше табличного или равно ему, то признается статистическая значимость различий между уровнями признака в рассматриваемых выборках (принимается альтернативная гипотеза). Достоверность различий тем выше, чем меньше значение U.
  • Если же полученное значение U больше табличного, принимается нулевая гипотеза.

U-критерий Манна-Уитни чаще всего используется при обработке результатов эмпирического исследования при написании курсовых, дипломных и магистерских работ по психологии.

U-критерий Манна-Уитни - непараметрический статистический критерий. Это означает, что его требования к группам и измеренным психологическим показателям минимальны:

  1. Сравниваемые выборки не должны быть очень большими - не более 60 человек в каждой. Если группы большего объема, то лучше использовать t-критерий Стъюдента .
  2. Минимальная численность групп ограничена 3-мя испытуемыми в каждой группе.
  3. Численность сравниваемых групп может быть не одинаковой, но не должна очень сильно различаться.
  4. Психологические показатели могут быть показателями психологических тестов, школьными оценками, экспертными оценки успешности профессиональной деятельности и т.п.

Как рассчитывается U-критерий Манна-Уитни

Не вдаваясь в математические тонкости, рассмотрим логику расчёта U-критерия Манна-Уитни.

Например, в результате тестирования были получены интегральные показатели осмысленности жизни замужних и незамужних женщин . Одной из задач дипломной работы ставится выявление различий осмысленности жизни у женщин, состоящих и не состоящих в браке. Выборки небольшие (по 30 человек), поэтому можно использовать U-критерий Манна-Уитни.

Процедура расчёта U-критерия Манна-Уитни в самом общем и приближенном виде выглядит следующим образом:

  1. Показатели осмысленности жизни женщин обеих групп ранжируются (располагаются в порядке возрастания).
  2. Оба упорядоченных ряда объединяются и вновь ранжируются.
  3. Если в общем ранжированном ряду показателей осмысленности жизни показатели замужних и незамужних женщин чередуются или пересекаются, то различий, скорее всего, нет.
  4. Возможно, что в общем ранжированном ряду показателей осмысленности жизни показатели замужних и незамужних женщин слабо пересекаются. Например, показатели незамужних женщин расположены в области низких показателей осмысленности жизни, а показатели замужних - в области высоких. В этом случае, скорее всего, различия в уровне осмысленности жизни в экспериментальной и контрольной группах есть - осмысленность жизни у замужних женщин выше, чем у незамужних.

При расчете U-критерия Манна-Уитни с помощью статистических программ выдается значение самого критерия и уровень статистической значимости различий выраженности психологического показателя. Эти показатели необходимо занести в таблицу и выделить те психологические показатели, уровень значимости различий которых в группах ниже, чем 0,05.

Пример расчета U-критерия Манна-Уитни вручную

В результате психодиагностического обследования групп мужчин и женщин (по 20 человек в каждой) были выявлены показатели внутреннего сопротивления при обращении в службу знакомств (в баллах):

  • Мужчины: 45 67 45 67 88 67 56 67 78 56 45 67 89 56 4 56 74 57 89 67
  • Женщины: 70 66 66 66 63 63 61 60 54 47 13 45 56 45 34 45 34 5 62 34

В этой статье Вы узнаете, почему кроме t-теста существуют другие методы сравнения двух выборок. Начнем мы с того, что вспомним о нормальности данных и связанной с ней делением статистических тестов на две категории: параметрические и непараметрические. О последних мы поговорим более подробно: разберем три наиболее популярных теста, а также научимся их запускать в среде R.

Параметрический или непараметрический критерий различия?

Статистические методы, использующие параметры нормального распределения данных (среднее, стандартное отклонение и прочее) называются параметрическими . Так например, рассмотренный в предыдущей статье является типичным параметрическим методом. Почему? Потому, что главным условием для его проведения является нормальное распределение количественных данных. Непараметрические методы, напротив, не зависят от распределения данных и позволяют работать как с количественными, так и с порядковыми данными (например: размер обуви, шкала силы землетрясений).

При нормальном распределении данных параметрические критерии имеют большую мощность по сравнению с непараметрическими. Однако, когда данные выборок не проходят тесты нормальности (такие, как qqplot и Шапиро тест), непараметрические методы дают более точные предсказания. Особенно они эффективны с выборками небольшого размера (<100 наблюдений), на распределение которых могут влиять неизвестные факторы. Сегодня мы познакомимся с непараметрическими аналогами t-теста, использующимися также, для сравнения двух выборок. При выборе критерия следует обратить внимание на две вещи: зависимость данных выборок друг от друга и объем выборок.

На приведенном выше рисунке Вы видите упрощенную классификацию методов сравнения средних (или медиан) двух выборок. Мы кратко поговорим о каждом из непараметрических критериев, и научимся применять их в среде R. Чтож, приступим!

Критерий Уилкоксона

Начнем знакомство с непараметрических тестов для зависимых выборок. Прежде всего стоит отметить, что выборки называются зависимыми, когда испытуемые одной и той же группы были протестированы в разные моменты времени с меняющимися (1) или неменяющимися (2) условиями эксперимента. В первом случае проверяется эффект какого либо действия в сравнении с контрольным измерением ("до и после"), во втором - повторяемость результатов эксперимента ("контроль-повтор").

Тест Уилкоксона (от английского "Wilcoxon signed-rank test") является широко используемым и эффективным методом выявления различий между медианами двух зависимых выборок с распределением данных отличным от нормального. Он идеально подходит для сравнения маленьких выборок, где количество испытуемых/исследований больше 5, но меньше 50. Как и для всех критериев, рассмотренных в этой статье, данные могут быть как количественными, так и порядковыми. Метод был разработан в 1945 году американским статистиком и химиком Фрэнком Уилкоксоном (фото справа).

Чтобы запустить тест Уилкоксона в среде R следует загрузить данные выборок и ввести следующую команду:

wilcox.test("выборка_1", "выборка_2" , paired = T)

Как и в t-тесте, в непараметрических статистических тестах внутри скобок можно добавить дополнительные параметры, такие как alternative , conf.int , conf.level . Чтобы посмотреть все аргументы функции, поставьте перед ней знак вопроса, в нашем случае: ?wilcox.test

G-критерий знаков

Если же количество исследований в выборке больше 50, то следует использовать G-критерий знаков. Критерий знаков по статистической мощности уступает Уилкоксону, но превосходит большинство других непараметрических аналогов. Данные выборок должны быть зависимыми, количество исследований в выборке от 5, но не более 300 (про механизм расчетов и ограничения метода можно почитать ).

Провести тест в R не сложно, но потребуется сделать несколько манипуляций с данными. Сначала мы загрузим данные двух зависимых выборок, например систолическое (верхнее) давление до и после применения лекарства у 60 пациентов-гипертоников. Загрузим данные "before" и "after" в среду R. Затем визуализируем их.

before <- c(171.2, 169.8, 154.6, 130.9, 158.5, 145.5, 143.5, 144.7, 147.7, 160.7, 154.7, 181.8, 167.2, 137.4, 180.2, 138.7, 159.9, 141.8, 172.2, 167.0, 137.2, 170.9, 168.4, 163.7, 160.1, 163.5, 146.7, 173.9, 180.1, 136.0, 159.0, 145.6, 186.5, 177.7, 167.7, 167.4, 165.9, 147.2, 165.2, 133.3, 175.0, 174.7, 163.0, 154.1, 189.4, 166.5, 153.0, 134.3, 177.1, 150.4, 152.4, 176.2, 160.3, 135.3, 131.2, 172.1, 137.0, 156.6, 178.5, 168.1) after <- c(179.5, 141.9, 124.7, 103.2, 143.1, 146.0, 132.2, 104.9, 145.3, 123.5, 135.2, 176.2, 142.7, 114.1, 171.9, 115.0, 126.4, 108.0, 171.7, 148.8, 103.5, 178.5, 138.9, 150.0, 131.8, 169.2, 131.4, 138.8, 146.2, 116.1, 148.8, 109.2, 186.3, 164.1, 147.3, 165.3, 140.0, 122.6, 174.4, 104.6, 156.6, 175.3, 126.8, 122.6, 184.0, 139.6, 149.4, 105.3, 181.9, 134.6, 129.4, 148.0, 170.2, 144.2, 133.3, 171.8, 118.4, 131.2, 150.0, 131.0) boxplot(before, after, col = c(6,5), main = "The effect of treatment", outer = TRUE) axis(1, at=1:2, labels=c("before","after"))

Затем найдем разность между векторами "before" и "after" и назовем новый вектор "difference", после чего при помощи команды length узнаем его длину. Так как нас интересует, снижает ли лекарство давление у пациентов, мы узнаем какое количество элементов в векторе "difference" больше нуля. Это количество принято называть числом "успехов".

difference <- before - after difference length(difference) length(difference)

Теперь все готово для того, чтобы запустить G-критерий знаков в R. Для этого воспользуемся командой binom.test , где в параметрах функции укажем сначала число "успехов", затем число исследований в выборке.

binom.test(50, 60)

Нулевая гипотеза говорит о том, что медианы выборок статистически не отличаются, альтернативная - что статистические различия есть. В нашем случае p-value значительно меньше 0.05, поэтому мы можем с уверенностью отвергнуть нулевую гипотезу и принять альтернативую: две выборки статистически отличаются друг от друга. Также мы видим, что у 83% пациентов давление снизилось. Для демонстрации статистической значимости результатов эксперимента, просто добавьте к графику надпись p-value < 0.001.

Критерий Манна-Уитни

Этот тест также был изначально разработан и опубликован Уилкоксоном в 1945 году. Однако спустя два года его существенно усовершенствовали два математика, в честь которых и был назван критерий. В отличие от двух предыдущих критериев, тест Манна-Уитни используется при сравнении двух независимых выборок , также имеющих отклонения от нормального распределения. Подробнее об алгоритме расчета данного критерия можете почитать в этой статье .

Запустить тест Манна-Уитни в R крайне просто, используем уже известную нам функцию "wilcox.test" и убираем из скобок "paired = T":

wilcox.test("выборка_1", "выборка_2" )

Однако при проведении этого метода необходимо соблюдать два условия. Во-первых, одинаковые значения в выборке должны быть сведены к минимуму (все числа должны быть разными). Во-вторых, в каждой выборке должно быть не менее трех исследований (минимум 3 и 3, также допускается 5 и 2).

Заключение

Непараметрических методов существует великое множество, сегодня мы познакомились лишь с тремя наиболее используемыми критериями для сравнения двух выборок. В среде R эти тесты запустить довольно просто, поэтому главный акцент в выборе метода следует делать на его пригодность к решению конкретно Вашей задачи.

Ограничения критерия

Назначение критерия

Непараметрический критерий Манна-Уитни

U - критерий Манна-Уитни предназначен для оценки различий между двумя выборками по уровню какого-либо признака, измеренного начиная со шкалы порядка (не ниже). Он позволяет выявлять различия между малыми выборками, когда n 1 , n 2 ³ 3 или n 1 = 2, n 2 ³ 5, и является более мощным, чем критерий Розенбаума.

Этот метод определяет, достаточно ли мала зона перекрещивающихся значений между двумя рядами упорядоченных значений. При этом 1-м рядом (выборкой группой) называется тот ряд значений, в котором значения, по предварительной оценке, выше, а 2-м рядом - тот, где они предположительно ниже.

Чем меньше область перекрещивающихся значений, тем более вероятно, что различия достоверны. Иногда эти различия называют различиями в расположении двух выборок.

Расчетное (эмпирическое) значение критерия U отражает то, насколько велика зона совпадения между рядами. Поэтому чем меньше U эмп. , тем более вероятно, что различия достоверны.

1. Признак должен быть измерен по ординальной, интервальной или пропорциональной шкале.

2. Выборки должны быть независимыми.

3. В каждой выборке должно быть не менее 3 наблюдений: n 1 , n 2 ³ 3 ; допускается, чтобы в одной выборке было 2 наблюдения, но тогда во второй их должно быть не менее 5.

4. В каждой выборке должно быть не более 60 наблюдений: n 1 , n 2 £ 60. Однако уже при n 1 , n 2 ³ 20 ранжирование становится достаточно трудоемким.

1. Для расчета критерия необходимо мысленно все значения 1-й выборки и 2-й выборки объединить в одну общую объединенную выборку и упорядочить их.

Все расчеты удобно производить в таблице (таблица 16), состоящей из 4-х столбцов. В эту таблицу заносятся упорядоченные значения объединенной выборки.

При этом:

a) значения объединенной выборки упорядочиваются по нарастанию значений;

b) значения каждой из выборок записываются в свой столбик: значения 1-й выборки записываются в столбик № 2, значения 2-й выборки записываются в столбик № 3;

c) каждое значение записывается на отдельной строчке;

d) общее число строк в этой таблице равно N=n 1 +n 2 , где n 1 - число испытуемых в 1-й выборке, n 2 - число испытуемых во 2-й выборке

Таблица 16

R 1 x y R 2
1 2 3 4
7,5
7,5
….. …..
….. …..
∑=28,5 ….. ….. ∑=16,5


2. Значения объединенной выборки ранжируются согласно правилам ранжирования, причем в столбике № 1 записываются ранги R 1 соответствующие значениям 1-й выборки, в столбике № 4 - ранги R 2 , соответствующие значениям 2-й выборки,

3. Подсчитывается сумма рангов отдельно по столбику № 1 (для выборки 1) и отдельно по столбику № 4 (для выборки 2). Обязательно проверить, совпадает ли общая сумма рангов с расчетной суммой рангов для объединенной выборки.

4. Определить бόльшую из двух ранговых сумм. Обозначим ее как Т х.

5. Определить расчетное значение критерия U по формуле:

где n 1 - количество испытуемых в выборке 1,

n 2 - количество испытуемых в выборке 2,

T x - бόльшая из двух ранговых сумм,

n x - количество испытуемых в выборке с бόльшей суммой рангов.

6. Правило вывода: Определить критические значения U по таблице критических значений для критерия Манна-Уитни (см. приложение 1.4) в зависимости от n 1 и n 2 .

Если U эмп. > U кр. 0,05 , различия между выборками статистически незначимы.

Если U эмп. £ U кр. 0,05 , различия между выборками статистически достоверны.

Чем меньше значения U, тем достоверность различий выше.

Критерий U Манна - Уитни

Назначение критерия. Критерий предназначен для оценки различий между двумя выборками по уровню какого-либо признака, количественно измеренного. Он позволяет выявлять различия между малыми выборками, когда п 1, п 2 > 3 или п Л = 2, п 2 > 5, и является более мощным, чем критерий Q Розенбаума.

Этот метод определяет, достаточно ли мала зона перекрещивающихся значений между двумя рядами. Мы помним, что 1-м рядом (выборкой, группой) мы называем тот ряд значений, в котором значения, по предварительной оценке, выше, а 2-м рядом - тот, где они предположительно ниже.

Чем меньше область перекрещивающихся значений, тем более вероятно, что различия достоверны. Иногда эти различия называют различиями в расположении двух выборок. Эмпирическое значение критерия и отражает то, насколько велика зона совпадения между рядами. Поэтому чем меньше t/ 3Mn , тем более вероятно, что различия достоверны.

Гипотезы.

Уровень невербального интеллекта в группе студентов физиков выше, чем в группе студентов-психологов.

Графическое представление критерия U. Па рис. 7.25 представлены три из множества возможных вариантов соотношения двух рядов значений.

В варианте (а) второй ряд ниже первого, и ряды почти не перекрещиваются. Область наложения (S j) слишком мала, чтобы скрадывать различия между рядами. Есть шанс, что различия между ними достоверны. Точно определить это мы сможем с помощью критерия U.

В варианте (б) второй ряд тоже ниже первого, но и область перекрещивающихся значений у двух рядов достаточно обширна (5 2). Она может еще не достигать критической величины, когда различия придется признать несущественными. Но так ли это, можно определить только путем точного подсчета критерия U.

В варианте (в) второй ряд ниже первого, но область наложения настолько обширна (5 3), что различия между рядами скрадываются.

Рис. 7.25.

в двух выборках

Примечание. Перекрытием (5 t , S 2 , *$з) обозначены зоны возможного наложения. Ограничения критерия U.

  • 1. В каждой выборке должно быть не менее трех наблюдений: n v п 2 > 3; допускается, чтобы в одной выборке было два наблюдения, но тогда во второй их должно быть не менее 5.
  • 2. В каждой выборке должно быть не более 60 наблюдений; п л, п 2 щ, п 2 > 20 ранжирование становится достаточно трудоемким.

Вернемся к результатам обследования студентов физического и психологического факультетов Ленинградского университета с помощью методики Д. Векслера для измерения вербального и невербального интеллекта. С помощью критерия Q Розенбаума было с высоким уровнем значимости определено, что уровень вербального интеллекта в выборке студентов физического факультета выше. Попытаемся установить теперь, воспроизводится ли этот результат при сопоставлении выборок по уровню невербального интеллекта. Данные приведены в таблице.

2 ниже уровня признака в выборке 1 на достоверно значимом уровне. Чем меньше значения U, тем достоверность различий выше.

Теперь проделаем всю эту работу на материале нашего примера. В результате работы по 1-6 шагам алгоритма построим таблицу (табл. 7.4).

Таблица 7.4

Подсчет ранговых сумм по выборкам студентов физического и психологического факультетов

Студенты-физики (п = 14)

Студенты-психологи (п= 12)

Показатель невербального интеллекта

Средние 107,2

Общая сумма рангов: 165 + 186 = 351. Расчетная сумма по формуле (5.1) такова:

Равенство реальной и расчетной сумм соблюдено. Мы видим, что по уровню невербального интеллекта более «высоким» рядом окалывается выборка студентов-психологов. Именно на эту выборку приходится большая ранговая сумма: 186. Теперь мы готовы сформулировать статистические гипотезы:

Я 0: группа студентов-психологов не превосходит группу студентов- физиков по уровню невербального интеллекта;

Я,: группа студентов-психологов превосходит группу студентов-физи- ков по уровню невербального интеллекта.

В соответствии со следующим шагом алгоритма определяем эмпирическую величину U :

Поскольку в нашем случае п л * п 2 , подсчитаем эмпирическую величину U и для второй ранговой суммы (165), подставляя в формулу (7.4) соответствующее ей п х.:

По приложению 8 определяем критические значения для п л = 14, п 2 = 12:

Мы помним, что критерий U является одним из двух исключений из общего правила принятия решения о достоверности различий, а именно, мы можем констатировать достоверные различия, если {/ эмп U Kp 0 05 (при ^эмп = 60, и шп > U Kf) о,05).

Следовательно, Н 0 принимается следующей: группа студентов-психологов не превосходит группы студентов-физиков по уровню невербального интеллекта.

Обратим внимание на то, что для данного случая Q-критерий Розенбаума неприменим, так как размах вариативности в группе физиков шире, чем в группе психологов: и самое высокое, и самое низкое значения невербального интеллекта приходятся на группу физиков (см. табл. 7.4).