2 критерії. П.2

13.10.2021

Лекція 6 Аналіз двох вибірок

6.1 Параметричні критерії. 1

6.1.2 Критерій Стьюдента ( t-критерій) 2

6.1.3 F – критерій Фішера. 6

6.2 Непараметричні критерії. 7

6.2.1 Критерій знаків ( G-критерій) 7

Наступним завданням статистичного аналізу, яка вирішується після визначення основних (вибіркових) характеристик та аналізу однієї вибірки, є спільний аналіз кількох вибірок. Найважливішим питанням, що виникає під час аналізу двох вибірок, є питання про відмінності між вибірками. Зазвичай при цьому проводять перевірку статистичних гіпотез про належність обох вибірок однієї генеральної сукупності чи рівність середніх.

Якщо вид розподілу чи функція розподілу вибірки нам задані, то цьому випадку завдання оцінки відмінностей двох груп незалежних спостережень може вирішуватися з використанням параметричних критеріївстатистики: або критерію Стьюдента ( t ), якщо порівняння вибірок ведеться за середніми значеннями ( X та У), або з використанням критерію Фішера ( F ), якщо порівняння вибірок ведеться з їхньої дисперсіям.

Використання параметричних критеріїв статистики без попередньої перевірки виду розподілу може призвести до певних помилокпід час перевірки робочої гіпотези.

Для подолання зазначених труднощів у практиці педагогічних досліджень слід використовувати непараметричні критерії статистики , такі, як критерій знаків, двовибірковий критерій Вілкоксона, критерій Ван дер Вардена, критерій Спірмена, вибір яких, хоч і не вимагає великої кількості членів вибірки та знань, виду розподілу, але все ж залежить від цілого ряду умов.

Непараметричні критерії статистики - вільні від припущення про закон розподілу вибірок та базуються на припущенні про незалежність спостережень.

6.1 Параметричні критерії

До групи параметричних критеріїв методів математичної статистики входять методи обчислення описових статистик, побудови графіків на нормальність розподілу, перевірка гіпотез про належність двох вибірок однієї сукупності. Ці методи ґрунтуються на припущенні, що розподіл вибірок підпорядковується нормальному (гаусовому) закону розподілу. Серед параметричних критеріїв статистики нами буде розглянуто критерій Стьюдента та Фішера.

6.1.1 Методи перевірки вибірки на нормальність

Щоб визначити, чи маємо ми справу з нормальним розподілом, можна застосовувати такі методи:

1) у межах осей можна намалювати полігон частоти (емпіричну функцію розподілу) та криву нормального розподілуз урахуванням даних дослідження. Досліджуючи форми кривої нормального розподілу та графіка емпіричної функції розподілу, можна з'ясувати ті параметри, якими остання крива відрізняється від першої;

2) обчислюється середня, медіанаі мода та на основі цього визначається відхилення від нормального розподілу.Якщо мода, медіана та середнє арифметичне один від одного значно не відрізняються, ми маємо справу з нормальним розподілом. Якщо медіана значно відрізняється від середнього, ми маємо справу з асиметричною вибіркою.

3) ексцес кривої розподілу повинен дорівнювати 0. Криві позитивним ексцесом значно вертикальніший за криву нормального розподілу. Криві з негативним ексцесом є більш похилими порівняно з кривою нормального розподілу;

4) після визначення середнього значення розподілу частоти і стандартного відхилення знаходять наступні чотири інтервали розподілу порівнюють їх із дійсними даними ряду:

а) - до інтервалу має належати близько 25% частоти сукупності,

б) - до інтервалу має належати близько 50% частоти сукупності,

в) - до інтервалу має належати близько 75% частоти сукупності,

г) - до інтервалу має належати близько 100% частоти сукупності.

6.1.2 Критерій Стьюдента ( t-критерій)

Критерій дозволяє знайти ймовірність того, що обидва середні значення у вибірці відносяться до однієї і тієї ж сукупності. Цей критерій найчастіше використовується для перевірки гіпотези: «Середні дві вибірки відносяться до однієї і тієї ж сукупності».

При використанні критерію можна виділити два випадки. У першому випадку його застосовують для перевірки гіпотези про рівність генеральних середніх двох незалежних, непов'язанихвибірок (так званий двовибірковий t-критерій). У цьому випадку є контрольна група та експериментальна (дослідна) група, кількість випробуваних у групах може бути різною.

У другому випадку, коли одна і та ж група об'єктів породжує числовий матеріал для перевірки гіпотез про середні, використовується так званий парний t-критерій. Вибірки при цьому називають залежними, пов'язаними.

а) випадок незалежних вибірок

Статистика критерію для випадку непов'язаних, незалежних вибірок дорівнює:

де , - середні арифметичні в експериментальній та контрольній групах,

Стандартна помилка різниці середніх арифметичних. Знаходиться з формули:

,(2)

де n 1 та n 2 відповідно величини першої та другої вибірки.

Якщо n 1 =n 2 то стандартна помилка різниці середніх арифметичних буде вважатися за формулою:

(3)

де величина вибірки.

Підрахунок числа ступенів свободиздійснюється за формулою:

k = n 1 + n 2 - 2. (4)

За чисельної рівності вибірок k = 2 n - 2.

Далі необхідно порівняти отримане значення t-емп з теоретичним значенням t-розподілу Стьюдента (див. додаток до підручників статистики). Якщо t емп

Розглянемо приклад використання t -Критерія Стьюдента для нескладних і нерівних за чисельністю вибірок

приклад 1 .У двох групах учнів - експериментальної та контрольної - отримано такі результати з навчального предмета (тестові бали; див. табл. 1).

Таблиця 1. Результати експерименту

Перша група (експериментальна) N 1 = 11 осіб

Друга група (контрольна)

N 2 = 9 осіб

121413161191315151814

Загальна кількість членів вибірки: n1=11, n2=9.

Розрахунок середніх арифметичних: Х порівн =13,636; Y ср =9,444

Стандартне відхилення: x =2,460; s y =2,186

За формулою (2) розраховуємо стандартну помилку різниці арифметичних середніх:

Вважаємо статистику критерію:

Порівнюємо отримане в експерименті значення t з табличним значенням з урахуванням ступенів свободи, рівних за формулою (4) числу випробуваних мінус два (18).

Табличне значення t крит дорівнює 2,1 при допущенні можливості ризику зробити помилкове судження в п'яти випадках із ста (рівень значущості = 5% або 0,05).

Якщо отримане експериментально емпіричне значення t перевищує табличне, тобто підстави прийняти альтернативну гіпотезу (H 1) у тому, що учні експериментальної групи показують у середньому вищий рівень знань. В експерименті t=3,981, табличне t=2,10, 3,981>2,10, звідки слідує висновок про перевагу експериментального навчання.

Тут можуть виникнути такі питання :

1. Що якщо отримане в досліді значення t виявиться меншим за табличний? Тоді треба прийняти нульову гіпотезу.

2. Чи доведено перевагу експериментального методу? Не так доведено, скільки показано, тому що з самого початку допускається ризик помилитися в п'яти випадках зі ста (р = 0,05). Наш експеримент міг бути одним із цих п'яти випадків. Але 95% можливих випадків каже на користь альтернативної гіпотези, а це досить переконливий аргумент у статистичному доказі.

3. Що якщо в контрольній групі результати виявляться вищими, ніж в експериментальній? Поміняємо, наприклад, місцями, зробивши середньої арифметичної експериментальної групи, a - контрольної:

Звідси випливає, що новий метод поки не виявив себе з хорошого боку з різних, можливо, причин. Оскільки абсолютне значення 3,9811>2,1, приймається друга альтернативна гіпотеза (Н2) про перевагу традиційного методу.

б) випадок пов'язаних (парних) вибірок

У разі пов'язаних вибірок з рівним числом вимірювань у кожній можна використовувати простішу формулу t-критерію Стьюдента.

Обчислення значення t здійснюється за такою формулою:

де - різниці між відповідними значеннями змінної X і змінної У, а d - середнє цих різниць;

Sd обчислюється за такою формулою:

(6)

Число ступенів свободи kвизначається за такою формулою k=n -1. Розглянемо приклад використання t-критерію Стьюдента для зв'язкових і, очевидно, рівних за чисельністю вибірок.

Якщо t емп

Приклад 2. Вивчався рівень орієнтації учнів на художньо-естетичні цінності. З метою активізації формування цієї орієнтації в експериментальній групі проводилися бесіди, виставки дитячих малюнків, було організовано відвідування музеїв та картинних галерей, проведено зустрічі з музикантами, художниками та ін. Закономірно постає питання: яка ефективність проведеної роботи? З метою перевірки ефективності цієї роботи до початку експерименту і після цього давався тест. З методичних міркувань таблиці 2 наводяться результати небагатьох випробуваних.

Таблиця 2. Результати експерименту

Учні

(n = 10)

Бали

Допоміжні розрахунки

до початку експерименту (Х)

в кінці

експерименту (У)

d

d 2

Іванов

Новіков

Сидорів

Пирогів

Агапов

Суворов

Рижиків

Сєров

Сокир

Бистров

Середнє

14,8

21,1

Спочатку зробимо розрахунок за формулою:

Потім застосуємо формулу (6), отримаємо:

І, нарешті, слід застосувати формулу (5). Отримаємо:

Число ступенів свободи: k =10-1=9 і за таблицею Додатка 1 знаходимо t крит =2.262, експериментальне t=6,678, звідки слід можливість прийняття альтернативної гіпотези (H 1) про достовірні відмінності середніх арифметичних, тобто робиться висновок про ефективності експериментального впливу

У термінах статистичних гіпотез отриманий результат звучатиме так: на 5% рівні гіпотеза Н 0 відхиляється і приймається гіпотеза Н 1 .

6.1.3 F – критерій Фішера

Критерій Фішерадозволяє порівнювати величини вибіркових дисперсій двох незалежних вибірок. Для обчислення F емп потрібно знайти відношення дисперсій двох вибірок, причому так, щоб більша за величиною дисперсія знаходилася б у чисельнику, а менша – у знаменнику. Формула обчислення критерію Фішера така:

де - дисперсії першої та другої вибірки відповідно.

Так як, згідно з умовою критерію, величина чисельника повинна бути більшою або дорівнює величині знаменника, то значення F емп завжди буде більше або дорівнює одиниці.

Число ступенів свободи визначається також просто:

k 1 =n l - 1для першої вибірки (тобто для тієї вибірки, величина дисперсії якої більша) і k 2 =n 2 - 1для другої вибірки.

У Додатку 1 критичні значення критерію Фішера знаходяться за величинами k 1 (верхній рядок таблиці) та k 2 (лівий стовпець таблиці).

Якщо t эмп >t критий, то нульова гіпотеза приймається, інакше приймається альтернативна.

приклад 3.У двох третіх класах проводилося тестування розумового розвитку на тесті ТУРМШ десяти учнів. Отримані значення середніх величин достовірно не розрізнялися, проте психолога цікавить питання - чи є відмінності в ступені однорідності показників розумового розвитку між класами.

Рішення. Для критерію Фішера необхідно порівняти дисперсії тестових оцінок обох класах. Результати тестування представлені у таблиці:

Таблиця 3.

№№ учнів

Перший клас

Другий клас

Суми

Середнє

60,6

63,6

Розрахувавши дисперсії для змінних X та Y, отримуємо:

s x 2 = 572,83; s y 2 = 174,04

Тоді за формулою (8) для розрахунку за F критерієм Фішера знаходимо:

За таблицею з Додатка 1 для F критерію при ступенях свободи в обох випадках рівних k =10 - 1 = 9 знаходимо F крит =3,18 (<3.29), следовательно, в терминах статистических гипотез можно утвер­ждать, что Н 0 (гипотеза о сходстве) может быть отвергнута на уровне 5%, а принимается в этом случае гипотеза Н 1 . Иc следователь может утверждать, что по степени однородности такого показа­теля, как умственное развитие, имеется различие между выбор­ками из двух классов.

6.2 Непараметричні критерії

Порівнюючи на вічко (за відсотковими співвідношеннями) результати до і після будь-якого впливу, дослідник приходить до висновку, що якщо спостерігаються відмінності, то має різницю в порівнюваних вибірках. Подібний підхід категорично неприйнятний, тому що для відсотків не можна визначити рівень достовірності у відмінностях. Відсотки, взяті власними силами, не дають можливості робити статистично достовірні висновки. Щоб довести ефективність будь-якого впливу, необхідно виявити статистично значиму тенденцію у зміщенні показників. Для вирішення подібних завдань дослідник може використовувати низку критеріїв відмінності. Нижче буде розглянуто непараметричні критерії: критерій знаків та критерій хі-квадрат.

6.2.1 Критерій знаків ( G-критерій)

Критерій призначений для порівняння стану деякої якості у членів двох залежних вибірокна основі вимірювань, зроблених за шкалою не нижче за рангову.

Є дві серії спостережень над випадковими змінними X та У, отримані при розгляді двох залежних вибірок. На їх основі складено N пар виду (х i , у i ), де х i , у i - результати дворазового виміру однієї й тієї ж властивості в одного й того самого об'єкта.

У педагогічних дослідженнях об'єктами вивчення можуть бути учні, вчителі, адміністрація шкіл. При цьому х i , у i можуть бути, наприклад, баловими оцінками, виставленими вчителем за дворазове виконання однієї і тієї ж або різних робіт однією і тією ж групою учнів до і після застосування деякого педагогічного засобу.

Елементи кожної пари х i , у i порівнюються між собою за величиною, і парі надається знак «+» , якщо х i< у i , знак «-» , якщо х i > у i і «0» , якщо х i = у i.

Нульова гіпотеза формулюються наступним чином: у стані досліджуваної властивості немає значних відмінностей при первинному та вторинному вимірах. Альтернативна гіпотеза: закони розподілу величин X і У різні, тобто стану досліджуваної властивості суттєво різні в одній і тій же сукупності при первинному та вторинному вимірах цієї властивості.

Статистика критерію (Т) визначається наступним чином:

припустимо, що з N пар (х, у,) знайшлося кілька пар, у яких значеннях i і у i рівні. Такі пари позначаються знаком «0» і за підрахунку значення величини Т не враховуються. Припустимо, що з відрахуванням з числа N числа пар, позначених знаком «0», залишилося всього n пар. Серед тих, що залишилися n пар підрахуємо число пар, позначених знаком «-», тобто пари, в яких x i< y i . Значення величини Т і дорівнює числу пар зі знаком мінус.

Нульова гіпотеза приймається нарівні значимості 0,05, якщо спостерігається значення T< n - t a , где значение n - t a визначається із статистичних таблиць для критерію знаків Додатка 2.

приклад 4.Учні виконували контрольну роботу, спрямовану перевірку засвоєння деякого поняття. П'ятнадцяти учням потім запропонували електронний посібник, складений з формування даного поняття в учнів з низьким рівнем навчання. Після вивчення допомоги учні знову виконували ту ж контрольну роботу, яка оцінювалася за п'ятибальною системою.

Результати дворазового виконання роботи становлять виміри за шкалою порядку (п'ятибальна шкала). У умовах можливе застосування знакового критерію виявлення тенденції зміни стану знань учнів після вивчення посібники, оскільки виконуються всі припущення цього критерію.

Результати дворазового виконання роботи (у балах) 15 учнями запишемо у формі таблиці (див. табл. 1).

Таблиця 4.

Учні (№)

Перше виконання

Друге виконання

Знак різниці відміток

Перевіряється гіпотеза H 0 : стан знань учнів не підвищився після вивчення посібника Альтернативна гіпотеза: стан знань учнів підвищився після вивчення посібника.

Підрахуємо значення статистики критерію Т дорівнює кількості позитивних різниць відміток, отриманих учнями. За даними табл. 4 Т=10, n=12.

Для визначення критичних значень статистики критерію n-ta використовуємо таблицю. Додатки 2. Для рівня значущості а = 0,05 при n =12 значення n-ta=9. Отже виконується нерівність Т>n-ta (10>9). Тому відповідно до правила прийняття рішення нульова гіпотеза відхиляється на рівні значущості 0,05 і приймається альтернативна гіпотеза, що дозволяє зробити висновок про покращення знань учнів після самостійного вивчення посібника.

Приклад 5.Передбачається, що вивчення курсу математики сприяє формуванню у учнів одного з прийомів логічного мислення (наприклад, прийому узагальнення) навіть у тому випадку, якщо формування не проводиться цілеспрямовано. Для перевірки цього припущення було проведено такий експеримент.

Учням VII класу було запропоновано 5 завдань, розв'язання яких ґрунтується на використанні даного прийому мислення. Вважалося, що учень володіє цим прийомом, якщо він дає правильну відповідь на 3 і більше завдання.

Було розроблено таку шкалу вимірювань: правильно вирішено 1 або 2 завдання - оцінка «0»; чітко вирішено 3 завдання - оцінка «1»; правильно вирішено 4 завдання-оцінка «2»; чітко вирішено 5 завдань - оцінка «3».

Робота проводилася двічі: наприкінці вересня та наприкінці травня наступного року. Її писали 35 тих самих учнів, відібраних шляхом випадкового відбору з 7 різних шкіл. Результати дворазового виконання роботи запишемо у формі таблиці (див. табл. 5).

Відповідно до цілей експерименту формулюємо нульову гіпотезу наступним чином: Н 0 - вивчення математики не сприяє формуванню досліджуваного прийому мислення. Тоді альтернативна гіпотеза матиме вигляд: Н 1 – вивчення математики сприяє оволодінню цим прийомом мислення.

Таблиця 5.

За даними табл. 5, значення статистики Т = 15 - число різниць зі знаком "+". З 35 пар 12 мають знак "0"; значить, n = 35-12 = 23.

За таблицею Додатка 2 для n =23 і рівня значимості 0,025 знаходимо критичне значення статистики критерію, що дорівнює 16. Отже, вірна нерівність Т

Тому відповідно до правила прийняття рішень доводиться зробити висновок про те, що отримані результати не дають достатніх підстав для відхилення нульової гіпотези, тобто ми не маємо достатніх підстав для відхилення твердження про те, що вивчення математики саме по собі не сприяє оволодінню виділеним прийомом мислення.

6.2.2 Критерій χ2 (хі-квадрат)

Критерій χ 2 (хі-квадрат) застосовується для порівняння розподілів об'єктів двох сукупностей на основі вимірювань за шкалою найменувань у двох незалежнихвибірках.

Припустимо, що стан властивості, що вивчається (наприклад, виконання певного завдання) вимірюється у кожного об'єкта за шкалою найменувань, що має тільки дві взаємовиключні категорії (наприклад: виконано правильно - виконано неправильно). За результатами вимірювання стану досліджуваної властивості об'єктів двох вибірок складається чотириклітинна таблиця 2X2. (Див. табл. 6).

Таблиця 6.

У цій таблиці Про ij- кількість об'єктів уi-ой вибірці, що потрапили вj-ую категорію за станом досліджуваної якості;i = 1,2- Число вибірок;j = 1,2- Число категорій;; N- загальна кількість спостережень, що дорівнює Про 11 + Про 12 + Про 21 + Про 22або n 1 + n 2 .

Тоді на основі даних таблиці 2X2 (див. табл. 6) можна перевірити нульову гіпотезу про рівність ймовірностей попадання об'єктів першої та другої сукупностей у першу (другу) категорію шкали вимірювання властивостей, що перевіряється, наприклад гіпотезу про рівність ймовірностей вірного виконання деякого завдання учнями контрольних і експеримент класів.

При перевірці нульових гіпотез не обов'язково, щоб значення ймовірностей р 1і р 2були відомі, так як гіпотези тільки встановлюють між ними деякі співвідношення (рівність, більше чи менше).

Для перевірки розглянутих вище нульових гіпотез за даними таблиці 2X2 (див. табл. 6) підраховується значення статистики критерію Тза наступною загальною формулою:

(9)

де n 1 , n 2 - обсяги вибірок,N =n 1 + n 2- загальна кількість спостережень.

Проводиться перевірка гіпотези H 0 : p 1 £ p 2- за альтернативи Н 1: р 1 > р 2 .Нехай a - ухвалений рівень значимості. Тоді значення статистики Т,отримане на основі експериментальних даних порівнюється з критичним значенням статистики х 1-2 a,яке визначається за таблицею c 2 c одним ступенем свободи (див. Додаток 2) з урахуванням обраного значення a . Якщо правильна нерівність T< x 1-2 a , то нульова гіпотеза приймається на рівні a .Якщо ця нерівність не виконується, то ми не маємо достатніх підстав для відхилення нульової гіпотези.

У зв'язку з тим, що заміна точного розподілу статистики Трозподілом c 2 c одним ступенем свободи дає досить хороше наближення лише великих вибірок, застосування критерію обмежена деякими умовами.

1) сума обсягів двох вибірок менше 20;

2)хоча б одна з абсолютних частот у таблиці 2X2, складеній на основі експериментальних даних, менше 5.

Приклад 6.Проводився експеримент, спрямований на виявлення кращого з підручників, написаних двома авторськими колективами відповідно до цілей навчання геометрії та змісту програми IX класу. Для проведення експерименту методом випадкового відбору було обрано два райони, більшість шкіл яких належали до сільських. Учні першого району (20 класів) навчалися за підручником № 1, учні другого району (15 класів) навчалися за підручником №2.

Розглянемо методику порівняння відповідей вчителів експериментальних шкіл двох районів на одне з питань анкети: «Чи доступний підручник в цілому для самостійного читання і чи допомагає він засвоїти матеріал, який вчитель не пояснював у класі (Відповідь: так - ні.)

Ставлення вчителів до досліджуваної якості підручників виміряно за шкалою найменувань, що має дві категорії: так, ні. Обидві вибірки вчителів випадкові та незалежні.

Відповіді 20 вчителів першого району та 15 вчителів другого району розподілимо на дві категорії та запишемо у формі таблиці 2Х2 (табл. 5).

Таблиця 7.

Усі значення табл. 7 не менше 5, тому відповідно до умов використання критеріюз 2 підрахунок статистики критерію провадиться за формулою (9).

За таблицею із додатку 2 для одного ступеня свободи ( v = l ) та рівня значимості a =0,05 знайдемо х 1- а а= Т критич = 3,84. Звідси вірна нерівність Т спостережень<Т критич (1,86<3,84). Согласно правилу принятия ре­шений для критерия з 2 отриманий результат не дає достатніх підстав для відхилення нульової гіпотези, тобто результати проведеного опитування вчителів двох експериментальних районів не дають достатніх підстав для відхилення припущення про однакову доступність підручників. 1 та 2 для самостійного читання учнями.

Застосування критерію хі-квадрат можливе й у тому випадку, коли об'єкти двох вибірок із двох сукупностей за станом вивчається розподіляються більш ніж на дві категорії. Наприклад, учні експериментальних та контрольних класів розподіляються на чотири категорії відповідно до позначок (у балах: 2, 3, 4, 5), отриманих учнями за виконання деякої контрольної роботи.

Результати вимірювання стану досліджуваної властивості об'єктів кожної вибірки розподіляються на Зкатегорій. На основі цих даних складається таблиця 2ХС, в якій два ряди (за кількістю аналізованих сукупностей) і Зколонок (за кількістю різних категорій стану досліджуваної властивості, прийнятих у дослідженні).

Таблиця 8

На основі даних таблиці 8 можна перевірити нульову гіпотезу про рівність ймовірностей попадання об'єктів першої та другої сукупностей у кожну зi (i = l,2, ..., С) категорій, тобто перевірити виконання всіх наступних рівностей: р 11 = р 21 p 12 = p 22 , …, p 1 c = p 2 c. Можлива, наприклад, перевірка гіпотези про рівність ймовірностей отримання позначок «5», «4», «3» та «2» за виконання учнями контрольних та експериментальних класів певного завдання.

Для перевірки нульової гіпотези за допомогою критеріюз 2 на основі даних таблиці 2ХС підраховується значення статистики критерію Тза наступною формулою:

(10)

де п 1і п 2- Обсяги вибірок.

Значення Т,отримане на основі експериментальних даних, порівнюється з критичним значенням х 1- a,яке визначається за таблицею c 2 з k =С-1 ступенем свободи з урахуванням обраного рівнязначимості a . За виконання нерівності Т> х 1- а анульова гіпотеза відхиляється лише на рівні ата приймається альтернативна гіпотеза. Це означає, що розподіл об'єктів на Зкатегорій за станом досліджуваної властивості по-різному у двох аналізованих сукупностях.

Приклад 7. Розглянемо методику порівняння результатів письмової роботи, яка перевіряла засвоєння одного з розділів курсу учнями першого та другого районів.

Методом випадкового відбору з учнів першого району, котрі писали роботу, було складено вибірку обсягом 50 людина, з учнів другого району - вибірка обсягом 50 людина. Відповідно до спеціально розроблених критеріїв оцінки виконання роботи кожен учень міг потрапити в одну з чотирьох категорій: погано, посередньо, добре, відмінно. Результати виконання роботи двома вибірками учнів використовуємо для перевірки гіпотези про те, що підручник № 1 сприяє кращому засвоєнню розділу курсу, що перевіряється, тобто учні першого експериментального району в середньому отримуватимуть вищі оцінки, ніж учні другого району.

Результати виконання роботи учнями обох вибірок запишемо як таблиці 2X4 (табл. 9 ).

Таблиця 9.

Відповідно до умов використання критеріюз 2 підрахунок статистики критерію провадиться за коригованою формулою (10).

Відповідно до умов застосування двостороннього критерію хі-квадрат за таблицею із додатка 2 для одного ступеня свободи ( k Грабар М.І., Краснянська К.А. Застосування математичної статистики у педагогічних дослідженнях. Непараметричні методи. М., «Педагогіка», 1977, стор 54

Грабар М.І., Краснянська К.А. Застосування математичної статистики у педагогічних дослідженнях. Непараметричні методи. М., «Педагогіка», 1977, стор 57

Розглянутий вище метод добре працює, якщо якісна ознака, яка нас цікавить, набуває двох значень (тромбоз є – ні, марсіанин зелений – рожевий). Більше того, оскільки метод є прямим аналогом критерію Стьюдента, кількість порівнюваних вибірок також має дорівнювати двом.

Зрозуміло, як і число значень ознаки і кількість вибірок може бути більшим двох. Для аналізу таких випадків потрібен інший метод аналогічний до дисперсійного аналізу. На увазі цей метод, який ми зараз викладемо, сильно відрізняється від критерію z, але насправді між ними багато спільного.

Щоб не ходити далеко за прикладом почнемо з щойно розібраної задачі про тромбоз шунтів. Тепер ми розглядатимемо не частку, а кількість хворих на тромбоз. Занесемо результати випробування таблицю (табл. 5.1). Для кожної групи вкажемо число хворих з тромбозом і без тромбозу. У нас дві ознаки: препарат (аспірин-плацебо) та тромбоз (є-ні); у таблиці вказані всі можливі поєднання, тому така таблиця називається таблицею спряженості. У разі розмір таблиці 2x2.

Подивимося на клітини розташовані, на діагоналі, що йде з верхнього лівого в нижній правий кут. Числа у яких помітно більше чисел у інших клітинах таблиці. Це наводить на думку про зв'язок між прийомом аспірину та ризиком тромбозу.

Тепер погляньмо на табл. 5.2. Це таблиця очікуваних чисел, які ми отримали, якби аспірин не впливав на ризик тромбозу. Як розрахувати очікувані числа, ми розберемо трохи нижче, а поки що звернемо увагу на зовнішні особливості таблиці. Окрім трохи лякаючих дробових чисел у клітинах можна помітити ще одну відмінність від табл. 5.1 - це сумарні дані щодо груп у правому стовпці та по тромбозах - у нижньому рядку. У правому нижньому кутку – загальна кількість хворих у випробуванні. Про-



Зверніть увагу, що, хоча числа в клітинах на рис. 5.1 та 5.2 різні, суми по рядках та по стовпцях однакові.

Як розрахувати очікувані числа? Плацебо отримували 25 осіб, аспірин – 19. Тромбоз шунту стався у 24 із 44 обстежених, тобто у 54,55% випадків не відбувся – у 20 із 44, тобто у 45,45% випадків. Приймемо нульову гіпотезу про те, що аспірин не впливає на ризик тромбозу. Тоді тромбоз повинен з рівною частотою 54,55% спостерігатися у групах плацебо та аспірину. Розрахувавши, скільки становить 54,55% від 25 та 19, отримаємо відповідно 13,64 та 10,36. Це і є очікувані числа хворих з тромбозом у групах плацебо та аспірину. Так само можна отримати очікувані числа хворих без тромбозу групи плацебо - 45,45% від 25, тобто 11,36 групи аспірину - 45,45% від 19, тобто 8,64. Зауважте, що очікувані числа розраховуються до другого знака після коми - така точність знадобиться при подальших обчисленнях.

Порівняємо табл. 5.1 та 5.2. Числа у клітинах досить сильно розрізняються. Отже, реальна картина відрізняється від тієї, яка б спостерігалася, якби аспірин не впливав на ризик тромбозу. Тепер залишилося побудувати критерій, який би характеризував ці відмінності одним числом, і потім знайти його критичне значення, тобто вчинити, оскільки у разі критеріїв F, t або z.

Однак спочатку згадаємо ще один уже знайомий нам при-




мір - роботу Конахана порівняно галотану і морфіну, саме ту частину, де порівнювалася операційна летальність. Відповідні дані наведено у табл. 5.3. Форма таблиці така сама, як і табл. 5.1. У свою чергу, табл. 5.4 подібно до табл. 5.2 містить очікувані числа, тобто числа, обчислені з припущення, що летальність залежить від анестетика. З усіх 128 оперованих живих залишилося 110, тобто 85,94%. Якби вибір анестезії не впливав на летальність то в обох групах частка тих, хто вижив, була б такою ж і кількість тих, хто вижив, склало б у групі галотану - 85,94% від 61, тобто 52,42 у групі морфіну - 85,94% від 67 , тобто 57,58. Так само можна отримати й очікувані числа померлих. Порівняємо таблиці 5.3 та 5.4. На відміну від попереднього прикладу, відмінності між очікуваними значеннями, що спостерігаються, дуже малі. Як ми з'ясували раніше, відмінностей у летальності немає. Схоже, ми на правильному шляху.

Критерії х2 для таблиці 2x2

Критерій х2 (читається «хі-квадрат») не вимагає жодних припущень щодо параметрів сукупності, з якої вилучені вибірки, – це перший із непараметричних критеріїв, з яким ми знайомимося. Займемося його шикуванням. По-перше, як і завжди, критерій повинен давати одне число,


яке служило б мірою відхилення даних, що спостерігаються від очікуваних, тобто в даному випадку відмінності між таблицею спостережуваних і очікуваних чисел. По-друге, критерій повинен враховувати, що відмінність, скажімо, у одного хворого має більше значення при малому очікуваному числі, ніж при великому.

Визначимо критерій х2 наступним чином:

де О - число, що спостерігається в клітині таблиці сполученості, Е - очікуване число в тій же клітині. Підсумовування проводиться за всіма клітинами таблиці. Як очевидно з формули, що більше різниця спостерігається і очікуваного числа, то більший внесок вносить клітина величину %2. При цьому клітини з малим очікуваним числом роблять більший внесок. Таким чином, критерій задовольняє обидві вимоги - по-перше, вимірює відмінності і, по-друге, враховує їхню величину щодо очікуваних чисел.

Застосуємо критерії х2 до даних тромбозів шунта. У табл. 5.1 наведені числа, що спостерігаються, а в табл. 5.2 – очікувані.


ло і значення z, отримане за тими самими даними. Можна показати, що з таблиць сполученості розміром 2x2 виконується рівність X2 = z2.

Критичне значення %2 можна знайти добре знайомим нам способом. На рис. 5.7 показано розподіл можливих значень X2 для таблиць спряженості розміром 2x2 для випадку, коли між ознаками, що вивчаються, немає ніякого зв'язку. Величина X2 перевищує 3,84 лише у 5% випадків. Таким чином, 3,84 – критичне значення для 5% рівня значущості. У прикладі з тромбозом шунта ми отримали значення 7,10 тому ми відхиляємо гіпотезу про відсутність зв'язку між прийомом аспірину і утворенням тромбів. Навпаки, дані із табл. 5.3 добре узгоджуються з гіпотезою про однаковий вплив галотану та морфіну на післяопераційний рівень смертності.

Вочевидь, як і всі критерії значимості, х2 дає ймовірнісну оцінку істинності тієї чи іншої гіпотези. Насправді аспірин може не впливати на ризик тромбозу. Насправді галотан та морфін можуть по-різному впливати на операційну летальність. Але, як показав критерій, те й інше малоймовірне.

Застосування критерію х2 правомірно, якщо очікуване число в будь-якій із клітин більше або дорівнює 5. Ця умова аналогічна умові застосування критерію z.

Критичне значення %2 залежить від розмірів таблиці спряженості, тобто від числа порівнюваних методів лікування (рядок таблиці) та числа можливих наслідків (стовпців таблиці). Розмір таблиці виражається числом ступенів свободи v:

V = (r - 1) (с - 1),

де r – число рядків, а з – число стовпців. Для таблиць розміром 2x2 маємо v = (2 – l) (2 – l) = l. Критичні значення %2 для різних v наведено у табл. 5.7.

Наведена раніше формула для х2 у разі таблиці 2x2 (тобто за 1 ступеня свободи) дає дещо завищені значення (подібна ситуація була з критерієм z). Це пов'язано з тим, що теоретичний розподіл х2 безперервно, тоді як набір обчислених значень х2 дискретний. Насправді це призведе до того що, що нульова гіпотеза відкидатися занадто часто. Щоб компенсувати цей ефект, формулу вводять поправку Йєїтса:(1 O - E - -

Зауважимо, поправка Йєїтса застосовується лише за v = 1, тобто таблиць 2x2.

Застосуємо поправку Йєїтса до вивчення зв'язку між прийомом аспірину та тромбозами шунта (табл. 5.1 та 5.2):


Як ви пам'ятаєте, без виправлення Йейтса значення %2 дорівнювало 7,10. Виправлене значення %2 виявилося меншим за 6,635 - критичного значення для 1% рівня значимості, але як і раніше перевищує 5,024 - критичне значення для 2,5% рівня значимості.

Критерій х2 для довільної таблиці сполученості

Тепер розглянемо випадок, коли таблиця сполученості має число рядків чи стовпців, більше двох. Зверніть увагу, що критерій z у таких випадках не застосовується.

У гол. 3 показали, що заняття бігом зменшують кількість менструацій*. Чи спонукають ці зміни звертатися до лікаря? У табл. 5.5 наведено результати опитування учасниць дослідження. Чи ці дані підтверджують гіпотезу про те, що заняття бігом не впливають на ймовірність звернення до лікаря з приводу нерегулярності менструації?

Зі 165 обстежених жінок 69 (тобто 42%) звернулися до лікаря, решта 96 (тобто 58%) до лікаря не зверталися. Якщо

* При цьому ми для простоти обчислень розміри всіх трьох груп – контрольної, фізкультурниць та спортсменок – вважали однаковими. Тепер ми скористаємося цими даними.


заняття бігом не впливають на можливість звернення до лікаря, то в кожній із груп до лікаря мало звернутися 42% жінок. У табл. 5.6 наведено відповідні очікувані значення. Чи сильно відрізняються від них реальні дані?

Для відповіді це запитання обчислимо %2:

(14 - 22,58)2 (40 - 31,42)2 (9 - 9,62)2

22,58 31,42 9,62

(14 - 13,38)2 (46 - 36,80)2 (42 - 51,20)2

13,38 36,80 51,20

Число рядків таблиці сполученості дорівнює трьом, стовпців - двом, тому число ступенів свободи v = (3 - 1) (2 - 1) = 2. Якщо гіпотеза про відсутність міжгрупових відмінностей вірна, то, як видно з табл. 5.7 значення %2 перевищить 9,21 лише у 1% випадків. Отримане значення більше. Тим самим, при рівні значущості 0,01 можна відхилити гіпотезу про відсутність зв'язку між бігом та зверненнями до лікаря щодо менструації. Однак, з'ясувавши, що зв'язок існує ми, тим не менш, не зможемо вказати які (які) саме групи відрізняються від інших.

Отже, ми познайомилися із критерієм %2. Ось порядок його застосування.

Побудуйте за наявними даними таблицю спряженості.

Підрахуйте кількість об'єктів у кожному рядку і кожному стовпці і знайдіть, яку частку від загальної кількості об'єктів становлять ці величини.

Знаючи ці частки, підрахуйте з точністю до двох знаків після коми очікувані числа - кількість об'єктів, яка
потрапило б у кожну клітинку таблиці, якби зв'язок між рядками та стовпцями був відсутній

Знайдіть величину, що характеризує відмінності спостережуваних та очікуваних значень. Якщо таблиця сполученості має розмір 2x2, застосуйте виправлення Йєїтса

Обчисліть число ступенів свободи, виберіть рівень значущості та за табл. 5.7, визначте критичне значення %2. Порівняйте його з отриманим для таблиці.

Як ви пам'ятаєте, для таблиць сполученості розміром 2x2 критерій х2 застосуємо тільки у випадку, коли всі очікувані числа більше 5. Яка ситуація з таблицями більшого розміру? У цьому випадку критерії %2 застосуємо, якщо всі очікувані числа не менше 1 і частка клітин з очікуваними числами менше 5 не перевищує 20%. При невиконанні цих умов критерії х2 можуть дати помилкові результати. У такому разі можна зібрати додаткові дані, проте це не завжди можливо. Є й простіший шлях - об'єднати кілька рядків чи стовпців. Нижче ми покажемо, як це зробити.

Перетворення таблиць сполученості

У попередньому розділі ми встановили існування зв'язку між заняттям бігом та зверненнями до лікаря щодо менструацій або, що, те саме, існування відмінностей між групами за частотою звернення до лікаря. Однак ми не могли визначити, які саме групи відрізняються одна від одної, а які ні. Зі схожою ситуацією ми стикалися в дисперсійному аналізі. При порівнянні декількох груп дисперсійний аналіз дозволяє виявити сам факт існування відмінностей, але не вказує групи, що виділяються. Останнє дозволяють зробити процедури множинного порівняння, про які ми говорили в гол. 4. Щось схоже можна зробити і з таблицями спряженості.

Дивлячись на табл. 5.5 можна припустити, що фізкультурниці та спортсменки зверталися до лікаря частіше, ніж жінки з контрольної групи. Відмінність між фізкультурницями та спортсменками видається незначною.

Перевіримо гіпотезу про те, що фізкультурниці та спортсмен-

V 0,50 0,25 0,10 0,05 0,025 0,01 0,005 0,001
41 40,335 46,692 52,949 56,942 60,561 64,950 68,053 74,745
42 41,335 47,766 54,090 58,124 61,777 66,206 69,336 76,084
43 42,335 48,840 55,230 59,304 62,990 67,459 70,616 77,419
44 43,335 49,913 56,369 60,481 64,201 68,710 71,893 78,750
45 44,335 50,985 57,505 61,656 65,410 69,957 73,166 80,077
46 45,335 52,056 58,641 62,830 66,617 71,201 74,437 81,400
47 46,335 53,127 59,774 64,001 67,821 72,443 75,704 82,720
48 47,335 54,196 60,907 65,171 69,023 73,683 76,969 84,037
49 48,335 55,265 62,038 66,339 70,222 74,919 78,231 85,351
50 49,335 56,334 63,167 67,505 71,420 76,154 79,490 86,661
Рівень значущості

J. H. Zar, Biostatistical Analysis, 2d ed, Prentice-Hall, Englewood Cliffs, NJ, 1984.

ки звертаються до лікаря однаково часто. Для цього виділимо з вихідної таблиці підтаблицю, що містить дані з двох цих груп. У табл. 5.8 наведені спостерігаються та очікувані числа; вони досить близькі.

Статистичний критерій

Правило, яким гіпотеза Я 0 відкидається чи приймається, називається статистичним критерієм.У назві критерію, як правило, міститься буква, якою позначається спеціально складена характеристика п. 2 алгоритму перевірки статистичної гіпотези (див. п. 4.1), що розраховується в критерії. В умовах даного алгоритму критерій називався б «в-Критерій».

При перевірці статистичних гіпотез можливі два типи помилок:

  • - помилка першого роду(можна відкинути гіпотезу Я 0 коли вона насправді вірна);
  • - помилка другого роду(Можна прийняти гіпотезу Я 0, коли вона насправді не вірна).

Ймовірність априпуститися помилки першого роду називається рівнем важливості критерію.

Якщо за рпозначити ймовірність припуститися помилки другого роду, то (l - р) -ймовірність не припуститися помилки другого роду, яка називається потужністю критерію.

Критерій згоди х 2 Пірсона

Існує кілька типів статистичних гіпотез:

  • - про закон розподілу;
  • - однорідності вибірок;
  • - Чисельні значення параметрів розподілу і т.д.

Ми розглядатимемо гіпотезу про закон розподілу на прикладі критерію згоди х 2 Пірсона.

Критерієм згодиНазивають статистичний критерій перевірки нульової гіпотези про передбачуваний закон невідомого розподілу.

В основі критерію згоди Пірсона лежить порівняння емпіричних (спостерігаються) та теоретичних частот спостережень, обчислених у припущенні певного закону розподілу. Гіпотеза # 0 тут формулюється так: за досліджуваною ознакою генеральна сукупність розподілена нормально.

Алгоритм перевірки статистичної гіпотези #0 для критерію х 1Пірсона:

  • 1) висуваємо гіпотезу Я 0 - за досліджуваною ознакою генеральна сукупність розподілена нормально;
  • 2) обчислюємо вибіркову середню та вибіркове середнє квадратичне відхилення пров;

3) за наявною вибіркою обсягу прозраховуємо спеціально складену характеристику,

де: я, - емпіричні частоти, - теоретичні частоти,

п -обсяг вибірки,

h- величина інтервалу (різниця між двома сусідніми варіантами),

Нормалізовані значення ознаки, що спостерігається,

- Таблична функція. Також теоретичні частоти

можуть бути обчислені за допомогою стандартної функції MS Excel НОРМРАСП за формулою;

4) за вибірковим розподілом визначаємо критичне значення спеціально складеної характеристики xl P

5) при гіпотезі # 0 відкидається, при гіпотезі # 0 приймається.

приклад.Розглянемо ознаку X- величину показників тестування засуджених в одній із виправних колоній за деякою психологічною характеристикою, поданий у вигляді варіаційного ряду:

На рівні значимості 0,05 перевірити гіпотезу про нормальний розподіл генеральної сукупності.

1. На основі емпіричного розподілу можна висунути гіпотезу Н 0: за досліджуваною ознакою «величина показника тестування за даною психологічною характеристикою» генеральна сукупність осу-

розподілена нормально. Альтернативна гіпотеза 1: за досліджуваною ознакою «величина показника тестування за даною психологічною характеристикою» генеральна сукупність засуджених не розподілена нормально.

2. Обчислимо числові вибіркові показники:

Інтервали

х г щ

х) щ

3. Обчислимо спеціально складену характеристику j2. Для цього в передостанньому стовпці попередньої таблиці знайдемо теоретичні частоти за формулою, а в останньому стовпці

проведемо розрахунок характеристики %2. Отримуємо х 2 = 0,185.

Для наочності побудуємо полігон емпіричного розподілу та нормальну криву за теоретичними частотами (рис. 6).

Мал. 6.

4. Визначимо кількість ступенів свободи s: до = 5, т = 2, s = 5-2-1 = 2.

За таблицею або за допомогою стандартної функції MS Excel «ХІ20БР» для числа ступенів свободи 5 = 2 та рівня значущості а = 0,05 знайдемо критичне значення критерію xl P .=5,99. Для рівня значимості а= 0,01 критичне значення критерію х%. = 9,2.

5. Спостережуване значення критерію х=0,185 найменше знайдених значень Хк Р.->тому гіпотеза Я 0 приймається обох рівнях значимості. Розбіжність емпіричних та теоретичних частот незначна. Отже, дані спостережень узгоджуються з гіпотезою про нормальний розподіл генеральної сукупності. Таким чином, за досліджуваною ознакою «величина показника тестування за даною психологічною характеристикою» генеральна сукупність засуджених розподілена нормально.

  • 1. Корячко О.В., Куліченко О.Г. Вища математика та математичні методи у психології: керівництво до практичних занять для слухачів психологічного факультету. Рязань, 1994.
  • 2. Спадщин А.Д. Математичні методи психологічного дослідження. Аналіз та інтерпретація даних: Навчання, посібник. СПб., 2008.
  • 3. Сидоренко О.В. Методи математичної обробки у психології. СПб., 2010.
  • 4. Сошнікова Л.А. та ін. Багатомірний статистичний аналіз економіки: Навчання, посібник для вузів. М., 1999.
  • 5. Суходільський Є.В. Математичні методи у психології. Харків, 2004.
  • 6. Шмойлова Р.А., Мінашкін В.Є., Садовнікова Н.А. Практикум з теорії статистики: Навчання, посібник. М., 2009.
  • Гмурман В.Є. Теорія ймовірностей та математична статистика. С. 465.

Критерій χ 2 Пірсона – це непараметричний метод, який дозволяє оцінити значущість відмінностей між фактичною (виявленою в результаті дослідження) кількістю результатів або якісних характеристик вибірки, що потрапляють у кожну категорію, та теоретичною кількістю, яку можна очікувати в групах, що вивчаються, за справедливості нульової гіпотези. Висловлюючись простіше, метод дозволяє оцінити статистичну значущість відмінностей двох чи кількох відносних показників (частот, часток).

1. Історія розробки критерію χ 2

Критерій хі-квадрат для аналізу таблиць сполученості був розроблений та запропонований у 1900 році англійським математиком, статистиком, біологом та філософом, засновником математичної статистики та одним із основоположників біометрики Карлом Пірсоном(1857-1936).

2. Для чого використовується критерій 2 Пірсона?

Критерій хі-квадрат може застосовуватися під час аналізу таблиць сполученості, що містять відомості про частоту наслідків залежно від наявності фактора ризику. Наприклад, чотирипільна таблиця сполученостівиглядає наступним чином:

Вихід є (1) Виходу немає (0) Усього
Чинник ризику є (1) A B A + B
Чинник ризику відсутній (0) C D C+D
Усього A + C B + D A+B+C+D

Як заповнити таку таблицю поєднання? Розглянемо невеликий приклад.

Проводиться дослідження впливу куріння на ризик розвитку гіпертонії. Для цього було відібрано дві групи досліджуваних – до першої увійшли 70 осіб, які щодня викурюють не менше 1 пачки цигарок, у другу – 80 некурців такого ж віку. У першій групі у 40 осіб відзначався підвищений артеріальний тиск. У другій – артеріальна гіпертонія спостерігалася у 32 осіб. Відповідно, нормальний артеріальний тиск у групі курців був у 30 осіб (70 – 40 = 30) а у групі некурців – у 48 (80 – 32 = 48).

Заповнюємо вихідними даними чотирипольну таблицю сполученості:

В отриманій таблиці спряженості кожен рядок відповідає певній групі досліджуваних. Стовпці - показують кількість осіб із артеріальною гіпертонією чи з нормальним артеріальним тиском.

Завдання, яке ставиться перед дослідником: чи є статистично значущі відмінності між частотою осіб з артеріальним тиском серед курців та некурців? Відповісти на це питання можна, розрахувавши критерій хі-квадрат Пірсона і порівнявши значення, що вийшло, з критичним.

3. Умови та обмеження застосування критерію хі-квадрат Пірсона

  1. Порівняні показники повинні бути виміряні в номінальної шкали(наприклад, стать пацієнта - чоловіча або жіноча) або в порядковий(наприклад, ступінь артеріальної гіпертензії, що набуває значення від 0 до 3).
  2. Даний метод дозволяє проводити аналіз не тільки чотирипольних таблиць, коли і фактор, і результат є бінарними змінними, тобто мають лише два можливі значення (наприклад, чоловіча або жіноча стать, наявність або відсутність певного захворювання в анамнезі...). Критерій хі-квадрат Пірсона може застосовуватися і у разі аналізу багатопольних таблиць, коли фактор та (або) результат приймають три і більше значень.
  3. Порівнювані групи повинні бути незалежними, тобто критерій хі-квадрат не повинен застосовуватися при порівнянні спостережень "до" після. У цих випадках проводиться тест Мак-Немара(при порівнянні двох пов'язаних сукупностей) або розраховується Q-критерій Кохрена(у разі порівняння трьох та більше груп).
  4. При аналізі чотирипольних таблиць очікувані значенняу кожному із осередків мають бути не менше 10. У тому випадку, якщо хоча б в одному осередку очікуване явище набуває значення від 5 до 9, критерій хі-квадрат повинен розраховуватися з поправкою Йейтса. Якщо хоча в одному осередку очікуване явище менше 5, то для аналізу повинен використовуватися точний критерій Фішера.
  5. У разі аналізу багатопільних таблиць очікуване число спостережень має приймати значення менше 5 більш ніж 20% осередків.

4. Як розрахувати критерій хі-квадрат Пірсона?

Для розрахунку критерію хі-квадрату необхідно:

Даний алгоритм застосуємо як для чотирипольних, так багатопольних таблиць.

5. Як інтерпретувати значення критерію хі-квадрат Пірсона?

У тому випадку, якщо отримане значення критерію χ 2 більше критичного, робимо висновок про наявність статистичного взаємозв'язку між фактором ризику, що вивчається, і результатом при відповідному рівні значущості.

6. Приклад розрахунку критерію хі-квадрат Пірсона

Визначимо статистичну значущість впливу фактора куріння на частоту випадків артеріальної гіпертонії за розглянутою вище таблицею:

  1. Розраховуємо очікувані значення для кожного осередку:
  2. Знаходимо значення критерію хі-квадрат Пірсона:

    χ 2 = (40-33.6) 2 / 33.6 + (30-36.4) 2 / 36.4 + (32-38.4) 2 / 38.4 + (48-41.6) 2 / 41.6 = 4.396.

  3. Число ступенів свободи f = (2-1) * (2-1) = 1. Знаходимо по таблиці критичне значення критерію хі-квадрат Пірсона, яке при рівні значущості p = 0.05 та числі ступенів свободи 1 становить 3.841.
  4. Порівнюємо отримане значення критерію хі-квадрат із критичним: 4.396 > 3.841, отже залежність частоти випадків артеріальної гіпертонії від наявності куріння – статистично значуща. Рівень значимості цього взаємозв'язку відповідає p<0.05.

Розглянемо застосування вMSEXCELкритерію хі-квадрат Пірсона для перевірки простих гіпотез

Після отримання експериментальних даних (тобто коли є якась вибірка) зазвичай проводиться вибір закону розподілу, що найбільш добре описує випадкову величину, представлену даною вибіркою. Перевірка того, наскільки добре експериментальні дані описуються вибраним теоретичним законом розподілу здійснюється з використанням критеріїв згоди. Нульовою гіпотезоюзазвичай виступає гіпотеза про рівність розподілу випадкової величини деякому теоретичному закону.

Спочатку розглянемо застосування критерію згоди Пірсона Х 2 (хі-квадрат)щодо простих гіпотез (параметри теоретичного розподілу вважаються відомими). Потім - коли задається тільки форма розподілу, а параметри цього розподілу і значення статистики Х 2 оцінюються/розраховуються на підставі однієї і тієї ж вибірки.

Примітка: В англомовній літературі процедура застосування. критерію згоди Пірсона Х 2 має назву The chi-square goodness of fit test.

Нагадаємо процедуру перевірки гіпотез:

  • на основі вибіркиобчислюється значення статистики, яка відповідає типу гіпотези, що перевіряється. Наприклад, для використовується t-статистика(якщо невідомо);
  • за умови істинності нульової гіпотези, розподіл цієї статистикивідомо і може бути використане для обчислення ймовірностей (наприклад, для t-статистикице);
  • обчислене на основі вибіркизначення статистикипорівнюється з критичним для заданого значенням ();
  • нульову гіпотезувідкидають, якщо значення статистикибільше критичного (або якщо можливість отримати це значення статистики() менше рівня значущості, що є еквівалентним підходом.

Проведемо перевірку гіпотездля різних розподілів.

Дискретний випадок

Припустимо, що дві людини грають у кістки. Кожен гравець має свій набір кісток. Гравці по черзі кидають одразу по 3 кубики. Кожен раунд виграє той, хто викине за раз більше шісток. Результати записуються. В одного з гравців після 100 раундів виникла підозра, що кістки його суперника – несиметричні, тому що вони не мають сили. той часто виграє (часто викидає шістки). Він вирішив проаналізувати наскільки ймовірно така кількість наслідків противника.

Примітка: Т.к. кубиків 3, то зараз можна викинути 0; 1; 2 чи 3 шістки, тобто. випадкова величина може набувати 4 значення.

З теорії ймовірності нам відомо, що якщо кубики симетричні, то ймовірність випадання шісток підкоряється. Тому після 100 раундів частоти випадання шісток можуть бути обчислені за допомогою формули
=БИНОМ.РАСП(A7;3;1/6;БРЕХНЯ)*100

У формулі передбачається, що в осередку А7 міститься відповідна кількість шісток, що випали, в одному раунді.

Примітка: Розрахунки наведені в файл прикладу на аркуші Дискретне.

Для порівняння спостережених(Observed) та теоретичних частот(Expected) зручно користуватися.

При значному відхиленні спостеріганих частот від теоретичного розподілу, нульова гіпотезапро розподіл випадкової величини за теоретичним законом, має бути відхилена. Тобто, якщо гральні кістки суперника несиметричні, то спостерігані частоти «суттєво відрізнятимуться» від біномного розподілу.

У нашому випадку на перший погляд частоти досить близькі і без обчислень важко зробити однозначний висновок. Застосуємо критерій згоди Пірсона Х 2щоб замість суб'єктивного висловлювання «суттєво відрізнятися», яке можна зробити на підставі порівняння гістограм, використовувати математично коректне затвердження

Використовуємо той факт, що в силу закону великих чиселспостерігається частота (Observed) зі зростанням обсягу вибірки n прагне ймовірності, що відповідає теоретичному закону (у нашому випадку, біноміальному закону). У разі обсяг вибірки n дорівнює 100.

Введемо тестову статистику, Яку позначимо Х 2:

де O l – це спостережена частота подій, що випадкова величина набула певних допустимих значень, E l – це відповідна теоретична частота (Expected). L – кількість значень, які може приймати випадкова величина (у разі дорівнює 4).

Як видно з формули, ця статистикає мірою близькості спостеріганих частот до теоретичних, тобто. за допомогою неї можна оцінити «відстань» між цими частотами. Якщо сума цих "відстаней" "занадто велика", то ці частоти "істотно відрізняються". Зрозуміло, якщо наш кубик симетричний (тобто. застосуємо біноміальний закон), то ймовірність того, що сума «відстаней» буде «надто велика» буде малою. Щоб обчислити цю можливість нам необхідно знати розподіл статистикиХ 2 ( статистикаХ 2 обчислена на основі випадкової вибіркитому вона є випадковою величиною і, отже, має своє розподіл ймовірностей).

Із багатовимірного аналога інтегральної теореми Муавра-Лапласавідомо, що за n->∞ наша випадкова величина Х 2 асимптотично з L - 1 ступенями свободи.

Отже, якщо обчислене значення статистикиХ 2 (сума «відстаней» між частотами) буде більшою за якесь граничне значення, то у нас буде підстава відкинути нульову гіпотезу. Як і під час перевірки параметричних гіпотез, граничне значення задається через рівень значущості. Якщо ймовірність того, що статистика Х 2 прийме значення менше або дорівнює обчисленому ( p-значення), буде менше рівня значущості, то нульову гіпотезуможна відкинути.

У нашому випадку значення статистики дорівнює 22,757. Імовірність, що статистика Х 2 прийме значення більше або дорівнює 22,757 дуже мала (0,000045) і може бути обчислена за формулами
=ХІ2.РАСП.ПХ(22,757;4-1)або
=ХІ2.ТЕСТ(Observed; Expected)

Примітка: Функція ХІ2.ТЕСТ() спеціально створена для перевірки зв'язку між двома категоріальними змінними (див. ).

Ймовірність 0,000045 істотно менша від звичайного рівня значущості 0,05. Отже, гравець має всі підстави підозрювати свого супротивника в нечесності ( нульова гіпотезапро його чесність відкидається).

При застосуванні критерію Х 2необхідно стежити за тим, щоб обсяг вибірки n був досить великий, інакше буде неправомірна апроксимація розподілу статистики Х 2. Зазвичай вважається, що для цього достатньо, щоб спостерігані частоти (Observed) були більшими за 5. Якщо це не так, то малі частоти об'єднуються в одну або приєднуються до інших частот, причому об'єднаному значенню приписується сумарна ймовірність і, відповідно, зменшується число ступенів свободи Х 2 -розподілу.

Для того, щоб покращити якість застосування критерію Х 2(), необхідно зменшувати інтервали розбиття (збільшувати L і, відповідно, збільшувати кількість ступенів свободи), однак цьому перешкоджає обмеження на кількість спостережень, що потрапили в кожен інтервал (д.б.>5).

Безперервний випадок

Критерій згоди Пірсона Х 2 можна застосувати так само у випадку.

Розглянемо якусь вибірку, Що складається з 200 значень. Нульова гіпотезастверджує, що вибірказроблена з .

Примітка: Випадкові величини файл прикладу на аркуші Безперервнезгенеровані за допомогою формули =НОРМ.СТ.ОБР(СЛЧИС()). Тому нові значення вибіркигенеруються при кожному перерахунку листа.

Чи відповідає наявний набір даних можна візуально оцінити.

Як видно з діаграми, значення вибірки досить добре укладаються вздовж прямої. Однак, як і для перевірки гіпотезизастосуємо Критерій згоди Пірсона Х2.

Для цього розіб'ємо діапазон зміни випадкової величини на інтервали з кроком 0,5. Обчислимо спостережені та теоретичні частоти. Наблюденные частоти обчислимо з допомогою функції ЧАСТОТА() , а теоретичні – з допомогою функції НОРМ.СТ.РАСП() .

Примітка: Як і для дискретного випадкунеобхідно стежити, щоб вибіркабула досить велика, а інтервал потрапляло >5 значень.

Обчислимо статистику Х 2 та порівняємо її з критичним значенням для заданого рівня значущості(0,05). Т.к. ми розбили діапазон зміни випадкової величини на 10 інтервалів, число ступенів свободи дорівнює 9. Критичне значення можна обчислити за формулою
=ХІ2.ОБР.ПХ(0,05;9) або
= ХІ2.ОБР (1-0,05; 9)

На діаграмі вище видно, що значення статистики дорівнює 8,19, що значно вище критичного значеннянульова гіпотезане відкидається.

Нижче наведено , на якій вибіркаприйняла малоймовірне значення і на підставі критерію згоди Пірсона Х 2нульова гіпотеза була відхилена (не дивлячись те що, що випадкові значення було згенеровано з допомогою формули =НОРМ.СТ.ОБР(СЛЧИС()), що забезпечує вибіркуз стандартного нормального розподілу).

Нульова гіпотезавідхилена, хоча візуально дані розташовуються досить близько до прямої лінії.

Як приклад також візьмемо вибіркуз U(-3; 3). У цьому випадку навіть з графіка очевидно, що нульова гіпотезамає бути відхилена.

Критерій згоди Пірсона Х 2також підтверджує, що нульова гіпотезамає бути відхилена.