Разница между показателями минимальная статистически не значимая. Уровень статистической достоверности. Б) Настройки распределения трафика

Рассмотрим типичный пример применения статистических методов в медицине. Создатели препарата предполагают, что он увеличивает диурез пропорционально принятой дозе. Для проверки этого предположения они назначают пяти добровольцам разные дозы препарата.

По результатам наблюдений строят график зависимости диуреза от дозы (рис. 1.2А). Зависимость видна невооруженным глазом. Исследователи поздравляют друг друга с открытием, а мир - с новым диуретиком.

На самом деле данные позволяют достоверно утверждать лишь то, что зависимость диуреза от дозы наблюдалась у этих пяти добровольцев. То, что эта зависимость проявится у всех людей, которые будут принимать препарат, - не более чем предполо-
зЯ

с

жение. Нельзя сказать, что оно беспочвенно - иначе, зачем ставить эксперименты?

Но вот препарат поступил в продажу. Все больше людей принимают его в надежде увеличить свой диурез. И что же мы видим? Мы видим рис 1.2Б, который свидетельствует об отсутствии какой либо связи между дозой препарата и диурезом. Черными кружками отмечены данные первоначального исследования. Статистика располагает методами, позволяющими оценить вероятность получения столь «непредставительной», более того, сбивающей с толку выборки. Оказывается в отсутствие связи между диурезом и дозой препарата полученная «зависимость» наблюдалась бы примерно в 5 из 1000 экспериментов. Итак, в данном случае исследователям просто не повезло. Если бы они применили даже самые совершенные статистические методы, это все равно не спасло бы их от ошибки.

Этот вымышленный, но совсем не далекий от реальности пример, мы привели не для того, чтобы указать на бесполез
ность статистики. Он говорит о другом, о вероятностном характере ее выводов. В результате применения статистического метода мы получаем не истину в последней инстанции, а всего лишь оценку вероятности того или иного предположения. Кроме того, каждый статистический метод основан на собственной математической модели и результаты его правильны настолько насколько эта модель соответствует действительности.

Еще по теме ДОСТОВЕРНОСТЬ И СТАТИСТИЧЕСКАЯ ЗНАЧИМОСТЬ:

  1. Статистически значимые отличия показателей качества жизни
  2. Статистическая совокупность. Учетные признаки. Понятие о сплошных и выборочных исследованиях. Требования к статистической совокупности и использованию учетно-отчетных документов
  3. РЕФЕРАТ. ИССЛЕДОВАНИЕ ДОСТОВЕРНОСТИ ПОКАЗАНИЙ ТОНОМЕТРА ДЛЯ ИЗМЕРЕНИЯ ВНУТРИГЛАЗНОГО ДАВЛЕНИЯ ЧЕРЕЗ ВЕКО2018, 2018

Уровень значимости - это вероятность того, что мы сочли различия существенными, а они на самом деле случайны.

Когда мы указываем, что различия достоверны на 5%-ом уровне значимости, или при р < 0,05 , то мы имеем виду, что вероятность того, что они все-таки недостоверны, составляет 0,05.

Когда мы указываем, что различия достоверны на 1%-ом уровне значимости, или при р < 0,01 , то мы имеем в виду, что вероятность того, что они все-таки недостоверны, составляет 0,01.

Если перевести все это на более формализованный язык, то уровень значимости - это вероятность отклонения нулевой гипотезы, в то время как она верна.

Ошибка, состоящая в той, что мы отклонили нулевую гипотезу, в то время как она верна, называется ошибкой 1 рода. (См. Табл. 1)

Табл. 1. Нулевая и альтернативные гипотезы и возможные состояния проверки.

Вероятность такой ошибки обычно обозначается как α. В сущности, мы должны были бы указывать в скобках не р< 0,05 или р< 0,01, а α< 0,05 или α< 0,01.

Если вероятность ошибки - это α , то вероятность правильного решения: 1-α. Чем меньше α, тем больше вероятность правильного решения.

Исторически сложилось так, что в психологии принято считать низшим уровнем статистической значимости 5%-ый уровень (р≤0,05): достаточным – 1%-ый уровень (р≤0,01) и высшим 0,1%-ый уровень (р≤0,001), поэтому в таблицах критических значений обычно приводятся значения критериев, соответствующих уровням статистической значимости р≤0,05 и р≤0,01, иногда - р≤0,001. Для некоторых критериев в таблицах указан точный уровень значимости их разных эмпирических значений. Например, для φ*=1,56 р=О,06.

До тех пор, однако, пока уровень статистической значимости не достигнет р=0,05, мы еще не имеем права отклонить нулевую гипотезу. Мы будем придерживаться следующего правила отклонения гипотезы об отсутствии различий (Но) и принятия гипотезы о статистической достоверности различий (Н 1).

Правило отклонения Hо и принятия h1

Если эмпирическое значение критерия равняется критическому значению, соответствующему р≤0,05 или превышает его, то H 0 отклоняется, но мы еще не можем определенно принять H 1 .

Если эмпирическое значение критерия равняется критическому значению, соответствующему р≤0,01 или превышает его, то H 0 отклоняется и принимается Н 1 .

Исключения : критерий знаков G, критерий Т Вилкоксона и критерий U Манна-Уитни. Для них устанавливаются обратные соотношения.

Рис. 4. Пример «оси значимости» для критерия Q Розенбаума.

Критические значения критерия обозначены как Q о,о5 и Q 0,01, эмпирическое значение критерия как Q эмп. Оно заключено в эллипс.

Вправо от критического значения Q 0,01 простирается "зона значимости" - сюда попадают эмпирические значения, превышающие Q 0 , 01 и, следовательно, безусловно, значимые.

Влево от критического значения Q 0,05, простирается "зона незначимости", - сюда попадают эмпирические значения Q, которые ниже Q 0,05, и, следовательно, безусловно незначимы.

Мы видим, что Q 0,05 =6; Q 0,01 =9; Q эмп. =8;

Эмпирическое значение критерия попадает в область между Q 0,05 и Q 0,01. Это зона "неопределенности": мы уже можем отклонить гипотезу о недостоверности различий (Н 0), но еще не можем принять гипотезы об их достоверности (H 1).

Практически, однако, исследователь может считать достоверными уже те различия, которые не попадают в зону незначимости, заявив, что они достоверны при р< 0,05, или указав точный уровень значимости полученного эмпирического значения критерия, например: р=0,02. С помощью стандартных таблиц, которые есть во всех учебниках по математическим методам это можно сделать по отношению к критериям Н Крускала-Уоллиса, χ 2 r Фридмана, L Пейджа, φ* Фишера.

Уровень статистической значимости или критические значения критериев определяются по-разному при проверке направленных и ненаправленных статистических гипотез.

При направленной статистической гипотезе используется односторонний критерий, при ненаправленной гипотезе - двусторонний критерий. Двусторонний критерий более строг, поскольку он проверяет различия в обе стороны, и поэтому то эмпирическое значение критерия, которое ранее соответствовало уровню значимости р< 0,05, теперь соответствует лишь уровню р< 0,10.

Нам не придется всякий раз самостоятельно решать, использует ли он односторонний или двухсторонний критерий. Таблицы критических значений критериев подобраны таким образом, что направленным гипотезам соответствует односторонний, а ненаправленным - двусторонний критерий, и приведенные значения удовлетворяют тем требованиям, которые предъявляются к каждому из них. Исследователю необходимо лишь следить за тем, чтобы его гипотезы совпадали по смыслу и по форме с гипотезами, предлагаемыми в описании каждого из критериев.

Если действовать не будешь, ни к чему ума палата. (Шота Руставели)

Основные термины и понятия медицинской статистики

В данной статье мы приведем некоторые ключевые понятия статистики, актуальные при проведении медицинских исследований. Более подробно термины разбираются в соответствующих статьях.

Вариация

Определение. Степень рассеяния данных (значений признака) по области значений

Вероятность

Определение . Вероятность(probability) - степень возможности проявления какого - либо определённого события в тех или иных условиях.

Пример. Поясним определение термина на предложении «Вероятность выздоровления при применении лекарственного препарата Aримидекс равна 70%». Событием является «выздоровление больного», условием «больной принимает Аримидекс», степенью возможности - 70% (грубо говоря, из 100 человек, принимающих Аримидекс, выздоравливают 70).

Кумулятивная вероятность

Определение. Кумулятивная вероятность выживания (Cumulative Probability of surviving) в момент времени t - это то же самое, что доля выживших пациентов к этому моменту времени.

Пример. Если говорится, что кумулятивная вероятность выживания после проведения пятилетнего курса лечения равна 0.7, то это значит, что из рассматриваемой группы пациентов в живых осталось 70% от начального количества, а 30% умерло. Другими словами, из каждой сотни человек 30 умерло в течение первых 5 лет.

Время до события

Определение. Время до события - это время, выраженное в некоторых единицах, прошедшее с некоторого начального момента времени до наступления некоторого события.

Пояснение. В качестве единиц времени в медицинских исследованиях выступают дни, месяцы и годы.

Типичные примеры начальных моментов времени:

    начало наблюдения за пациентом

    проведение хирургического лечения

Типичные примеры рассматриваемых событий:

    прогрессирование болезни

    возникновение рецидива

    смерть пациента

Выборка

Определение. Часть популяции, полученная путем отбора.

По результатам анализа выборки делают выводы о всей популяции, что правомерно только в случае, если отбор был случайным. Поскольку случайный отбор из популяции осуществить практически невозможно, следует стремиться к тому, чтобы выборка была по крайней мере репрезентативна по отношению к популяции.

Зависимые и независимые выборки

Определение. Выборки, в которые объекты исследования набирались независимо друг от друга. Альтернатива независимым выборкам - зависимые (связные, парные) выборки.

Гипотеза

Двусторонняя и односторонняя гипотезы

Сначала поясним применение термина гипотеза в статистике.

Цель большинства исследований - проверка истинности некоторого утверждения. Целью тестирования лекарственных препараторов чаще всего является проверка гипотезы, что одно лекарство эффективнее другого (например, Аримидекс эффективнее Тамоксифена).

Для предания строгости исследования, проверяемое утверждение выражают математически. Например, если А - это количество лет, которое проживёт пациент, принимающий Аримидекс, а Т -это количество лет, которое проживёт пациент, принимающий Тамоксифен, то проверяемую гипотезу можно записать как А>Т.

Определение. Гипотеза называется двусторонней (2-sided), если она состоит в равенстве двух величин.

Пример двусторонней гипотезы: A=T.

Определение. Гипотеза называется односторонней (1-sided),если она состоит в неравенстве двух величин.

Примеры односторонних гипотез:

Дихотомические (бинарные) данные

Определение. Данные, выражаемые только двумя допустимыми альтернативными значениями

Пример: Пациент «здоров» - «болен». Отек "есть" - "нет".

Доверительный интервал

Определение. Доверительный интервал (confidence interval) для некоторой величины - это диапазон вокруг значения величины, в котором находится истинное значение этой величины (с определенным уровнем доверия).

Пример. Пусть исследуемой величиной является количество пациентов в год. В среднем их количество равно 500, а 95% -доверительный интервал - (350, 900). Это означает, что, скорее всего (с вероятностью 95%), в течение года в клинику обратятся не менее 350 и не более 900 человек.

Обозначение. Очень часто используются сокращение: ДИ 95 % (CI 95%) - это доверительный интервал с уровнем доверия 95%.

Достоверность, статистическая значимость (P - уровень)

Определение. Статистическая значимость результата - это мера уверенности в его "истинности".

Любое исследование проходит на основе лишь части объектов. Исследование эффективности лекарственного препарата проводится на основе не вообще всех больных на планете, а лишь некоторой группы пациентов (провести анализ на основе всех больных просто невозможно).

Предположим, что в результате анализа был сделан некоторый вывод (например, использование в качестве адекватной терапии препарата Аримидекс в 2 раза эффективнее, чем препарата Тамоксифен).

Вопрос, который необходимо при этом задавать: "Насколько можно доверять этому результату?".

Представьте, что мы проводили исследование на основе только двух пациентов. Конечно же, в этом случае к результатам нужно относиться с опасением. Если же были обследовано большое количество больных (численное значение «большого количества» зависит от ситуации), то сделанным выводам уже можно доверять.

Так вот, степень доверия и определяется значением p-уровня (p-value).

Более высокий p- уровень соответствует более низкому уровню доверия к результатам, полученным при анализе выборки. Например, p- уровень, равный 0.05 (5%) показывает, что сделанный при анализе некоторой группы вывод является лишь случайной особенностью этих объектов с вероятностью только 5%.

Другими словами, с очень большой вероятностью (95%) вывод можно распространить на все объекты.

Во многих исследованиях 5% рассматривается как приемлемое значение p-уровня. Это значит, что если, например, p= 0.01, то результатам доверять можно, а если p=0.06, то нельзя.

Исследование

Проспективное исследование - это исследование, в котором выборки выделяются на основе исходного фактора, а в выборках анализируется некоторый результирующий фактор.

Ретроспективное исследование - это исследование, в котором выборки выделяются на основе результирующего фактора, а в выборках анализируется некоторый исходный фактор.

Пример. Исходный фактор - беременная женщина моложе/старше 20 лет. Результирующий фактор - ребёнок легче/тяжелее 2,5 кг. Анализируем, зависит ли вес ребёнка от возраста матери.

Если мы набираем 2 выборки, в одной - матери моложе 20 лет, в другой - старше, а затем анализируем массу детей в каждой группе, то это проспективное исследование.

Если мы набираем 2 выборки, в одной - матери, родившие детей легче 2,5 кг, в другой - тяжелее, а затем анализируем возраст матерей в каждой группе, то это ретроспективное исследование (естественно, такое исследование можно провести, только когда опыт закончен, т.е. все дети родились).

Исход

Определение. Клинически значимое явление, лабораторный показатель или признак, который служит объектом интереса исследователя. При проведении клинических испытаний исходы служат критериями оценки эффективности лечебного или профилактического воздействия.

Клиническая эпидемиология

Определение. Наука, позволяющая осуществлять прогнозирование того или иного исхода для каждого конкретного больного на основании изучения клинического течения болезни в аналогичных случаях с использованием строгих научных методов изучения больных для обеспечения точности прогнозов.

Когорта

Определение. Группа участников исследования, объединенных каким-либо общим признаком в момент ее формирования и исследуемых на протяжении длительного периода времени.

Контроль

Контроль исторический

Определение. Контрольная группа, сформированная и обследованная в период, предшествующий исследованию.

Контроль параллельный

Определение. Контрольная группа, формируемая одновременно с формированием основной группы.

Корреляция

Определение. Статистическая связь двух признаков (количественных или порядковых), показывающая, что большему значению одного признака в определенной части случаев соответствует большее - в случае положительной (прямой) корреляции - значение другого признака или меньшее значение - в случае отрицательной (обратной) корреляции.

Пример. Между уровнем тромбоцитов и лейкоцитов в крови пациента обнаружена значимая корреляция. Коэффициент корреляции равен 0,76.

Коэффициент риска (КР)

Определение. Коэффициент риска (hazard ratio) - это отношение вероятности наступления некоторого («нехорошего») события для первой группы объектов к вероятности наступления этого же события для второй группы объектов.

Пример. Если вероятность появления рака лёгких у некурящих равна 20%, а у курильщиков - 100%, то КР будет равен одной пятой. В этом примере первой группой объектов являются некурящие люди, второй группой - курящие, а в качестве «нехорошего» события рассматривается возникновение рака лёгких.

Очевидно, что:

1) если КР=1, то вероятность наступления события в группах одинаковая

2) если КР>1, то событие чаще происходит с объектами из первой группы, чем из второй

3) если КР<1, то событие чаще происходит с объектами из второй группы, чем из первой

Мета-анализ

Определение. С татистический анализ, обобщающий результаты нескольких исследований, исследующих одну и ту же проблему (обычно эффективность методов лечения, профилактики, диагностики). Объединение исследований обеспечивает большую выборку для анализа и большую статистическую мощность объединяемых исследований. Используется для повышения доказательности или уверенности в заключении об эффективности исследуемого метода.

Метод Каплана - Мейера (Множительные оценки Каплана - Мейера)

Этот метод был придуман статистиками Е.Л.Капланом и Полем Мейером.

Метод используется для вычисления различных величин, связанных с временем наблюдения за пациентом. Примеры таких величин:

    вероятность выздоровления в течении одного года при применении лекарственного препарата

    шанс возникновения рецидива после операции в течении трёх лет после операции

    кумулятивная вероятность выживания в течение пяти лет среди пациентов с раком простаты при ампутации органа

Поясним преимущества использования метода Каплана - Мейера.

Значение величин при «обычном» анализе (не использующем метод Каплана-Мейера) рассчитываются на основе разбиения рассматриваемого временного интервала на промежутки.

Например, если мы исследуем вероятность смерти пациента в течение 5 лет, то временной интервал может быть разделён как на 5 частей (менее 1 года, 1-2 года, 2-3 года, 3-4 года, 4-5 лет), так и на 10 (по полгода каждый), или на другое количество интервалов. Результаты же при разных разбиениях получатся разные.

Выбор наиболее подходящего разбиения - непростая задача.

Оценки значений величин, полученных по методу Каплана- Мейера не зависят от разбиения времени наблюдения на интервалы, а зависят только от времени жизни каждого отдельного пациента.

Поэтому исследователю проще проводить анализ, да и результаты нередко оказываются качественней результатов «обычного» анализа.

Кривая Каплана -Мейера (Kaplan - Meier curve)- это график кривой выживаемости, полученной по методу Каплана-Мейера.

Модель Кокса

Эта модель была придумана сэром Дэвидом Роксби Коксом (р.1924), известным английским статистиком, автором более 300 статей и книг.

Модель Кокса используется в ситуациях, когда исследуемые при анализе выживаемости величины зависят от функций времени. Например, вероятность возникновения рецидива через t лет (t=1,2,…), может зависеть от логарифма времени log(t).

Важным достоинством метода, предложенного Коксом, является применимость этого метода в большом количестве ситуаций (модель не накладывает жестких ограничений на природу или форму распределения вероятностей).

На основе модели Кокса можно проводить анализ (называемый анализом Кокса (Cox analysis)), результатом проведения которого является значение коэффициента риска и доверительного интервала для коэффициента риска.

Непараметрические методы статистики

Определение. Класс статистических методов, которые используются главным образом для анализа количественных данных, не образующих нормальное распределение, а также для анализа качественных данных.

Пример. Для выявления значимости различий систолического давления пациентов в зависимости от типа лечения воспользуемся непараметрическим критерием Манна-Уитни.

Признак (переменная)

Определение. Х арактеристика объекта исследования (наблюдения). Различают качественные и количественные признаки.

Рандомизация

Определение. Способ случайного распределения объектов исследования в основную и контрольную группы с использованием специальных средств (таблиц или счетчика случайных чисел, подбрасывания монеты и других способов случайного назначения номера группы включаемому наблюдению). С помощью рандомизации сводятся к минимуму различия между группами по известным и неизвестным признакам, потенциально влияющим на изучаемый исход.

Риск

Атрибутивный - дополнительный риск возникновения неблагоприятного исхода (например, заболевания) в связи с наличием определенной характеристики (фактора риска) у объекта исследования. Это часть риска развития болезни, которая связана с данным фактором риска, объясняется им и может быть устранена, если этот фактор риска устранить.

Относительный риск - отношение риска возникновения неблагоприятного состояния в одной группе к риску этого состояния в другой группе. Используется в проспективных и наблюдательных исследованиях, когда группы формируются заранее, а возникновение исследуемого состояния ещё не произошло.

Скользящий экзамен

Определение. Метод проверки устойчивости, надежности, работоспособности (валидности) статистической модели путем поочередного удаления наблюдений и пересчета модели. Чем более сходны полученные модели, тем более устойчива, надежна модель.

Событие

Определение. Клинический исход, наблюдаемый в исследовании, например возникновение осложнения, рецидива, наступление выздоровления, смерти.

Стратификация

Определение. М етод формирования выборки, при котором совокупность всех участников, соответствующих критериям включения в исследование, сначала разделяется на группы (страты) на основе одной или нескольких характеристик (обычно пола, возраста), потенциально влияющих на изучаемый исход, а затем из каждой из этих групп (страт) независимо проводится набор участников в экспериментальную и контрольную группы. Это позволяет исследователю соблюдать баланс важных характеристик между экспериментальной и контрольной группами.

Таблица сопряженности

Определение. Таблица абсолютных частот (количества) наблюдений, столбцы которой соответствуют значениям одного признака, а строки - значениям другого признака (в случае двумерной таблицы сопряженности). Значения абсолютных частот располагаются в клетках на пересечении рядов и колонок.

Приведем пример таблицы сопряженности. Операция на аневризме была сделана 194 пациентам. Известен показатель выраженности отека у пациентов перед операцией.

Отек\ Исход

нет отека 20 6 26
умеренный отек 27 15 42
выраженный отек 8 21 29
m j 55 42 194

Таким образом, из 26 пациентов, не имеющих отека, после операции выжило 20 пациентов, умерло - 6 пациентов. Из 42 пациентов, имеющих умеренный отек выжило 27 пациентов, умерло - 15 и т.д.

Критерий хи-квадрат для таблиц сопряженности

Для определения значимости (достоверности) различий одного признака в зависимости от другого (например, исхода операции в зависимости от выраженности отека) применяется критерий хи-квадрат для таблиц сопряженности:


Шанс

Пусть вероятность некоторого события равна p. Тогда вероятность того, что событие не произойдёт равна 1-p.

Например, если вероятность того, что больной останется жив спустя пять лет равна 0.8 (80%), то вероятность того, что он за этот временной промежуток умрёт равна 0.2 (20%).

Определение. Шанс - это отношение вероятности того, что события произойдёт к вероятности того, что событие не произойдёт.

Пример. В нашем примере (про больного) шанс равен 4, так как 0.8/0.2=4

Таким образом, вероятность выздоровления в 4 раза больше вероятности смерти.

Интерпретация значения величины.

1) Если Шанс=1, то вероятность наступления события равна вероятности того, что событие не произойдёт;

2) если Шанс >1, то вероятность наступления события больше вероятности того, что событие не произойдёт;

3) если Шанс <1, то вероятность наступления события меньше вероятности того, что событие не произойдёт.

Отношение шансов

Определение. Отношение шансов (odds ratio) - это отношение шансов для первой группы объектов к отношению шансов для второй группы объектов.

Пример. Допустим, что некоторое лечение проходят и мужчины, и женщины.

Вероятность того, что больной мужского пола останется жив спустя пять лет равна 0.6 (60%); вероятность того, что он за этот временной промежуток умрёт равна 0.4 (40%).

Аналогичные вероятности для женщин равны 0.8 и 0.2.

Отношение шансов в этом примере равно

Интерпретация значения величины.

1) Если отношение шансов =1, то шанс для первой группы равен шансу для второй группы

2) Если отношение шансов >1, то шанс для первой группы больше шанса для второй группы

3) Если отношение шансов <1, то шанс для первой группы меньше шанса для второй группы

В таблицах результатов статистических расчётов в курсовых, дипломных и магистерских работах по психологии всегда присутствует показатель «р».

Например, в соответствии с задачами исследования были рассчитаны различия уровня осмысленности жизни у мальчиков и девочек подросткового возраста.

Среднее значение

U-критерий Манна-Уитни

Уровень статистической значимости (p)

Мальчики (20 чел.)

Девочки

(5 чел.)

Цели

28,9

35,2

17,5

0,027*

Процесс

30,1

32,0

38,5

0,435

Результат

25,2

29,0

29,5

0,164

Локус контроля - «Я»

20,3

23,6

0,067

Локус контроля - «Жизнь»

30,4

33,8

27,5

0,126

Осмысленность жизни

98,9

111,2

0,103

* - различия статистически достоверны (р 0,05)

В правом столбце указано значение «р» и именно по его величине можно определить значимы различия осмысленности жизни в будущем у мальчиков и девочек или не значимы. Правило простое:

  • Если уровень статистической значимости «р» меньше либо равен 0,05, то делаем вывод, что различия значимы. В приведенной таблице различия между мальчиками и девочками значимы в отношении показателя «Цели» - осмысленность жизни в будущем. У девочек этот показатель статистически значимо выше, чем у мальчиков.
  • Если уровень статистической значимости «р» больше 0,05, то делается заключение, что различия не значимы. В приведенной таблице различия между мальчиками и девочками не значимы по всем остальным показателям, за исключением первого.

Откуда берется уровень статистической значимости «р»

Уровень статистической значимости вычисляется статистической программой вместе с расчётом статистического критерия. В этих программах можно также задать критическую границу уровня статистической значимости и соответствующие показатели будут выделяться программой.

Например, в программе STATISTICA при расчете корреляций можно установить границу «р», например, 0,05 и все статистически значимые взаимосвязи будут выделены красным цветом.

Если расчёт статистического критерия проводится вручную, то уровень значимости «р» выявляется путем сравнения значения полученного критерия с критическим значением.

Что показывает уровень статистической значимости «р»

Все статистические расчеты носят приблизительный характер. Уровень этой приблизительности и определяет «р». Уровень значимости записывается в виде десятичных дробей, например, 0,023 или 0,965. Если умножить такое число на 100, то получим показатель р в процентах: 2,3% и 96,5%. Эти проценты отражают вероятность ошибочности нашего предположения о взаимосвязи, например, между агрессивностью и тревожностью.

То есть, коэффициент корреляции 0,58 между агрессивностью и тревожностью получен при уровне статистической значимости 0,05 или вероятности ошибки 5%. Что это конкретно означает?

Выявленная нами корреляция означает, что в нашей выборке наблюдается такая закономерность: чем выше агрессивность, тем выше тревожность. То есть, если мы возьмем двух подростков, и у одного тревожность будет выше, чем у другого, то, зная о положительной корреляции, мы можем утверждать, что у этого подростка и агрессивность будет выше. Но так как в статистике все приблизительно, то, утверждая это, мы допускаем, что можем ошибиться, причем вероятность ошибки 5%. То есть, сделав 20 таких сравнений в этой группе подростков, мы можем 1 раз ошибиться с прогнозом об уровне агрессивности, зная тревожность.

Какой уровень статистической значимости лучше: 0,01 или 0,05

Уровень статистической значимости отражает вероятность ошибки. Следовательно, результат при р=0,01 более точный, чем при р=0,05.

В психологических исследованиях приняты два допустимых уровня статистической значимости результатов:

р=0,01 - высокая достоверность результата сравнительного анализа или анализа взаимосвязей;

р=0,05 - достаточная точность.

Надеюсь, эта статья поможет вам написать работу по психологии самостоятельно. Если понадобится помощь, обращайтесь (все виды работ по психологии; статистические расчеты).

Статистическая значимость

Результаты, полученные с помощью определенной процедуры исследования, называют статистически значимыми , если вероятность их случайного появления очень мала. Эту концепцию можно проиллюстрировать на примере кидания монеты. Предположим, что монету подбросили 30 раз; 17 раз выпал «орел» и 13 раз выпала «решка». Является ли значимым отклонение этого результата от ожидаемого (15 выпадений «орла» и 15 - «решки»), или это отклонение случайно? Чтобы ответить на этот вопрос, можно, например, много раз кидать ту же монету по 30 раз подряд, и при этом отмечать, сколько раз повторится соотношение «орлов» и «решек», равное 17:13. Статистический анализ избавляет нас от этого утомительного процесса. С его помощью после первых 30 киданий монеты можно произвести оценку возможного числа случайных выпадений 17 «орлов» и 13 «решек». Такая оценка называется вероятностным утверждением.

В научной литературе по индустриально-организационной психологии вероятностное утверждение в математической форме обозначается выражением р (вероятность) < (менее) 0,05 (5 %), которое следует читать как «вероятность менее 5 %». В примере с киданием монеты это утверждение будет означать, что если исследователь проведет 100 опытов, каждый раз кидая монету по 30 раз, то он может ожидать случайного выпадения комбинации из 17 «орлов» и 13 «решек» менее, чем в 5 опытах. Этот результат будет сочтен статистически значимым, поскольку в индустриально-организационной психологии уже давно приняты стандарты статистической значимости 0,05 и 0,01 (р < 0,01). Этот факт важен для понимания литературы, но не следует считать, что он говорит о бессмысленности проведения наблюдений, не соответствующих этим стандартам. Так называемые незначимые результаты исследований (наблюдения, которые можно получить случайно более одного или пяти раз из 100) могут быть весьма полезными для выявления тенденций и как руководство к будущим исследованиям.

Необходимо также заметить, что не все психологи соглашаются с традиционными стандартами и процедурами (например, Cohen, 1994; Sauley & Bedeian, 1989). Вопросы, связанные с измерениями, сами по себе являются главной темой работы многих исследователей, изучающих точность методов измерений и предпосылки, которые лежат в основе существующих методов и стандартов, а также разрабатывают новые медики и инструменты. Может быть, когда-нибудь в будущем исследования в этой власти приведут к изменению традиционных стандартов оценки статистической значимости, и эти изменения завоюют всеобщее признание. (Пятое отделение Американской психологической ассоциации объединяет психологов, которые специализируются на изучении оценок, измерений и статистики.)

В отчетах об исследованиях вероятностное утверждение, такое как р < 0,05, связано некоторой статистикой, то есть числом, которое получено в результате проведения определенного набора математических вычислительных процедур. Вероятностное подтверждение получают путем сравнения этой статистики с данными из специальных таблиц, которые публикуются для этой цели. В индустриально-организационных психологических исследованиях часто встречаются такие статистики, как r, F, t, г> (читается «хи квадрат») и R (читается «множественный R»). В каждом случае статистику (одно число), полученную в результате анализа серии наблюдений, можно сравнить числами из опубликованной таблицы. После этого можно сформулировать вероятностное утверждение о вероятности случайного получения этого числа, то есть сделать вывод о значимости наблюдений.

Для понимания исследований, описанных в этой книге, достаточно иметь ясное представление о концепции статистической значимости и необязательно знать, как рассчитываются упомянутые выше статистики. Однако было бы полезно обсудить одно предположение, которое лежит в основе всех этих процедур. Это предположение о том, что все наблюдаемые переменные распределяются приблизительно по нормальному закону. Кроме того, при чтении отчетов об индустриально-организационных психологических исследованиях часто встречаются еще три концепции, которые играют важную роль - во-первых, корреляция и корреляционная связь, во-вторых, детерминант/ предсказывающая переменная и «ANOVA» (дисперсионный анализ), в-третьих, группа статистических методов под общим названием «метаанализ».