Проблема подозрительно выделяющихся значений

Проблема подозрительно выделяющихся значений. Часто при измерении какой-либо величины один или несколько результатов значительно отличаются от основной массы значений. До сих пор и теория и прикладные методы исключения резко выделяющихся результатов разработаны плохо. Ввиду того, что проверяемая выборка может не следовать приписываемой ей статистике, не только выявление, но и устранение аномальных результатов представляет далеко не простую и корректную процедуру.
Для выявления грубых ошибок химического анализа, (как правило, малый объем выборки) принято использовать ряд специальных тестов, таких как “Dixon’s Q”(тест Диксона) и “MAD-test”.
Dixons Q используют при малых объемах выборки (n<20-25). Рассчитывают величины Qik , причем величины i,k и соответствующие им статистические функции Qik
Выбирают в зависимости от общего числа измерений n. Формулы для расчета представлены в табл. 1.


Таблица 1 Формулы для расчета Qik

n

Qik

Подозрительно выделяющееся значение

xn

x1

3...7

Q1,0

(xn-xn-1)/(xn-x1)

(x2-x1)/(xn-x1)

8...10

Q1,1

(xn-xn-1)/(xn-x2)

(x2-x1)/(xn-1-x1)

11...13

Q2,1

(xn-xn-2)/(xn-x2)

(x3-x1)/(xn-1-x1)

14...25

Q2,2

(xn-xn-2)/(xn-x3)

(x3-x1)/(xn-2-x1)

 

Найденные значения Qik сравнивают с критическим значением Qкр, соответствующим n и выбранной вероятности ошибки второго рода – “степени риска”. Если Qik> Qкр, то подозрительное значение считается промахом в дальнейшем анализе не используется.

Таблица 2 Критические значения теста Диксона Qкр


Статистическая функция Qik

Число измере­ний n

Степень риска (вероятность ошибки
2-го рода)

0,005

0,01

0,05

0,10

Q10

 

3 4 5 б
7

 

0,994 0,926 0,821 0,740 0,680

0,988
0,889 0,780 0,698 0,637

0,941
0,765
0,642
0,560 0,507

0,886 0,679 0,557 0,482 0,434

Q11

 

8
9 10

 

0,725 0,677 0,639

0,683 0,635 0,597

0,554 0,512 0,477

0,479 0,441
0,409

Q21

 

11
12
13

 

 

0,713 0,675 0,649

0,679 0,642
0,615

0,576 0,546 0,521

0,517 0,490 0,467

Q22

 

14 15
16
17 18 19 20

 

0,674 0,647 0,624 0,605
0,589 0,575 0,562

0,641 0,616 0,595 0,577 0,561 0,547 0,535

0,546
0,525 0,507
0,490 0,475 0,462 0,450

0,492 0,472 0,454 0,438 0,424 0,412 0,401    

 

Пример 1. В результате пяти парал­лельных измерений концентрации меди в сплаве получены следующие значения (в процентах): 42,9; 43,3; 43,5; 43,6; 44,8. Предположим,   что  подозрительно  выделяющееся  значение 44,8. Величи­на Q10 = (xnxN-1)/(xnx1) = (44,8 43,6)/44,8 42,9) =  0,63. Это меньше табличного критического значения Q10 = 0,642 для n = 5 и доверительной вероятности 0,95. Следо­вательно, значение 44,8 не является выбросом при проверке по тесту Диксона. Применение теста Диксона корректно при нормальной совокупности.

 

MAD-mecm. Основная проблема, возникающая при использовании “Dixon’s Q”, свя­зана с возможностью неправильной оценки стандартного от­клонения sв случае, когда гипотеза о нормальном распреде­лении совокупности неверна. Если сведения о распределении совокупности отсутствуют, можно применить MAD-тест, от­носящийся к робастным, т.е. устойчивым к нарушениям ос­новных предположений, методам. Для оценки дисперсии вы­борки в этом методе используется медиана абсолютных от­клонений (medianabsolutedeviation, MAD):

MAD = median [|Xi- median (Xi)|],

где median— обозначение медианы.

Для проверки гипотезы о том, что подозрительно выде­ляющееся значение Хвьд (Хn или  Хi) является выбросом, рас­считывают отношение

[|xвыд - median(xi)|]/MAD                                             

Если это отношение больше 5, то xвыдявляется грубым про­махом (выбросом) и должно быть отброшено.


Рассмотрим применение MAD-теста. на примере 1. Медиана равна 43,5, величины
[|Хi — median (Xi)|] составляют 0,6; 0,2; 0; 0,1; 1,3. Медиана этих величин MAD = 0,2, отношение [|xвыд - median(xi)|]/MAD равно (44,8—43,5)/0,2 = 6,5 > 5, т.е. результат измере­ния 44,8 является выбросом.

Данное заключение противоре­чит выводу по тесту Диксона, что дает нам право сомневаться в обоих тестах. Тем не менее, использование обоих тестов яв­ляется общепринятым.


Тем не менее существует несколько правил, соблюдение которых необходимо для получения корректных результатов при выявлении грубых промахов:

  • недопустим произвольный отброс подозрительно выделяющихся значений
  • применение тестов для выявления грубых промахов применимы к некоррелированным данным и их нельзя применять к взаимозависимым результатам измерений
  • к каждой выборке может применяться любой подходящий тест, но только один и только однократно. Выявленные выбросы не учитываются при статистических расчетах, но не должны забываться: вообще их показывают на гистограммах, сообщают при выдаче результатов измерений и т.д. Кроме того, каждый выброс должен анализироваться с т.з. причин его появления.

 

см. также

Математическая обработка результатов химического анализа

  1. О математической обработке результатов химического анализа
  2. Оценка погрешностей измерений. Расчет выборочного стандартного отклонения
  3. Запись результатов измерений
  4. Сравнение средних результатов химического анализа.
    t-критерий Стьюдента
  5. Проблема подозрительно выделяющихся значений
  6. Погрешности косвенных измерений. Погрешность функций одного или нескольких переменных