Проблема подозрительно выделяющихся значений
Проблема подозрительно выделяющихся значений.
Часто при измерении какой-либо величины один или несколько результатов значительно отличаются от основной массы значений. До сих пор и теория и прикладные методы исключения резко выделяющихся результатов разработаны плохо. Ввиду того, что проверяемая выборка может не следовать приписываемой ей статистике, не только выявление, но и устранение аномальных результатов представляет далеко не простую и корректную процедуру.
Для выявления грубых ошибок химического анализа, (как правило, малый объем выборки) принято использовать ряд специальных тестов, таких как “Dixon’s Q”(тест Диксона) и “MAD-test”.
Dixon’s Q используют при малых объемах выборки (n<20-25). Рассчитывают величины Qik , причем величины i,k и соответствующие им статистические функции Qik
Выбирают в зависимости от общего числа измерений n. Формулы для расчета представлены в табл. 1.
Таблица 1 Формулы для расчета Qik
n |
Qik |
Подозрительно выделяющееся значение |
|
xn |
x1 |
||
3...7 |
Q1,0 |
(xn-xn-1)/(xn-x1) |
(x2-x1)/(xn-x1) |
8...10 |
Q1,1 |
(xn-xn-1)/(xn-x2) |
(x2-x1)/(xn-1-x1) |
11...13 |
Q2,1 |
(xn-xn-2)/(xn-x2) |
(x3-x1)/(xn-1-x1) |
14...25 |
Q2,2 |
(xn-xn-2)/(xn-x3) |
(x3-x1)/(xn-2-x1) |
Найденные значения Qik сравнивают с критическим значением Qкр, соответствующим n и выбранной вероятности ошибки второго рода – “степени риска”. Если Qik> Qкр, то подозрительное значение считается промахом в дальнейшем анализе не используется.
Таблица 2 Критические значения теста Диксона Qкр
|
Число измерений n |
Степень риска (вероятность ошибки |
|||||
0,005 |
0,01 |
0,05 |
0,10 |
||||
Q10 |
|
3 4 5 б |
|
0,994 0,926 0,821 0,740 0,680 |
0,988 |
0,941 |
0,886 0,679 0,557 0,482 0,434 |
Q11 |
|
8 |
|
0,725 0,677 0,639 |
0,683 0,635 0,597 |
0,554 0,512 0,477 |
0,479 0,441 |
Q21 |
|
11 |
|
0,713 0,675 0,649 |
0,679 0,642 |
0,576 0,546 0,521 |
0,517 0,490 0,467 |
Q22 |
|
14 15 |
|
0,674 0,647 0,624 0,605 |
0,641 0,616 0,595 0,577 0,561 0,547 0,535 |
0,546 |
0,492 0,472 0,454 0,438 0,424 0,412 0,401 |
Пример 1. В результате пяти параллельных измерений концентрации меди в сплаве получены следующие значения (в процентах): 42,9; 43,3; 43,5; 43,6; 44,8. Предположим, что подозрительно выделяющееся значение 44,8. Величина Q10 = (xn– xN-1)/(xn– x1) = (44,8 – 43,6)/44,8 –42,9) = 0,63. Это меньше табличного критического значения Q10 = 0,642 для n = 5 и доверительной вероятности 0,95. Следовательно, значение 44,8 не является выбросом при проверке по тесту Диксона. Применение теста Диксона корректно при нормальной совокупности.
MAD-mecm. Основная проблема, возникающая при использовании “Dixon’s Q”, связана с возможностью неправильной оценки стандартного отклонения sв случае, когда гипотеза о нормальном распределении совокупности неверна. Если сведения о распределении совокупности отсутствуют, можно применить MAD-тест, относящийся к робастным, т.е. устойчивым к нарушениям основных предположений, методам. Для оценки дисперсии выборки в этом методе используется медиана абсолютных отклонений (medianabsolutedeviation, MAD):
MAD = median [|Xi- median (Xi)|],
где median— обозначение медианы.
Для проверки гипотезы о том, что подозрительно выделяющееся значение Хвьд (Хn или Хi) является выбросом, рассчитывают отношение
[|xвыд - median(xi)|]/MAD
Если это отношение больше 5, то xвыдявляется грубым промахом (выбросом) и должно быть отброшено.
Рассмотрим применение MAD-теста. на примере 1. Медиана равна 43,5, величины
[|Хi — median (Xi)|] составляют 0,6; 0,2; 0; 0,1; 1,3. Медиана этих величин MAD = 0,2, отношение [|xвыд - median(xi)|]/MAD равно (44,8—43,5)/0,2 = 6,5 > 5, т.е. результат измерения 44,8 является выбросом.
Данное заключение противоречит выводу по тесту Диксона, что дает нам право сомневаться в обоих тестах. Тем не менее, использование обоих тестов является общепринятым.
Тем не менее существует несколько правил, соблюдение которых необходимо для получения корректных результатов при выявлении грубых промахов:
- недопустим произвольный отброс подозрительно выделяющихся значений
- применение тестов для выявления грубых промахов применимы к некоррелированным данным и их нельзя применять к взаимозависимым результатам измерений
- к каждой выборке может применяться любой подходящий тест, но только один и только однократно. Выявленные выбросы не учитываются при статистических расчетах, но не должны забываться: вообще их показывают на гистограммах, сообщают при выдаче результатов измерений и т.д. Кроме того, каждый выброс должен анализироваться с т.з. причин его появления.
см. также
Математическая обработка результатов химического анализа
- О математической обработке результатов химического анализа
- Оценка погрешностей измерений. Расчет выборочного стандартного отклонения
- Запись результатов измерений
- Сравнение средних результатов химического анализа.
t-критерий Стьюдента - Проблема подозрительно выделяющихся значений
- Погрешности косвенных измерений. Погрешность функций одного или нескольких переменных