Переводные статьи
Популярное | Последнее

Распределение погрешности измерений

Автор: Вадим Сеничев
11 июня в 15:36

Перевод статьи " The Distribution of Measurement Error    выполнил Вадим Сеничев.

Когда закладывались основы современной науки, потребность в модели неопределенности измерений стала очевидной. В этой статье мы рассмотрим развитие теории погрешности измерений и обнаружим ее следствия.


Проблема может быть выражена следующим образом: повторные измерения одного и того же объекта, если они не будут слишком сильно округлены, часто будут давать целый диапазон наблюдаемых значений.

Если мы позволим X обозначать одно из этих наблюдаемых значений, то логично думать, что X имеет два компонента. Пусть Y обозначает действительное, но неизвестное значение измеряемого объекта, а E обозначает ошибку измерения, связанную с этим наблюдением. Тогда X = Y + E, и мы хотим использовать наши повторные измерения, чтобы найти оценку Y, несмотря на неопределенности, вносимые членами ошибок E. Как оказалось, наилучшая используемая оценка будет зависеть от свойств распределения членов ошибок E.

Ошибки измерения обычно рассматриваются как совокупность эффектов различных «окружающих» условий, влияющих на процесс измерения, таких как операторы, оборудование, методы, а также всех других различных факторов, известных или неизвестных. Поскольку эти условия логически независимы друг от друга, мы думаем об ошибке измерения для одного наблюдения как о сумме эффектов этих различных условий окружающей среды. Даже если мы не сможем определить влияние всех этих условий, нам все же необходимо определить, как все они в совокупности приводят к ошибкам измерения.


Функция ошибки

В постньютоновском XVIII веке единственными заслуживающими доверия моделями были те, которые можно было вывести из первых принципов. Но никто не разработал такой модели для характеристики ошибки измерения. Были предприняты различные попытки, но это были по существу модели ad hoc, отобранные субъективным образом для конкретной рассматриваемой проблемы. Единственное, с чем можно было согласиться, это то, что эти модели должны быть симметричны относительно нуля и что вероятность ошибки должна уменьшаться по мере увеличения размера ошибки. И эти два общих условия подходят для многих различных вероятностных моделей, что делает выбор любой модели довольно произвольным. Поскольку результаты анализа могли меняться в зависимости от выбора модели неопределенности, эта субъективность была неудовлетворительной.

Наконец, Пьер-Симон Лаплас решил вывести из первых принципов вероятностную модель неопределенностей измерения. В 1774 году он предложил элегантную и обманчиво простую кривую в качестве графика распределения погрешностей.

1Ф.jpeg

Сегодня эта кривая известна как распределение Лапласа. В стандартном виде она показана на рисунке 1. С этой кривой очень трудно работать, и она страдает еще одним серьезным недостатком, из-за которого Лаплас даже сомневался публиковать свои результаты.

1Г.jpeg
Недостаток распределения Лапласа заключается в следующем: при множественных наблюдениях одной величины интуитивно понятно использовать среднее значение этих наблюдений в качестве оценки этой величины. Но является ли среднее значение наилучшей оценкой? Ответ на этот вопрос будет зависеть от вероятностной модели ошибок наблюдения; Модель Лапласа 1774 года не поддерживает среднее значение как наилучшую оценку.

Из-за этого недостатка и неподатливости самой кривой модель 1774 года не имела практического применения, даже несмотря на то, что вывод кривой из первых принципов сам по себе был замечательным техническим достижением.

Неудовлетворенный своей первой попыткой распределения погрешностей, Лаплас продолжил работу над этой проблемой и в 1777 году предложил другую модель. Аргумент в поддержку этой новой модели был очень сложным, и в первой опубликованной версии он занимал в общей сложности 20 страниц. В этой модели 1777 года для функции ошибок использовалась кривая, определяемая следующим образом:

2Ф.jpeg

Это распределение симметрично относительно 0. Оно дает уменьшение вероятности погрешности по мере удаления от 0. И оно накладывает ограничение а на величину ошибки. В стандартном виде он показан на рисунке 2.

2Г.jpeg

Распределение ошибок 1777 года имело одну искупительную особенность, которой не было у распределения 1774 года: новая кривая ошибок позволяла использовать среднее значение наблюдений в качестве наилучшей оценки количества. Однако, несмотря на триумф модели 1777 года, новая кривая все еще не была практической функцией ошибки — факт, который Лаплас и признавал в оригинальной работе. После этих двух безуспешных попыток охарактеризовать неопределенность измерения из первых принципов Лаплас прекратил работу над этой проблемой. Однако 33 года спустя Лаплас нашел решение этой проблемы, расширив работу Абрахама де Муавра.

В 1730-х годах де Муавр опубликовал аппроксимацию центральных членов биномиальной вероятностной модели. Это приближение было предложено для помощи в вычислениях. Сегодня это известно как нормальное распределение.

В апреле 1810 года Лаплас зачитал во Французской академии наук в Париже доклад, в котором было представлено основное обобщение результата Муавра. В то время как де Муавр доказал, что:

Общее число успехов в n попытках, если n велико, будет приблизительно нормально распределено.


Лаплас расширил это до:

Любая сумма или среднее значение, если число членов в сумме велико, будут приблизительно нормально распределены.

Хотя некоторые исключения и дополнительные условия будут добавлены к уравнению позже, эта теорема является фундаментальной предельной теоремой теории вероятностей. Этот результат Лапласа обычно называют центральной предельной теоремой, поскольку он устанавливает центральную роль нормального распределения в теории вероятностей.

3Г.jpeg

Центральная предельная теорема Лапласа создает порядок из хаоса. При данных наблюдениях системы, подверженной однородному набору причин, нам не нужно знать характеристики отдельных наблюдений, чтобы знать, как поведут себя суммы или средние значения большого числа этих наблюдений — они всегда будут приблизительно нормально распределено! И для целей этой теоремы «большим» может быть всего от 5 до 10 попыток в сумме или в среднем.

Более того, если каждое отдельное наблюдение можно рассматривать как сумму большого числа следствий, возникающих из набора однородных причин (где ни одна из причин не будет иметь преобладающего следствия), то сами отдельные наблюдения будут приблизительно нормально распределены. Таким образом, с помощью центральной предельной теоремы Лаплас открыл двери для развития методов статистического анализа. И в этом заключалась суть оригинальной статьи Лапласа.

Книга Гаусса «Теория движения небесных тел…» попала в Париж в мае 1810 года. В этой книге Гаусс обосновал свои оценки методом наименьших квадратов, предположив, что нормальное распределение моделирует ошибку измерения. Прочитав книгу Гаусса, Лаплас понял, что его теорема заполнила пробел в рассуждениях Гаусса — она обосновала выбор нормального распределения. Поэтому Лаплас быстро подготовил приложение к своей статье с центральной предельной теоремой, в котором обосновал роль нормальной кривой как распределения ошибок.

Благодаря вкладу и авторитету Гаусса и Лапласа нормальная кривая быстро нашла признание в качестве подходящей модели для ошибки измерения. Сегодня, спустя более чем 200 лет использования, математические таблицы просто ссылаются на нормальное распределение как на функцию ошибки.


Назад в будущее

Сегодня некоторые специалисты-практики предлагают использовать другие модели вероятности для измерения погрешностей. Среди предложений мы находим логнормальные распределения, распределения Стьюдента-t с малыми степенями свободы (df) и даже распределение Коши (известное математикам как Верзьера Аньези или локон Аньези). С этими предложениями мы фактически вернулись к хаосу XVIII века.

Первая проблема с альтернативными видами теорем заключается в том, что они накладывают на данные неподходящие структуры. Мы думаем об ошибках измерения как о комбинированном результате воздействия различных условий окружающей среды. Чтобы комбинированный результат был логнормально распределен, различные эффекты должны комбинироваться мультипликативным образом. Это несовместимо с идеей, что эти различные условия действуют независимо друг от друга. (Теория вероятностей требует, чтобы независимые эффекты комбинировались аддитивным образом).

Аналогично для распределений Стьюдента-t: переменная Коши или Стьюдента-t описывает поведение отношения двух независимых величин, а отношение требует мультипликативной модели, а не аддитивной. Таким образом, наша концептуальная модель ошибки измерения несовместима с предложенными альтернативными распределениями ошибки измерения.

Кроме того, все предложенные альтернативы имеют меньшую неопределенность, чем нормальное распределение. На рисунке 4 это показано для пары стандартизированных t-распределений. Нормальное распределение – это распределение максимальной неопределенности.