Как сделать распределение нормальным

Добавил пользователь Валентин П.
Обновлено: 08.10.2024

Как проверить выборку на нормальность распределения в excel

Возвращает нормальную функцию распределения для указанного среднего и стандартного отклонения. Эта функция очень широко применяется в статистике, в том числе при проверке гипотез.

Важно: Эта функция была заменена одной или несколькими новыми функциями, которые обеспечивают более высокую точность и имеют имена, лучше отражающие их назначение. Хотя эта функция все еще используется для обеспечения обратной совместимости, она может стать недоступной в последующих версиях Excel, поэтому мы рекомендуем использовать новые функции.

Дополнительные сведения о новом варианте этой функции см. в статье Функция НОРМ.РАСП.

Синтаксис

Аргументы функции НОРМРАСП описаны ниже.

X Обязательный. Значение, для которого строится распределение.

Среднее Обязательный. Среднее арифметическое распределения.

Стандартное_откл Обязательный. Стандартное отклонение распределения.

Интегральная — обязательный аргумент. Логическое значение, определяющее форму функции. Если аргумент "интегральная" имеет значение ИСТИНА, функция НОРМРАСП возвращает интегральную функцию распределения; если этот аргумент имеет значение ЛОЖЬ, возвращается весовая функция распределения.

Замечания

Если среднее = 0, стандартное_откл = 1 и интегральная = ИСТИНА, то функция НОРМРАСП возвращает стандартное нормальное распределение, т. е. НОРМСТРАСП.

Уравнение для плотности нормального распределения (аргумент "интегральная" содержит значение ЛОЖЬ) имеет следующий вид:

Если аргумент "интегральная" имеет значение ИСТИНА, формула описывает интеграл с пределами от минус бесконечности до x.

Пример

Скопируйте образец данных из следующей таблицы и вставьте их в ячейку A1 нового листа Excel. Чтобы отобразить результаты формул, выделите их и нажмите клавишу F2, а затем — клавишу ВВОД. При необходимости измените ширину столбцов, чтобы видеть все данные.

Проверка распределения на нормальность в EXCEL

Предположим, что имеется некий набор данных. Требуется оценить, соответствует ли данная выборка нормальному распределению .

Рассмотренный ниже графический метод основан на субъективной визуальной оценке данных. Объективным же подходом является, например, анализ степени согласия гипотетического распределения с наблюдаемыми данными (goodness-of-fit test), который рассмотрен в статье Проверка простых гипотез критерием Пирсона ХИ-квадрат .

Рассмотрим алгоритм построения графика проверки распределения на нормальность ( Normal Probability Plot ) :

  • Отсортируйте значения выборки по возрастанию (значения выборки x j будут отложены по горизонтальной оси Х);
  • Каждому значению x jвыборки поставьте в соответствие значения (j-0,5)/n, где n – количество значений в выборке , j – порядковый номер значения от 1 до n. Этот массив будет содержать значения от 0,5/n до (n-0,5)/n. Таким образом, диапазон от 0 до 1 будет разбит на равномерные отрезки. Этот диапазон соответствует вероятности наблюдения значений случайной величины Zj ;
  • Преобразуем значения массива, полученные на предыдущем шаге, с помощью обратной функциистандартного нормального распределения НОРМ.СТ.ОБР() и отложим их по вертикальной оси Y.


Если значения выборки , откладываемые по оси Х, взяты из стандартного нормального распределения , то на графике мы получим приблизительно прямую линию, проходящую примерно через 0 и под углом 45 градусов к оси х (если масштабы осей совпадают).

Расчеты и графики приведены в файле примера на листе Нормальное . О построении диаграмм см. статью Основные типы диаграмм в MS EXCEL .

Примечание : Значения выборки в файле примера сгенерированы с помощью формулы =НОРМ.СТ.ОБР(СЛЧИС()) . При перерасчете листа или нажатии клавиши F9 происходит обновление данных в выборке . О генерации чисел, распределенных по нормальному закону см. статью Нормальное распределение. Непрерывные распределения в MS EXCEL . Таже значения выборки могут быть сгенерированы с помощью надстройки Пакет анализа .


Если значения выборки взяты из нормального распределения (m не обязательно равно 0, s не обязательно равно 1), то угол наклона кривой даст оценку стандартного отклонения s, а ордината точки пересечения оси Y – оценку среднего значения m.

Данные оценки несколько отличаются от оценок параметров, полученных с помощью функций СРЗНАЧ() и СТАНДОТКЛОН.В() , т.к. они получены методом наименьших квадратов , рассмотренного в статье про регрессионный анализ.


Интересно посмотреть, как будут выглядеть на диаграмме данные, полученные из выборок из других распределений (не из нормального ). В файле примера на листе Равномерное приведен график, построенный на основе выборки из непрерывного равномерного распределения.

Очевидно, что значения выборки совсем не ложатся на прямую линию и предположение о нормальности выборки должно быть отвергнуто.

Подобная визуальная проверка выборки на соответствие другим распределениям может быть сделана при наличии соответствующих обратных функций . В статье Статистики, их выборочные распределения и точечные оценки параметров распределений в MS EXCEL приведены графики для следующих распределений: Стьюдента , ХИ-квадрат распределения , F-распределения . Подобный график также приведен в статье про распределение Вейбулла .

НОРМСТРАСП функция стандартного нормального распределения в Excel

Функция НОРМСТРАСП в Excel используется для нахождения значения статистической функции стандартного нормального распределения. Рассмотрим примеры использования данной функции и самостоятельно составим таблицу нормального закона.

Алгоритм функции нормального стандартного распределения чисел в Excel

В новых версиях Microsoft Office была введена более универсальная функция =НОРМ.СТ.РАСП(), содержащая дополнительный аргумент, который принимает два возможных значения:

  • ИСТИНА – для получения интегральной функции распределения;
  • ЛОЖЬ – для получения весовой функции распределения.

Стандартное нормальное распределение (СНР) – специальная форма распределения, используемая в качестве эталона для оценки данных любого вида. Данный тип распределения по причине неудобства использования формулы общего нормального распределения на практике.

Главные особенности функции:

  1. Площадь участка, ограниченного кривой и осью абсцисс принята за 1.
  2. Стандартное отклонение считается равным 1.
  3. Среднее арифметическое значение принято равным 0.
  4. В функцию f(x) общего теоретического нормального распределения введена переменная z (стандартная нормальная).

Переменная z рассчитывается по формуле:

Смысл переменной z – число стандартных отклонений, на которые отличается значение случайной величины от среднего значения.

Функция НОРМСТРАСП возвращает результат, рассчитанный на основе следующей формулы:

Формула алгоритма.

Именно так и выглядит алгоритм вычисления функции НОРМСТРАСП в Excel

Таблица стандартного нормального распределения в Excel

Пример 1. Найти стандартные нормальные распределения для числовых данных, указанных в таблице.

Вид таблицы данных:

Пример 1.

Для расчетов используем следующую формулу:

  • A2:A11 – диапазон ячеек, содержащих значения переменной z.

НОРМСТРАСП.

С принципом действия функции мы ознакомились. Теперь ничто нам не мешает составить свою таблицу стандартного распределения в Excel. Для этого построим шаблон таблицы нормального закона и заполним ее ячейки формулой со смешанными ссылками:

таблица стандартного распределения в Excel.

Таким образом мы самостоятельно составили таблицу стандартного нормального распределения в Excel.

Расчет вероятности стандартным нормальным распределением в Excel

Пример 2. На заводе изготавливают лампочки. Средний период бесперебойной работы каждой лампы составляет 1000 ч. Стандартное отклонение от срока службы составляет 50 ч. Определить вероятность для каждого из указанных случаев:

  1. Купленная лампа будет работать не более 1200 ч.
  2. Срок службы составит менее 800 ч.
  3. Количество ламп в партии из 500 шт., которые проработают от 900 до 1100 часов.

Вид таблицы данных:

Пример 2.

Для расчета вероятности срока службы менее 1200 ч используем следующую формулу:

(1200-B2)/B3 – выражение для расчета переменной z.

В результате вычислений получим следующее значение вероятности:

выражение для расчета.

Аналогично рассчитаем вероятность того, что срок службы составит менее 800 часов:

Результат вычислений (получена слишком маленькая вероятность, поэтому для наглядности был установлен формат Проценты):

маленькая вероятность.

Нормальное распределение является симметричным относительно оси ординат, поэтому функция НОРМСТРАСП может вычислить значение даже для отрицательного z.

Для определения числа ламп, которые проработают 900-1100 часов, используем формулу:

То есть, была вычислена разность вероятностей двух событий: есть лампы, которые проработают менее 1100 часов, а также лампы, которые проработают менее 900 часов. Результат произведения полученной вероятности и общего числа ламп в партии является искомым значением.

Диаграмма рассеяния в которой площади суверенных государств и зависимых территорий в мире отложены по вертикальной оси относительно популяции этих стран, отложенных по горизонтальной оси. Верхний график использует сырые данные. На нижнем графике площади и популяции преобразованы с помощью логарифмической функции.

Преобразование данных — это применение детерминированной математической функции к каждой точке множества данных, то есть каждая точка данных zi заменяется преобразованным значением y i = f ( z i ) =f(z_)> , где f — функция. Преобразования обычно применяются так, что данные больше подходят для процедуры статистического вывода, которую хотят применять, для улучшения интерпретируемости или для графического [en] представления.

Почти всегда функция, которая применяется для преобразования данных, обратима, и обычно является непрерывной. Преобразование обычно применяется к коллекции сравнимых показателей. Например, если мы работаем с данными по доходам людей в некоторой валюте, обычно преобразуется доход каждого человека с помощью логарифмической функции.

Если исследователь использовав методы, изложенные в предыдущем параграфе, убедился, что гипотеза нормальности распределения не может быть принята, то вполне может быть, что с помощью существующих методов удастся так преобразовать исходные данные, что их распределение будет подчиняться нормальному закону распределения. Для пояснения идеи преобразований рассмотрим качественный пример. Пусть кривая распределения f(x) имеет вид, представленный на рис. 3.7, т.е. имеется очень крутая левая ветвь и пологая правая. Такое распределение отличается от нормального.

Для выполнения операций преобразования каждое наблюдение трансформируется с помощью логарифмического преобразования При этом левая ветвь кривой распределения сильно растягивается и распределение принимает приближенно нормальный вид. Если при преобразовании получаются значения, расположенные между 0 и 1, то все наблюдаемые значения для удобства расчетов и во избежание получения отрицательных параметров необходимо умножить на 10 в соответствующей степени, чтобы все вновь полученные, преобразованные значения были больше единицы, т.е. необходимо выполнить преобразования


Рис. 3.7. Преобразование функции f(x) к нормальному распределению


Асимметричное распределение с одной вершиной приводится к нормальному преобразованием В отдельных случаях можно применять и другие преобразования:


а) обратная величина


б) обратное значение квадратных корней

Преобразование "обратная величина" является наиболее "сильным". Среднее положение между логарифмическим преобразованием и "обратной величиной" занимает преобразование "обратное значение квадратных корней".


Для нормализации смещенного вправо распределения служат, например, степенные преобразования При этом для a принимают значения: а=1,5 при умеренном и а=2 при сильно выраженном правом смещении. Рекомендуем читателю придумать такие преобразования, которые удовлетворяли бы исследователя в том или ином случае.

а ограничено? Рассмотрим в дальнейшем методологию решения этой

4. Анализ результатов пассивного эксперимента. Эмпирические зависимости

4.1. Характеристика видов связей между рядами наблюдений

На практике сама необходимость измерений большинства величин вызывается тем, что они не остаются постоянными, а изменяются в функции от изменения других величин. В этом случае целью проведения эксперимента является установление вида функциональной зависимости =f(X). Для этого должны одновременно определяться как значенияX, так и соответствующие им значения, а задачей эксперимента является установление математической модели исследуемой зависимости. Фактически речь идет об установлениисвязимежду двумя рядами наблюдений (измерений).

Определение связи включает в себя указание вида модели и определения ее параметров. В теории экспериментов независимые параметры X=(x1, . xn) принято называтьфакторами, а зависимые переменные y –откликами. Координатное пространство с координатами x1, x2, . xi, . xnназываетсяфакторным пространством. Эксперимент по определению вида функции


(4.1)

где x – скаляр, называется однофакторным. Эксперимент по определению функции вида


=f(X), (4.1а)

Геометрическое представление функции отклика в факторном пространстве является поверхностью отклика. При однофакторном эксперименте k=1 поверхность отклика представляет собой линию на плоскости, при двухфакторном k=2 – поверхность в трехмерном пространстве.

Связи в общем случае являются достаточно многообразными и сложными. Обычно выделяют следующие виды связей.

Функциональные связи(или зависимости). Это такие связи, когда при изменении величиныXдругая величинаYизменяется так, что каждому значению xiсоответствует совершенно определенное (однозначное) значение yi (рис.4.1а). Таким образом, если выбрать все условия эксперимента абсолютно одинаковыми, то повторяя испытания получим одну и ту же зависимость, т.е. кривые идеально совпадут для всех испытаний.

К сожалению, таких условий в реальности не встречается. На практике не удается поддерживать постоянство условий (например, колебания физико-химических свойств шихты при моделировании процессов тепломассопереноса в металлургических печах). При этом влияние каждого случайного фактора в отдельности может быть мало, однако в совокупности они существенно могут повлиять на результаты эксперимента. В этом случае говорят о стохастической (вероятностной) связи между переменными.


Рис.4.1.Виды связей: а – функциональная связь, все точки лежат на линии; б – связь достаточно тесная, точки группируются возле линии регрессии, но не все они лежат на ней; в – связь слабая


Стохастичность связисостоит в том, что одна случайная переменнаяYреагирует на изменение другойXизменением своего закона распределения (см. рис. 4.1б). Таким образом, зависимая переменная принимает не одно конкретное значение, а некоторое из множества значений. Повторяя испытания мы будем получать другие значения функции отклика и одному и тому же значению x в различных реализациях будут соответствовать различные значения y в интервале [xmin; xmax]. Искомая зависимостьможет быть найдена лишь в результате совместной обработки полученных значений x и y.


На рис.4.1б эта кривая зависимости, проходящая по центру полосы экспериментальных точек (математическому ожиданию), которые могут и не лежать на искомой кривой , а занимают некоторую полосу вокруг нее. Эти отклонения вызваны погрешностями измерений, неполнотой модели и учитываемых факторов, случайным характером самих исследуемых процессов и другими причинами.

При анализе стохастических связей можно выделить следующие основные типы зависимостей между переменными.

1. Зависимости между одной случайной переменной Xот другой случайной переменнойYи их условными средними значениями называютсякорреляционными. Условное среднееi– это среднее арифметическое для реализации случайной величиныYпри условии, что случайная величинаX принимает значениеi.

2. Зависимость случайной переменной Yот неслучайной переменнойXили зависимость математического ожидания Myслучайной величиныYот детерминированного значенияXназываетсярегрессионной. Приведенная зависимость характеризует влияние изменений величиныXна среднее значение величиныY.

Стохастические зависимости характеризуются формой, теснотой связи и численными значениями коэффициентов уравнения регрессии.


Форма связиустанавливает вид функциональной зависимости=f(X) и характеризуетсяуравнением регрессии. Если уравнение связи линейное, то имеем линейную многомерную регрессию, в этом случае зависимостиYотXописываются уравнением прямой линии в k-мерном пространстве


(4.2)

где b0, . bj, . bk– коэффициенты уравнения. Для пояснения существа используемых методов ограничимся сначала случаем, когда x скаляр. В общем случае виды функциональных зависимостей в технике достаточно многообразны: показательные, логарифмическиеи т.д.

Заметим, что задача выбора вида функциональной зависимости – задача неформализуемая, т.к. одна и та же кривая на данном участке примерно с одинаковой точностью может быть описана самыми различными аналитическими выражениями. Отсюда следует важный практический вывод. Даже в наш век ПЭВМ принятие решения о выборе той или иной математической модели остается за исследователем. Только экспериментатор знает, для чего будет в дальнейшем использоваться эта модель, на основе каких понятий будут интерпретироваться ее параметры.


Крайне желательно при обработке результатов эксперимента вид функции =f(X) выбирать исходя их условия соответствия физической природе изучаемых явлений или имеющимся представлениям об особенностях поведения исследуемой величины. К сожалению, такая возможность не всегда имеется, так как эксперименты чаще всего проводятся для исследования недостаточно или неполно изученных явлений.


Рис.4.2. Корреляционное поле

При изучения зависимости =f(X) от одного фактора при заранее неизвестном виде функции отклика для приближенного определения вида уравнения регрессии полезно предварительно построить эмпирическую линию регрессии (рис.4.2). Для этого весь диапазон изменения x на поле корреляции разбивают на равные интервалы?x. Все точки, попавшие в данный интервал?xj, относят к его середине. Для этого подсчитывают частные средние для каждого интервала


(4.3)


Здесь nj– число точек в интервале?xj, причем, где k* – число интервалов разбиения, n – объем выборки.

Затем последовательно соединяют точки отрезками прямой. Полученная ломаная называетсяэмпирической линией регрессии. По виду эмпирической линии регрессии можно в первом приближении подобрать вид уравнения регрессии=f(X).

Под теснотой связипонимается степень близости стохастической зависимости к функциональной, т.е. это показатель тесноты группирования экспериментальных данных относительно принятого уравнения модели (см. рис. 4.1б). В дальнейшем уточним это положение.

Ясно, что это функция, которая описывает тенденцию высокой концентрации значений около центра, но ее точная форма задается специальными параметрами. Кривая нормального распределения Гаусса имеет следующий вид. График нормального распределения напоминает колокол, поэтому можно встретить название колоколообразная кривая.

Что такое нормальное распределение для чайников?

Нормальное распределение, также называемое распределением Гаусса, — распределение вероятностей, которое играет важнейшую роль во многих областях знаний, особенно в физике. Физическая величина подчиняется нормальному распределению, когда она подвержена влиянию огромного числа случайных помех.

Как доказать что распределение нормальное?

Если сложить достаточно большое количество независимых одинаково распределённых величин с конечной дисперсией, то сумма будет иметь распределение, близкое к нормальному. Например, если сложить 100 независимых стандартно равномерно распределённых случайных величин, то распределение суммы будет приближённо нормальным.

Какое распределение чаще всего встречается в природе?

Диффузный тип распределения особей, встречается в природе значительно чаще, при нем особи распределены в пространстве неравномерно, случайно (рис. 10.1, Б).

В каком критерии используется нормальное распределение?

Стандартное нормальное распределение используется при проверке различных гипотез, в том числе о среднем значении, о различии между двумя средними и о пропорциональности значений. Оно имеет среднее 0 и стандартное отклонение 1.

Что такое распределение в статистике?

Распределения случайных величин и функции распределения. Распределение числовой случайной величины – это функция, которая однозначно определяет вероятность того, что случайная величина принимает заданное значение или принадлежит к некоторому заданному интервалу.

Чем характеризуется нормальное распределение?

Нормальное распределение характеризуется тем, что крайние значения признака в нем встречаются достаточно редко, а значения, близкие к средней величине - достаточно часто. . График нормального распределения представляет собой привычную глазу психолога-исследователя так называемую колоколообразную кривую (см.

В чем смысл правила 3 сигм для нормального распределения?

Правило, утверждающее, что вероятность того, что случайная величина отклонится от своего математического ожидания более чем на три среднеквадратических отклонения, практически равна нулю. Правило справедливо только для случайных величин, распределенных по нормальному закону.

Какой вид имеет функция нормального распределения?

Характеристическая функция нормального распределения имеет вид: Дифференцируя характеристическую функцию и полагая t = 0, получаем моменты любого порядка. Параметр стандартного отклонения меняется в пределах от 0 до ?. . Варьируя параметры и , мы получаем разнообразные модели случайных величин, возникающие в телефонии.

Что такое распределение в математике?

Распределение вероятностей — это закон, описывающий область значений случайной величины и вероятности их принятия.

Что значит Бимодальное распределение?

Бимодальное распределение (bimodal distribution) – распределение данных с двумя четко выраженными пиками – двумя модами.

Что определяет нормальный закон распределения?

Нормальным называется распределение вероятностей, которое для одномерного случая задаётся функцией Гаусса. . Случайная величина подчиняется нормальному закону распределения, когда она подвержена влиянию большого числа случайных факторов, что является типичной ситуацией в анализе данных.

Где применяется нормальный закон распределения?

В теории надежности его используют для описания постепенных отказов, когда распределение времени безотказной работы вначале имеет низкую плотность, затем максимальную и далее плотность снижается.

Чем отличается нормальное распределение от распределения Стьюдента?

Какой критерий применяется при проверке гипотезы о нормальном законе распределения генеральной совокупности?

Критерий согласия Пирсона (или критерий ch2 - "хи квадрат") - наиболее часто употребляемый для проверки гипотезы о принадлежности некоторой выборки теоретическому закону распределения (в учебных задачах чаще всего проверяют "нормальность" - распределение по нормальному закону).

Какой тип критериев можно использовать только в том случае если значения признака распределены по нормальному закону?

Нормальное распределение имеет ещё и то преимущество, что один из наиболее простых в использовании статистических критериев, используемых для проверки статистических гипотез - критерий Стьюдента - может быть использован только в том случае, когда данные выборки подчиняются нормальному закону распределения.

Читайте также: