Как сделать стандартизацию данных

Добавил пользователь Алексей Ф.
Обновлено: 19.09.2024

Масштабирование функций - один из наиболее важных этапов предварительной обработки данных в машинном обучении. Алгоритмы, вычисляющие расстояние между элементами, смещаются в сторону более высоких численных значений, если данные не масштабируются.

Алгоритмы на основе дерева довольно нечувствительны к масштабу функций. Кроме того, масштабирование функций помогает машинному обучению, а алгоритмы глубокого обучения обучаются и сходятся быстрее.

Есть некоторые методы масштабирования функций, такие как нормализация и стандартизация, которые являются наиболее популярными и в то же время наиболее запутанными.

Давайте разрешим эту путаницу.

Нормализация или минимальное-максимальное масштабирование используется для преобразования функций в аналогичный масштаб. Новая точка рассчитывается как:

Стандартизация или Z-оценка Нормализация - это преобразование характеристик путем вычитания из среднего значения и деления на стандартное отклонение. Это часто называют Z-оценкой.

Стандартизация может быть полезна в случаях, когда данные соответствуют гауссовскому распределению. Однако это не обязательно должно быть правдой. С геометрической точки зрения, он переводит данные в средний вектор исходных данных в начало координат и сжимает или расширяет точки, если стандартное значение равно 1, соответственно. Мы видим, что мы просто меняем среднее значение и стандартное отклонение на стандартное нормальное распределение, которое по-прежнему является нормальным, поэтому форма распределения не изменяется.

На стандартизацию не влияют выбросы, потому что нет предопределенного диапазона преобразованных функций.

В предыдущем материале мы остановились на теме корреляции из раздела “Статистические вычисления в языке R”. Переходим к ковариации.

Ковариация

Ковариация была придумана для того, чтобы у нас была информация об отношениях между переменными.

Стандартизация и нормализация датасета

Часто нам нужно нормализовать данные, например, методом min-max или рассчитать z-оценку с помощью механизма стандартизации.

Стандартизация данных — это получение датасета с нулевым значением среднего арифметического и стандартным отклонением, которое равно единице. Для этого нужно вычесть среднее арифметическое значение из каждого наблюдаемого и затем поделить то, что получилось, на стандартное отклонение.

Мы можем пользоваться функцией масштабирования. Раз нам нужно вычесть среднее арифметическое значение из каждого наблюдаемого, а затем присвоить его центральному параметру значение “True” (истинно).

Если мы хотим стандартизировать данные, тогда нам нужно установить параметр их масштабирования в значение True.

Регрессионная теория

Теория регрессии набирает популярность в сфере решений для машинного обучения из-за своей простоты и понятности. В сущности, регрессионные модели также помогают нам понять, какие отношения есть между разными переменными.

Обычно коэффициенты вычисляются для одной и более переменных. Эти переменные являются регрессорами. Их применяют, чтобы оценить и предсказать другую, зависимую переменную. Её ещё называют переменной отклика.

Данные для регрессоров собираются в процессе сэмплирования и нужны, чтобы спрогнозировать результат:

bn — коэффициенты, нужные для оценки линейных моделей.
xn — независимые переменные. Мы будем собирать данные для них и передавать в модель.

В качестве примера давайте предположим, что у нас есть собранный датасет с данными о температуре и мы собираемся предсказывать количество осадков. Можем взять линейную модель, такую как показано ниже:

Примечание: если брали несколько переменных, чтобы спрогнозировать сочетание влажности и температуры для предсказания количества осадков, то мы можем использовать функцию lm() и записать следующую формулу:

Теперь можем вывести результаты по модели.

R сообщит нам об остатках, коэффициентах, их стандартной ошибке отклонения, t-критерии Стьюдента, F-критериии Фишера и так далее:

В результате это даст нам следующую статистику:

Для примера выше количество осадков равно -0,1151, а температура +4,8639.

Если мы хотим использовать модель для оценки нового значения, то можем брать функцию predict(), в которой первый параметр — это модель, а второй — значение температуры, для которого мы хотим предсказать количество осадков:

Байесовская модель

Этот подход даёт возможность представлять неизвестные. Цель в том, чтобы ввести данные для оценки неизвестных параметров.

В рамках примера давайте допустим, что мы собираемся определить, насколько будут цениться завтра акции компании. Давайте также учтём, что мы применяем переменную торгов компании для оценки биржевой стоимости.

В таком примере биржевая цена неизвестна и мы будем применять значения торгов компании, чтобы вычислить стоимость акций.

Мы можем собрать примеры продаж из прошлой истории и биржевых оценок, а затем применить их, чтобы найти соотношение между двумя переменными. В реальном проекте мы бы добавили больше переменных для точной оценки биржевой стоимости.

Ключевые концепции для понимания этой задачи — это условная вероятность и теорема Байеса.

В сущности, мы пытаемся применить априорную вероятность стоимости акций, чтобы спрогнозировать ее апостериорную вероятность при помощи данных о правдоподобии и константы нормализации.

Обратите внимание, что мы установили пакет BAS и затем пользовались BAS-библиотекой. Результаты этого смотрите ниже:

Генерация случайных чисел

Чтобы сгенерировать случайные числа в границах диапазона, пользуйтесь функцией runif. Она выведет 100 случайных чисел от 0,1 до 10,0.

Также мы можем использовать функцию sample() для того, чтобы сгенерировать элементы и числа с замещением или без него.

Распределение Пуассона

Мы можем пользоваться распределением Пуассона и применять обобщенную линейную модель из семейства моделей Пауссона:

Вот какие результаты будут на выходе:

Нормальное распределение

Есть несколько путей сгенерировать данные с нормальным распределением. Самый распространённый — вызвать функцию rnorm с размером выборки, средним арифметическим значением и стандартным отклонением:

Прямая подстановка

Прямая подстановка — общий процесс, который используется для решения системы линейных уравнений: Lx = y

В этом примере L — нижняя треугольная матрица коэффициентов L с ненулевыми диагональными элементами.

Есть две функции, которые помогают нам с прямой и обратной подстановкой.

В R есть функция forwardsolve(A,b) — для прямой подстановки нижнего треугольника A и backsolve(A,b) — для обратной подстановки верхнего треугольника A.

Если конкретнее, то вот они:

r: верхняя треугольная матрица: R x = b
l: нижняя треугольная матрица: L x = b

Обе эти треугольные матрицы дают нам коэффициенты, которые мы пытаемся вычислить.

x: это матрица, столбцы которой дают нам правые стороны уравнений.

k: это количество столбцов r и строчек x, которые нам надо использовать.

Если значение upper.tri — TRUE (истинно), значит используйте верхний треугольник r.

Если transpose — True, значит пытаемся решить r’ * y = x для y.

Вывод будет такого же типа, как x, следовательно, если x — это вектор, тогда и на выходе будет вектор, а иначе, если x — это матрица, то и на выходе будет матрица.

T-критерий Стъюдента

T-критерий Стъюдента можно рассчитать при помощи функции t.test().

В качестве примера, критерий с одним сэмплом в языке R можно запустить при помощи t.test(y, mu = 0) , где y — это переменная, которую мы хотим проверить, а mu — это среднее арифметическое значение, как было определено в нулевой гипотезе:

Код выше проверяет, меньше ли значение влажности, чем среднее арифметическое (5). Это и есть нулевая гипотеза.

И вот какие результаты:

Критерий Стьюдента с одним сэмплом

данные: влажность
t = -1,1052, df = 19, p-значение = 0,2829
альтернативная гипотеза: истинное среднее арифметическое не равно 5-ти
95% доверительного интервала:
2,945439 5.634561
оценки сэмпла:
среднее арифметическое значение x
4,29

В этом разделе я объясняю, насколько просто в языке R строить графики.

График распределения X-Y

Я сгенерировал следующие данные:

Сниппет такого кода выведет график:

Коррелограмма

Гистограмма

В этом разделе мы выясним всё о концепции объектно-ориентированного программирования в языке R. Важно понимать, как создавать объекты в R — это поможет вам реализовывать масштабируемые комплексные приложения простыми способами.

Самая важная идея для понимания — это то, что в языке программирования R всё является объектом.

И функция тоже объект. Я говорил об этом в соответствующем разделе. Следовательно, мы должны определить функцию, чтобы создать объекты. Ключевое — установить атрибут класса в объекте.

R поддерживает концепции ООП, например наследование. Класс может быть вектором.

Есть несколько способов создать класс в R. Я продемонстрирую самый простой, который связан с созданием классов типа S3. В него также входит создание списка свойств.

Перед тем как я объясню, как создать вполне полноценный класс, давайте пройдёмся по шагам в упрощенном варианте:

Первый шаг — это создать именованный список, где у каждого элемента есть имя. Имя каждого элемента — это свойство класса. Для примера, вот как мы можем создать класс “Human” (человек) в R:

Мы создали экземпляр класса “Human” со следующими свойствами: значение имени — Farhad, а фамилии — Malik.
Чтобы вывести свойство имени для экземпляра объекта Human, мы можем сделать так:

А теперь давайте перейдём к другой важной концепции. Как нам создать экземпляр метода для объекта?

Ключ к решению: использовать команду UseMethod.

Эта команда “говорит” системе R искать функцию. У объекта может быть множество классов, команда UseMethod использует класс экземпляра, чтобы определить, какой метод выполнять.

Давайте создадим функцию GetName, которая возвращает строку с именем и фамилией после конкатенации:

Чтобы контейнировать это, создадим класс Human со свойствами имени и фамилии. Это всё будет внутри функции GetName(), которая будет возвращать нам имя и фамилию.

Подсказка: создайте функцию, которая возвращает список и передает свойства в виде аргументов в функцию. А потом воспользуйтесь командой UseMethod, чтобы создать методы.

Результат работы этого кода:

Что, если мы хотим создать новый класс OfficeWorker (офисный сотрудник), который наследует свойства класса Human и даёт другую функциональность методу GetName()?

Вот как мы это сделаем:

Если мы создаём экземпляр для офисного работника и выводим его, то получим следующее:

Заметьте, что классы экземпляра — это список, Human и OfficeWorker.

Чтобы создать другую функцию для офисного работника, мы можем переопределить её:

В результате работы этого кода получаем:

Это до безобразия простая процедура. Серьёзно.

Всё, что нужно сделать, напечатать следующую команду (в кавычках подставьте название нужного вам пакета):

Чтобы установить много пакетов сразу, можем передать вектор для команды install.packages:

Для примера: CARAT — один из самых популярных пакетов для машинного обучения.

В R-Studio пакеты устанавливать ну очень просто. Чтобы установить CARAT, выберите вкладку Packages справа внизу и затем нажмите кнопку установки.

Введите “carat” и нажмите Install.

Появится диалоговое окошко с процессом установки пакета:

Когда пакет установился, вы увидим его в командной строке:

Чтобы удалить пакет, напечатайте:

Кроме тех библиотек, которые мы уже упоминали в статье вместе со встроенными функциями, есть большое множество еще и других полезных пакетов, которые я советую:

Prophet: для прогнозирования, науки о данных и аналитических проектов.
Plotly: для графиков.
Janitor: для очистки данных.
Caret: для классификации и регрессионного обучения.
Mlr: для проектов машинного обучения.
Lubridate: для данных во времени.
Ggpolot2: для визуализации.
Dplyr: для манипуляций с данными и их очистки.
Forcats: при работе с категорийными данными.
Dplyr: для манипуляций с данными.

Вот, что мы узнали про язык R:

Что такое R?
Как установить R?
Где писать код на R?
Что такое R-скрипт и R-пакет?
Какие типы данных есть в R?
Как декларировать переменные и их область действия в R?
Как писать комментарии?
Что такое векторы?
Что такое матрица?
Что собой представляют списки?
Что такое датафреймы?
Различные логические операции в R.
Функции в R.
Циклы в R.
Считывание и запись внешних данных в R.
Как производить статистические вычисления в R.
Построение графиков и диаграмм в R.
Объектно-ориентированное программирование в R.
Как установить внешние библиотеки R.
Знаменитые библиотеки R.

Я рассказал о языке программирования R, начиная с основ именно в таком формате, чтобы вам было проще его понять. И снова подчёркиваю, что ключ к продвижению в программировании — постоянная практика: чем больше, тем лучше.

Ковариация

Ковариация была придумана для того, чтобы у нас была информация об отношениях между переменными.

Стандартизация и нормализация датасета

Если мы хотим стандартизировать данные, тогда нам нужно установить параметр ихмасштабирования в значение True.

Регрессионная теория

Данные для регрессоров собираются в процессе сэмплирования и нужны, чтобы спрогнозировать результат:

bn — коэффициенты, нужные для оценки линейных моделей.
xn — независимые переменные. Мы будем собирать данные для них и передавать в модель.

Теперь можем вывести результаты по модели.

В результате это даст нам следующую статистику:

Для примера выше количество осадков равно -0,1151, а температура +4,8639.

Байесовская модель

Ключевые концепции для понимания этой задачи — это условная вероятность и теорема Байеса.

Генерация случайных чисел

Распределение Пуассона

Вот какие результаты будут на выходе:

Нормальное распределение

Прямая подстановка

Прямая подстановка — общий процесс, который используется для решения системы линейных уравнений: Lx = y

В этом примере L — нижняя треугольная матрица коэффициентов L с ненулевыми диагональными элементами.

Есть две функции, которые помогают нам с прямой и обратной подстановкой.

Если конкретнее, то вот они:

r: верхняя треугольная матрица: R x = b
l: нижняя треугольная матрица: L x = b

Обе эти треугольные матрицы дают нам коэффициенты, которые мы пытаемся вычислить.

x: это матрица, столбцы которой дают нам правые стороны уравнений.

k: это количество столбцов r и строчек x, которые нам надо использовать.

Если значение upper.tri — TRUE (истинно), значит используйте верхний треугольник r.

Если transpose — True, значит пытаемся решить r’ * y = x для y.

T-критерий Стъюдента

T-критерий Стъюдента можно рассчитать при помощи функции t.test().

Код выше проверяет, меньше ли значение влажности, чем среднее арифметическое (5). Это и есть нулевая гипотеза.

И вот какие результаты:

Критерий Стьюдента с одним сэмплом

18. Графики и диаграммы в R

В этом разделе я объясняю, насколько просто в языке R строить графики.

График распределения X-Y

Я сгенерировал следующие данные:

Сниппет такого кода выведет график:

График распределения XY

Коррелограмма

19. Объектно-ориентированное программирование в R

Самая важная идея для понимания — это то, что в языке программирования R всё является объектом.

R поддерживает концепции ООП, например наследование. Класс может быть вектором.

Первый шаг — это создать именованный список, где у каждого элемента есть имя. Имя каждого элемента — это свойство класса. Для примера, вот как мы можем создать класс “Human” (человек) в R:

Мы создали экземпляр класса “Human” со следующими свойствами: значение имени — Farhad, а фамилии — Malik.
Чтобы вывести свойство имени для экземпляра объекта Human, мы можем сделать так:

А теперь давайте перейдём к другой важной концепции. Как нам создать экземпляр метода для объекта?

Ключ к решению: использовать команду UseMethod.

Давайте создадим функцию GetName, которая возвращает строку с именем и фамилией после конкатенации:

Результат работы этого кода:

Вот как мы это сделаем:

Если мы создаём экземпляр для офисного работника и выводим его, то получим следующее:

Заметьте, что классы экземпляра — это список, Human и OfficeWorker.

Чтобы создать другую функцию для офисного работника, мы можем переопределить её:

В результате работы этого кода получаем:

20. Как установить внешние пакеты R

Это до безобразия простая процедура. Серьёзно.

Всё, что нужно сделать, напечатать следующую команду (в кавычках подставьте название нужного вам пакета):

Чтобы установить много пакетов сразу, можем передать вектор для команды install.packages:

Для примера: CARAT — один из самых популярных пакетов для машинного обучения.

Введите “carat” и нажмите Install.

Появится диалоговое окошко с процессом установки пакета:

Когда пакет установился, вы увидим его в командной строке:

Чтобы удалить пакет, напечатайте:

21. Знаменитые библиотеки языка R

Prophet: для прогнозирования, науки о данных и аналитических проектов.
Plotly: для графиков.
Janitor: для очистки данных.
Caret: для классификации и регрессионного обучения.
Mlr: для проектов машинного обучения.
Lubridate: для данных во времени.
Ggpolot2: для визуализации.
Dplyr: для манипуляций с данными и их очистки.
Forcats: при работе с категорийными данными.
Dplyr: для манипуляций с данными.

Резюмируем

Вот, что мы узнали про язык R:

Что такое R?
Как установить R?
Где писать код на R?
Что такое R-скрипт и R-пакет?
Какие типы данных есть в R?
Как декларировать переменные и их область действия в R?
Как писать комментарии?
Что такое векторы?
Что такое матрица?
Что собой представляют списки?
Что такое датафреймы?
Различные логические операции в R.
Функции в R.
Циклы в R.
Считывание и запись внешних данных в R.
Как производить статистические вычисления в R.
Построение графиков и диаграмм в R.
Объектно-ориентированное программирование в R.
Как установить внешние библиотеки R.
Знаменитые библиотеки R.

Стандартизация информации и данных, полученных с помощью технологических процессов — это процедура построения несложных проверочных или стереотипных сеток.

Первостепенной целью стандартизации является следующее:

Сравнение результатов, которые были получены в соответствии с некоторыми методиками в разных условиях и разными научными сотрудниками;
Сопоставление информации тестируемого с выборкой характерной информации.

Подборка структуры стандартов информации предусматривает группу компонентов, для фиксации вероятных данных в соответствии с определёнными методами. Эта выборка обязана содержать достаточное количество данных (их не должно быть мало), и в обязательном порядке содержать комплекс данных, которые отражают важные характеристики.

Благодаря методикам стандартизации вырабатываются экспериментальные общепринятые параметры. Последующее тестирование направляется на выборку новейших методологий нормирования.

Практическое значение стандартизации информации

Использование стандартизации информации на предприятиях сводится к повышению истинности оценки выполнения различных работ, и увеличения достоверности производимых расчётов ресурсов, как финансовых, так и материальных. Вдобавок ко всему прочему, улучшается качество производственных процессов.

Рекомендуемые методы сбора информации на базе распространённых средств структуры стандартов в большей степени ускоряет начальную обработку данных. А также способствует наиболее эффективному применению инновационных технологий и хорошо воздействует на истинность результатов показателей, поскольку существенно уменьшает влияние односторонних критериев на совокупность полученных значений.

Способ решения задачи некорректности итогов при анализе данных предписывает образование всесторонних возможностей трансформации начальных графиков в неизменный нормальный вид, который будет более практичным для иной упаковочной обработки.

Сложно разобраться самому?

Попробуй обратиться за помощью к преподавателям

Данные изменения предполагают различные процессы корректировки, калибровки, нормировки и сертификации данных. Практически все методы с этой точки зрения основываются на одинаковых принципах. Таким образом стоит их связать в одно общее название – комплексная классификация.

Применение в стандартизированной сетке математических формул по единообразию данных, учитывая некоторые закономерности, которые присущи определённым объектам, оказывает помощь профессионалам в получении наивысшего качества обработки информации во время интенсивной деятельности.

Формализация и стандартизация информации

Такая процедура позволяет обеспечить полную совместимость результатов разных профессиональных анализов, упрощает степень понятности практически для всех причастных специалистов. Основой сертификации данных являются технологии стандартизации, что способствует более быстрому улучшению полностью всей стадии анализа информации. И позволяет минимизировать ошибки при следующих обработках.

Целью разработки всех операций стандартизации информации является:

Гарантирование надёжности производимых изделий, работ и услуг для окружающей природы, здорового существования людей и частной собственности;
Обеспечение справочной и информационной взаимозаместимостью, а также заменимостью продукции;
Гарантирование высокого качества произведённой продукции, пропорционально уровню научно-технического прогресса;
Обеспечение совпадения и достоверности исследований;
Обеспечение бережливости всех средств производства;
Гарантирование безопасности всех структур народного хозяйства, исходя из возникновения техногенных ситуаций и прочих чрезвычайных бедствий;
Обеспечение подготовленности к мобилизации и обороноспособности страны.

Закон Российской Федерации о стандартизации предполагает обязательное и безукоризненное выполнение всех статей при исполнении своих обязанностей в IT-сфере, в сфере здравоохранения и медицине.

Не нашли что искали?

Просто напиши и мы поможем

На данный момент обще употребляемой практикой стала стандартизация основной информации на базе общепринятого в мире языка программирования Си. Для взаимообмена цифровыми данными электрокардиографии, используется международный норматив SCP-ECG.

Стандартизованные шкалы

Стандартизация информации на сегодняшний день состоит в мгновенном и качественном формировании тестовых шкал. Если первичная информация будет объективно распределена, то нормирование разных методик и технологий сведётся к общему нормативу при помощи компетентной организации шкалы стандартных показателей и методов.

Указанный процесс показывает местонахождение всех значений признака общего объединения и заменимости информации, делая измерения возможных несоответствий от среднеарифметических величин.

На сегодняшний день существуют следующие виды базовых шкал:

Количественный вид. В данном случае среднеарифметическая величина измерений является значимой. И эту технологию принято считать одной из самых популярных и высокоэффективных в плане распространения данных.
Категоризированный вид. Данный вид предусматривает сопоставление показателей и используется для определения разных классов объектов. Категоризированный вид не предполагает использования многих математических процессов, поскольку цифры является простыми признаками отдельных классов.
Бинарный вид. Данный вид относится всего лишь к одной категории, и для комплексной структуры стандартизации информации не годится.

Эту слабую сторону можно одолеть посредством трансформации к более благоприятным в использовании шкалам, строящихся на интегрированной модификации нормальных данных. Для промежуточных структур возможна модификация, где происходит определение практических показателей лишь комфортом процесса. Такого рода сенситограммы принято называть модифицированными, сертифицированными субъектами.

Таблицы, примерных норм в форме стандартного анализа, обладают значением лишь для определённого исследования, применимого к конкретной выборке структуры стандартов информации. Расположение рассмотренных анализов большинства стандартизированных тестов записывается в виде кривых, которые разрабатываются экспертами для облегчения последующих разъяснений анализов посредством выборочной трансформации их в соответствующие числовые величины. Данные значения показывают сравнительное положение компонентов стандартизации.

Читайте также: