Кросс анализ как сделать

Добавил пользователь Алексей Ф.
Обновлено: 03.09.2024

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Гусакова Ю. О.

Статья посвящена изучению истории формирования метода кросс-культурного анализа , процедура которого позволяет определить индивидуальные свойства языковой ментальности .

Кросс культурные исследования как междисциплинарные и психологические

Кросскультурные исследования широко используются не только в области психологии, но и в смежных гуманитарных дисциплинах, таких как психолингвистика, социология, культурная антропология, культурология и др.

Истоки кросскультурного анализа в качестве одного из методов социогуманитарных наук можно обнаружить в этнологии, культурной антропологии, этнографии, истории экономического развития и в общих науках, цель которых построение универсальных теорий сознания, общества и поведения. Суть данных исследований заключается в проведении сопоставительного анализа сознания, поведения и особенностей вида феноменов, которые наблюдаются в культуре различных этнических групп. Если рассматривать данные исследования с такой точки зрения, то они являются междисциплинарными исследованиями.

Однако следует учесть, что в границах каждой дисциплины выделяются устоявшиеся вопросы и методы их решения и изучения, а также объяснительные теории и концепции имеют свои конкретные методологические предпочтения.

В психологической науке кросс-культурные исследования (ККИ) уже преодолели тип соотнесения эмпирического опыта и теоретических выводов, которые связывали этнические и культурные феномены с особенностями субъективной реальности. Важную роль в этом деле сыграли наработки касательно решения проблемы валидности кросскультурного анализа в психологии, которые показали недостаточность исследования и анализа различий, связанных с культурной принадлежностью к какой-либо группе, в смысле помещения причинных факторов внутри культурно-значимой специфики группы, что зацикливало объяснения воздействующих факторов на них же.

Этапы и развитие ККИ

Рассматривая общие этапы кросскультурных исследований и динамику их проблематики, невозможно не уделить внимание специфическим для ККИ в психологии этапам. Определение ККИ впервые появилось в сопоставительном анализе их с экспериментальными методами исследований, что позволило в широком смысле слова рассматривать ККИ в качестве квазиэкспериментов.

В Википедии кросскультурные психологические исследования – это квазиэкспериментальные схемы, сравнивающие однородные выборки, которые отличаются фактором культурной принадлежностью, для того, чтобы проверить влияние данного фактора на психологические показатели.

В рамках ККИ культура рассматривается как характерный образ жизни людей, объединенных языковой или территориальной общностью, а также своего рода контекстными переменными. Существует довольно серьезная проблема по определению зон распространения какой-либо культуры, а также ее единиц для анализа и уровней, в различных исследованиях данная проблема может иметь различные методы решения. Несмотря на это, для шести глобальных культурных зон (Азия, Африка, Южная и Северная Америки, Средиземноморский бассейн и Европа) сложились общие характеристики. В то же время нельзя смешивать понятие страны и культуры, также с точки зрения проверяемых гипотез, выделяют единицы анализа. В таких гипотезах допустимо присутствие конструктов как специфичных в рамках определенной культурной общности (например, советский народ – новая общность, которая постулировалась в СССР), так и общие для разных зон и стран, являющиеся изучаемыми переменными (например, разброс по практике социализации, образовательному уровню и т. д.).

Тенденции кросскультурного анализа

В cross-культурном анализе в психологии выделяют две основные тенденции:

В этих тенденциях можно выделить традиции следования идиографическому и номотетическому подходам, что непосредственно находит отражение в контексте предпочтительной методики исследования (анализ индивидуальных случаев, сравнительный анализ искомых общих или отличительных характеристик или анализ с позиции заранее выделенных характеристик, а также прочие способы качественной методологии для определения уникальности анализируемой реальности). В отличие от этнометодологии, культурной антропологии и прочих направлений, в ККИ психология выделила аспект их структурирования в качестве ведущего, что полностью соответствует целям исследования контекстных переменных как определяющих кросскультурные различия базовых психологических процессов.

Контекстные (контекстуальные) переменные (context variable) – это однородные и постоянные в определенный исторический промежуток времени реконструируемые условия жизни людей или факторы, рассматриваемы в качестве проводников культурного влияния на закономерности, психические процессы и структуры.

Объединение принятым образом жизни, языком и ценностями – это аспект рассмотрения культуры на уровне групп. Самоидентификация групп людей и отдельных лиц – отличительный аспект подобной культурной единицы.

В своих работах Я. Вальсинер дал второе понимание культуры как системы организации жизни, задающей особенности культуры на уровне индивида. Третье понимание культуры при таком подходе – определяемость психики на уровне определенного человека знаковой среды. Такой подход к пониманию психологии культуры нашел отражение в работах Р. Низбетта, А. Р. Лурии, М. Коула.

Главными вопросами организации валидного исследования можно считать:

установление связей между измеряемыми ЗП и контекстными переменными;
обоснование фиксируемых психологических показателей (аналогов ЗП) и контекстных переменных;
рассмотрение спектра конкурирующих понятий установленных закономерностей, которые могут указать источники исследуемых различий или другую их интерпретацию.

В КИИ, как и в экспериментальном исследовании, контроль за выводом должен быть тем более строгим, чем меньше переменных контролировалось исследователем и чем больше простор для концепций другого направления, чем проверяемая.

Задачи машинного обучения с учителем как правило состоят в восстановлении зависимости между парами (признаковое описание, целевая переменная) по данным, доступным нам для анализа. Алгоритмы машинного обучения (learning algorithm), со многими из которых вы уже успели познакомиться, позволяют построить модель, аппроксимирующую эту зависимость. Но как понять, насколько качественной получилась аппроксимация?

Почти наверняка наша модель будет ошибаться на некоторых объектах: будь она даже идеальной, шум или выбросы в тестовых данных всё испортят. При этом разные модели будут ошибаться на разных объектах и в разной степени. Задача специалиста по машинному обучению – подобрать подходящий критерий, который позволит сравнивать различные модели.

Перед чтением этой главы мы хотели бы ещё раз напомнить, что качество модели нельзя оценивать на обучающей выборке. Как минимум, это стоит делать на отложенной (тестовой) выборке, но, если вам это позволяют время и вычислительные ресурсы, стоит прибегнуть и к более надёжным способам проверки – например, кросс-валидации (о ней вы узнаете в отдельной главе).

Возможно, вы уже участвовали в соревнованиях по анализу данных. На таких соревнованиях метрику (критерий качества модели) организатор выбирает за вас, и она, как правило, довольно понятным образом связана с результатами предсказаний. Но на практике всё бывает намного сложнее.

Например, мы хотим:

В каждом конкретном случае может возникать целая иерархия метрик. Представим, например, что речь идёт о стриминговом музыкальном сервисе, пользователей которого мы решили порадовать сгенерированными самодельной нейросетью треками – не защищёнными авторским правом, а потому совершенно бесплатными. Иерархия метрик могла бы иметь такой вид:

Самый верхний уровень: будущий доход сервиса – невозможно измерить в моменте, сложным образом зависит от совокупности всех наших усилий;
Медианная длина сессии, возможно, служащая оценкой радости пользователей, которая, как мы надеемся, повлияет на их желание продолжать платить за подписку – её нам придётся измерять в продакшене, ведь нас интересует реакция настоящих пользователей на новшество;
Доля удовлетворённых качеством сгенерированной музыки асессоров, на которых мы потестируем её до того, как выставить на суд пользователей;
Функция потерь, на которую мы будем обучать генеративную сеть.

На этом примере мы можем заметить сразу несколько общих закономерностей. Во-первых, метрики бывают offline и online (оффлайновыми и онлайновыми). Online метрики вычисляются по данным, собираемым с работающей системы (например, медианная длина сессии). Offline метрики могут быть измерены до введения модели в эксплуатацию, например, по историческим данным или с привлечением специальных людей, асессоров. Последнее часто применяется, когда метрикой является реакция живого человека: скажем, так поступают поисковые компании, которые предлагают людям оценить качество ранжирования экспериментальной системы еще до того, как рядовые пользователи увидят эти результаты в обычном порядке. На самом же нижнем этаже иерархии лежат оптимизируемые в ходе обучения функции потерь.

В данном разделе нас будут интересовать offline метрики, которые могут быть измерены без привлечения людей.

Как мы узнали ранее, методы обучения реализуют разные подходы к обучению:

обучение на основе прироста информации (как в деревьях решений)
обучение на основе сходства (как в методах ближайших соседей)
обучение на основе вероятностной модели данных (например, максимизацией правдоподобия)
обучение на основе ошибок (минимизация эмпирического риска)

И в рамках обучения на основе минимизации ошибок мы уже отвечали на вопрос: как можно штрафовать модель за предсказание на обучающем объекте.

Во время сведения задачи о построении решающего правила к задаче численной оптимизации, мы вводили понятие функции потерь и, обычно, объявляли целевой функцией сумму потерь от предсказаний на всех объектах обучающей выборке.

Важно понимать разницу между функцией потерь и метрикой качества. Её можно сформулировать следующим образом:

Функция потерь возникает в тот момент, когда мы сводим задачу построения модели к задаче оптимизации. Обычно требуется, чтобы она обладала хорошими свойствами (например, дифференцируемостью).

Метрика – внешний, объективный критерий качества, обычно зависящий не от параметров модели, а только от предсказанных меток.

В некоторых случаях метрика может совпадать с функцией потерь. Например, в задаче регрессии MSE играет роль как функции потерь, так и метрики. Но, скажем, в задаче бинарной классификации они почти всегда различаются: в качестве функции потерь может выступать кросс-энтропия, а в качестве метрики – число верно угаданных меток (accuracy). Отметим, что в последнем примере у них различные аргументы: на вход кросс-энтропии нужно подавать логиты, а на вход accuracy – предсказанные метки (то есть по сути argmax логитов).

Перейдём к обзору метрик и начнём с самой простой разновидности классификации – бинарной, а затем постепенно будем наращивать сложность.

Напомним постановку задачи бинарной классификации: нам нужно по обучающей выборке $\<(x_i, y_i)\>_^N$, где $y_i\in\$ построить модель, которая по объекту $x$ предсказывает метку класса $f(x)\in\$.

Первым критерием качества, который приходит в голову, является accuracy – доля объектов, для которых мы правильно предсказали класс:

Или же сопряженная ей метрика – доля ошибочных классификаций (error rate):

Познакомившись чуть внимательнее с этой метрикой, можно заметить, что у неё есть несколько недостатков:

она не учитывает дисбаланс классов. Например, в задаче диагностики редких заболеваний классификатор, предсказывающий всем пациентам отсутствие болезни будет иметь достаточно высокую accuracy просто потому, что больных людей в выборке намного меньше;
она также не учитывает цену ошибки на объектах разных классов. Для примера снова можно привести задачу медицинской диагностики: если ошибочный положительный диагноз для здорового больного обернётся лишь ещё одним обследованием, то ошибочно отрицательный вердикт может повлечь роковые последствия.

Confusion matrix (матрица ошибок)

Исторически задача бинарной классификации – это задача об обнаружении чего-то редкого в большом потоке объектов, например, поиск человека, больного туберкулёзом, по флюорографии. Или задача признания пятна на экране приёмника радиолакационной станции бомбардировщиком, представляющем угрозу охраняемому объекту (в противовес стае гусей).

Заметим, что для каждого объекта в выборке возможно 4 ситуации:

мы предсказали положительную метку и угадали. Будет относить такие объекты к true positive (TP) группе (true – потому что предсказали мы правильно, а positive – потому что предсказали положительную метку);
мы предсказали положительную метку, но ошиблись в своём предсказании – false positive (FP) (false, потому что предсказание было неправильным);
мы предсказали отрицательную метку и угадали – true negative (TN);
и наконец, мы предсказали отрицательную метку, но ошиблись – false negative (FN). Для удобства все эти 4 числа изображают в виде таблицы, которую называют confusion matrix (матрицей ошибок):

Не волнуйтесь, если первое время эти обозначения будут сводить вас с ума (будем откровенны, даже профи со стажем в них порой путаются), однако логика за ними достаточно простая: первая часть названия группы показывает угадали ли мы с классом, а вторая – какой класс мы предсказали.

Пример

Попробуем воспользоваться введёнными метриками в боевом примере: сравним работу нескольких моделей классификации на Breast cancer wisconsin (diagnostic) dataset.

Объектами выборки являются фотографии биопсии грудных опухолей. С их помощью было сформировано признаковое описание, которое заключается в характеристиках ядер клеток (таких как радиус ядра, его текстура, симметричность). Положительным классом в такой постановке будут злокачественные опухоли, а отрицательным – доброкачественные.

Модель 1. Константное предсказание.

Решение задачи начнём с самого простого классификатора, который выдаёт на каждом объекте константное предсказание – самый часто встречающийся класс.

Зачем вообще замерять качество на такой модели?

При разработке модели машинного обучения для проекта всегда желательно иметь некоторую baseline модель. Так нам будет легче проконтролировать, что наша более сложная модель действительно дает нам прирост качества.

Прогнозируемый класс +	Прогнозируемый класс -
Истинный класс +	TP = 0	FN = 53
Истинный класс -	FP = 0	TN = 90

Обучающие данные таковы, что наш dummy-классификатор все объекты записывает в отрицательный класс, то есть признаёт все опухоли доброкачественными. Такой наивный подход позволяет нам получить минимальный штраф за FP (действительно, нельзя ошибиться в предсказании, если положительный класс вообще не предсказывается), но и максимальный штраф за FN (в эту группу попадут все злокачественные опухоли).

Модель 2. Случайный лес.

Настало время воспользоваться всем арсеналом моделей машинного обучения, и начнём мы со случайного леса.

Прогнозируемый класс +	Прогнозируемый класс -
Истинный класс +	TP = 52	FN = 1
Истинный класс -	FP = 4	TN = 86

Можно сказать, что этот классификатор чему-то научился, т.к. главная диагональ матрицы стала содержать все объекты из отложенной выборки, за исключением 4 + 1 = 5 объектов (сравните с 0 + 53 объектами dummy-классификатора, все опухоли объявляющего доброкачественными).

Отметим, что вычисляя долю недиагональных элементов, мы приходим к метрике error rate, о которой мы говорили в самом начале:

тогда как доля объектов, попавших на главную диагональ – это как раз таки accuracy:

Модель 3. Метод опорных векторов.

Давайте построим еще один классификатор на основе линейного метода опорных векторов.

Не забудьте привести признаки к единому масштабу, иначе численный алгоритм не сойдется к решению и мы получим гораздо более плохо работающее решающее правило. Попробуйте проделать это упражнение.

Прогнозируемый класс +	Прогнозируемый класс -
Истинный класс +	TP = 50	FN = 3
Истинный класс -	FP = 1	TN = 89

Сравним результаты

Легко заметить, что каждая из двух моделей лучше классификатора-пустышки, однако давайте попробуем сравнить их между собой. С точки зрения error rate модели практически одинаковы: 5/143 для леса против 4/143 для SVM.

Посмотрим на структуру ошибок чуть более внимательно: лес – (FP = 4, FN = 1), SVM – (FP = 1, FN = 3). Какая из моделей предпочтительнее?

Замечание: Мы сравниваем несколько классификаторов на основании их предсказаний на отложенной выборке. Насколько ошибки данных классификаторов зависят от разбиения исходного набора данных? Иногда в процессе оценки качества мы будем получать модели, чьи показатели эффективности будут статистически неразличимыми.

Пусть мы учли предыдущее замечание и эти модели действительно статистически значимо ошибаются в разную сторону. Мы встретились с очевидной вещью: на матрицах нет отношения порядка. Когда мы сравнивали dummy-классификатор и случайный лес с помощью Accuracy, мы всю сложную структуру ошибок свели к одному числу, т.к. на вещественных числах отношение порядка есть. Сводить оценку модели к одному числу очень удобно, однако не стоит забывать, что у вашей модели есть много аспектов качества.

Что же всё-таки важнее уменьшить: FP или FN? Вернёмся к задаче: FP – доля доброкачественных опухолей, которым ошибочно присваивается метка злокачественной, а FN – доля злокачественных опухолей, которые классификатор пропускает. В такой постановке становится понятно, что при сравнении выиграет модель с меньшим FN (то есть лес в нашем примере), ведь каждая не обнаруженная опухоль может стоить человеческой жизни.

Рассмотрим теперь другую задачу: по данным о погоде предсказать, будет ли успешным запуск спутника. FN в такой постановке – это ошибочное предсказание неуспеха, то есть не более, чем упущенный шанс (если вас, конечно не уволят за срыв сроков). С FP всё серьёзней: если вы предскажете удачный запуск спутника, а на деле он потерпит крушение из-за погодных условий, то ваши потери будут в разы существеннее.

Итак, из примеров мы видим, что в текущем виде введенная нами доля ошибочных классификаций не даст нам возможности учесть неравную важность FP и FN. Поэтому введем две новые метрики: точность и полноту.

Точность и полнота

Accuracy - это метрика, которая характеризует качество модели, агрегированное по всем классам. Это полезно, когда классы для нас имеют одинаковое значение. В случае, если это не так, accuracy может быть обманчивой.

Рассмотрим ситуацию, когда положительный класс это событие редкое. Возьмем в качестве примера поисковую систему - в нашем хранилище хранятся миллиарды документов, а релевантных к конкретному поисковому запросу на несколько порядков меньше.

Поэтому в случае ассиметрии классов, можно использовать метрики, которые не учитывают TN и ориентируются на TP.

Если мы рассмотрим долю правильно предсказанных положительных объектов среди всех объектов, предсказанных положительным классом, то мы получим метрику, которая называется точностью (precision)

Интуитивно метрика показывает долю релевантных документов среди всех найденных классификатором. Чем меньше ложноположительных срабатываний будет допускать модель, тем больше будет её Precision.

Если же мы рассмотрим долю правильно найденных положительных объектов среди всех объектов положительного класса, то мы получим метрику, которая называется полнотой (recall)

Интуитивно метрика показывает долю найденных документов из всех релевантных. Чем меньше ложно отрицательных срабатываний, тем выше recall модели.

Например, в задаче предсказания злокачественности опухоли точность показывает, сколько из определённых нами как злокачественные опухолей действительно являются злокачественными, а полнота – какую долю злокачественных опухолей нам удалось выявить.

Хорошее понимание происходящего даёт следующая картинка: (источник картинки)

Recall@k, Precision@k

F1-мера

Как мы уже отмечали ранее, модели очень удобно сравнивать, когда их качество выражено одним числом. В случае пары Precision-Recall существует популярный способ скомпоновать их в одну метрику - взять их среднее гармоническое. Данный показатель эффективности исторически носит название F1-меры (F1-measure).

Стоит иметь в виду, что F1-мера предполагает одинаковую важность Precision и Recall, если одна из этих метрик для вас приоритетнее, то можно воспользоваться $F_$ мерой:

Многие модели бинарной классификации устроены так, что класс объекта получается бинаризацией выхода классификатора по некоторому фиксированному порогу:

\[f\left(x ; w, w_\right)=\mathbb\left[g(x, w) > w_\right].\]

Например, модель логистической регрессии возвращает оценку вероятности принадлежности примера к положительному классу. Другие модели бинарной классификации обычно возвращают произвольные вещественные значения, но существуют техники, называемые калибровкой классификатора, которые позволяют преобразовать предсказания в более или менее корректную оценку вероятности принадлежности к положительному классу.

Как оценить качество предсказываемых вероятностей, если именно они являются нашей конечной целью? Общепринятой мерой является логистическая функция потерь, которую мы изучали раньше, когда говорили об устройстве некоторых методов классификации (например уже упоминавшейся логистической регрессии).

Если же нашей целью является построение прогноза в терминах метки класса, то нам нужно учесть, что в зависимости от порога мы будем получать разные предсказания и разное качество на отложенной выборке. Так, чем ниже порог отсечения, тем больше объектов модель будет относить к положительному классу. Как в этом случае оценить качество модели?

Пусть мы хотим учитывать ошибки на объектах обоих классов. При уменьшении порога отсечения мы будем находить (правильно предсказывать) всё большее число положительных объектов, но также и неправильно предсказывать положительную метку на всё большем числе отрицательных объектов. Естественным кажется ввести две метрики TPR и FPR:

TPR (true positive rate) – это полнота, доля положительных объектов, правильно предсказанных положительными:

FPR (false positive rate) – это доля отрицательных объектов, неправильно предсказанных положительными:

Обе эти величины растут при уменьшении порога. Кривая в осях TPR/FPR, которая получается при варьировании порога, исторически называется ROC-кривой (receiver operating characteristics curve, сокращённо ROC curve). Следующий график поможет вам понять поведение ROC-кривой:

Существует ряд разновидностей кросс-секционных и длительных исследований (рис. 5.1). Частный случай длительных исследований - панели. С участниками панели заранее договариваются о регулярном получении у них определенной информации в течение определенного периода. Обычно их в той или иной форме стимулируют к участию в исследовании не только морально, но и материально (платят, дарят подарки, устраивают лотереи и т.д.).

Рис. 5.1. Разновидности кросс-секционных и длительных исследований

Кросс-секционные исследования, в свою очередь, бывают одновыборочными (single) и многовыборочными (multiple). В первом случае из исследуемой совокупности извлекается одна выборка, во втором - две и более. Эти выборки могут относиться к разным исследуемым совокупностям (например, к разным городам) или к разным моментам времени. Так, например, Фонд Общественное Мнение еженедельно проводит опрос по новой выборке респондентов. При этом репрезентируется одна и та же исследуемая совокупность - население России.

Другим примером многовыборочных исследований могут служить опросы Фонда Общественное Мнение по технологии "МегаФОМ" (до 2011 г. - "Гефейтинг"). Каждый такой опрос обычно репрезентирует от 68 до 79, но иногда и все 83 субъекта Российской Федерации. В каждом субъекте строится отдельная выборка, как правило, из 500 респондентов. Опрос проходит во всех субъектах федерации одновременно и по единой анкете, что позволяет сравнивать субъекты между собой.

Данные многовыборочных кросс-секционных исследований иногда изучают с помощью когортного анализа. Когортой называется группа людей, которых в течение одного и того же интервала времени коснулось одно и то же событие. Пример когорты - лица, воевавшие в Афганистане. Когорту, например, составляют люди, родившиеся с 1971 по 1980 г. Если опросы проводятся несколько раз с интервалом, скажем, в 5 лет, то когортный анализ дает дополнительные возможности для сравнений. Во-первых, сравниваются характеристики когорты в разные моменты времени; во-вторых, - характеристики разных когорт. Когортный анализ позволяет избежать некоторых ошибочных выводов. Рассмотрим данные табл. 5.1.

Таблица 5.1. Среднее потребление безалкогольных напитков в разных возрастных когортах, л/год

Анализ каждого столбца таблицы по отдельности создает ощущение, что с возрастом человек начинает употреблять меньше безалкогольных напитков. Когортный же анализ свидетельствует - это иллюзия: ни одна когорта не снижает с возрастом своего потребления, просто каждая следующая когорта выпивает этих напитков больше, чем предыдущая.

И у кросс-секционных, и у длительных исследований есть как достоинства, так и недостатки (табл. 5.2). Частично мы этого уже касались, теперь обсудим более подробно и систематично.

Таблица 5.2. Достоинства (+) и недостатки (-) кросс-секционных и длительных исследований

Читайте также: