Домой Недвижимость Приемы выявления выбросов разведочном анализе. Основы анализа данных

Приемы выявления выбросов разведочном анализе. Основы анализа данных

  1. 1. Лекция 2. Разведочный анализ данных Лектор: проф. Авдеенко Татьяна Владимировна, Новосибирский государственный технический университет, Факультет бизнеса, Кафедра экономической информатики
  2. 2. Разведочный анализ данных - Предварительный анализ данных с целью выявления наиболее общих закономерностей и тенденций, характера и свойств анализируемых данных, законов распределения анализируемых величин. Применяется для нахождения связей между переменными в ситуациях, когда отсутствуют (или недостаточны) априорные представления о природе этих связей. Как правило, при разведочном анализе учитывается и сравнивается большое число переменных, а для поиска закономерностей используются самые разные методы.
  3. 3. Разведочный анализ данных Термин «разведочный анализ» был впервые введен математиком из Принстонского университета Дж. Тьюки. Он также сформулировал основные цели данного анализа: - Максимальное «проникновение» в данные. - Выявление основных структур. - Выбор наиболее важных переменных. - Обнаружение отклонений и аномалий. - Проверка основных гипотез (предположений). - Разработка начальных моделей. .
  4. 4. Разведочный анализ данных Результаты разведочного анализа не используются для выработки управленческих решений. Их назначение - помощь в разработке наилучшей стратегии углубленного анализа, выдвижение гипотез, уточнение особенностей применения тех или иных математических методов и моделей. Без разведочного анализа углубленный анализ данных будет производиться практически «вслепую».
  5. 5. Разведочный анализ данных К основным методам разведочного анализа относится процедура анализа распределений переменных, просмотр корреляционных матриц с целью поиска коэффициентов, превосходящих по величине определенные пороговые значения, факторный анализ, дискриминантный анализ, многомерное шкалирование, визуальный анализ гистограмм и т.д.
  6. 6. Разведочный анализ данных Предварительное исследование данных может служить лишь первым этапом в процессе их анализа, и пока результаты не подтверждены на других выборках или на независимом множестве данных, их следует воспринимать самое большее как гипотезу. Если результаты разведочного анализа говорят в пользу некоторой модели, то ее правильность можно затем проверить, применив ее к новым данных.
  7. 7. Простейшие описательные статистики (Descriptive Statistics) Среднее Дисперсия Процентиль Эксцесс Квантиль Размах Медиана Квартиль Мода Асимметрия Интерквартильный диапазон
  8. 8. Центральные меры распределения: среднее, медиана и мода Один из способов подытожить данные - вычислить одно значение, характеризующее весь набор данных. Это значение часто называется типичным или наиболее представительным. Медиана. Представляет середину распределения, т.е. одна половина данного набора данных имеет меньшие значения, а другая - большие значения. Для определения медианы сначала необходимо выполнить сортировку (ранжирование) данных. Полученная последовательность называется вариационным рядом, а ее элементы – порядковыми статистиками. Каждому наблюдению присваивается ранг (номер). Точный подсчет медианы зависит от количества наблюдений в наборе данных. При нечетном количестве значений медианой является промежуточное значение, а при четном - полусумма двух центральных значений.
  9. 9. Центральные меры распределения: среднее Среднее значение: Выборочное среднее обладает одним замечательным свойством: сумма квадратов расстояний является минимальной Другие статистические свойства выборочного среднего – несмещенность, состоятельность, эффективность. ∑ = = N i ix n x 1 1 ∑ = − N i ixx 1 2)(
  10. 10. Центральные меры распределения: медиана или среднее Одним из недостатков среднего значения является то, что оно существенно зависит от экстремальных значений. Рассмотрим распределение заработной платы профессиональных бейс­болистов. Большинство бейсболистов зарабатывают в год менее миллиона долларов, но есть бейсболисты с зарплатой более 10 млн. и один бейс­болист с зарплатой более 20 млн. долларов. Как определить "типичную" зарплату? Медианой данного распределения является зарплата 900 тыс. долларов, а средним значением - 2,5 млн. долларов. Похоже, что медиана в большей степени представляет "типичную" зарплату, В официальной статистике США именно медиана используется в качестве оценки центральной точки доходов населения. Если распределение несимметрично, имеются выбросы,
  11. 11. Центральные меры распределения: медиана или среднее Для снижения влияния экстремальных значений можно использовать усеченное среднее (trimmed mean), т.е. среднее для набора данных, из которого исключены несколько процентов значений с обоих концов распределения. Например, 5%­ное усеченное среднее равно среднему значению для 90% значений из набора данных, за исключением 5% с каждого конца распределения. Усеченное среднее представляет собой компромиссный вариант итоговой характеристики по сравнению с медианой и средним.
  12. 12. Центральные меры распределения Среднее геометрическое (geometric mean) Среднее геометрическое чаще всего используется для наборов данных, которые находятся в диапазоне от 0 до 1. Например, результаты фармацевтических опытов часто записываются в виде относительных долей химических компонентов, поэтому для них удобно использовать среднее геометрическое. Среднее гармоническое (harmonic mean) Эту характеристику удобно применять для вычисления средних значений скоростей. Допустим, требуется определить среднюю скорость автомобиля, который движется из пункта А в пункт В со скоростью S, а в обратном направлении - со скоростью Т. В этом случае средняя скорость автомобиля будет равна среднему гармоническому для величин S и Т. n n i ix∏ =1 ∑ = = n i ixnН 1 111
  13. 13. Центральные меры распределения Еще одной итоговой характеристикой распределения является мода (mode, Пирсон 1894 г.), т.е. наиболее часто встречающееся (модное) значение распределения. Мода часто используется при работе с качественными данными или дискретными количественными данными, которые имеют сравнительно немного разных значений. Ее не следует использовать для непрерывных количественных данных, поскольку в таком случае в подобных распределениях очень мало или практически нет повторяющихся значений. Классический пример использования моды – выбор размера выпускаемой партии обуви или цвета обоев.
  14. 14. Центральные меры распределения Если распределение имеет несколько мод, то оно называется мультимодальным. Мультимодальность дает важную информацию о природе исследуемой переменной. Например, в социологических опросах, если переменная представляет собой предпочтение или отношение к чему-либо, то мультимодальность может означать, что существует несколько определенных мнений. Мультимодальность может служить индикатором того, что выборка не является однородной и наблюдения, возможно, порождены двумя или более "наложенными" распределениями.
  15. 15. Меры изменчивости Среднее и медиана не полностью характеризуют распределение, так как не учитывают изменчивость данных. Изменчивость (variability) характеризует различия между данными или, что то же самое, разброс от центра. Простейшей мерой изменчивости является диапазон (range), т.е. разница между максимальным и минимальным значениями распределения. Однако диапазон значений не совсем точно характеризует изменчивость распределения и может ввести в заблуждение.
  16. 16. Меры изменчивости Дисперсия (variance) (Фишер, 1918 г.) Стандартное отклонение (standard deviation) ∑ = − − = n i i xx n s 1 22)(1 1 2 1 1 () 1 n i i s x x n = = − − ∑
  17. 17. Меры изменчивости Выборочная дисперсия повторной и бесповторной выборки является несмещенной и состоятельной оценкой генеральной дисперсии, т.е. и Выборочная дисперсия не является эффективной оценкой, зато является асимптотически эффективной (т.е. при эффективность стремится к 1). 2 s 2 σ 2 s 2 σ 22)(σ=sM 2 2 P n s σ →∞ → ∞→n
  18. 18. Меры формы: асимметрия и эксцесс Асимметрия, или скос (skewness), является мерой несимметричности распределения (Пирсон 1895 г.): Положительная асимметрия означает, что значения распределения скучены в области малых значений и распределение имеет длинный хвост в области больших значений. И наоборот: отрицательная асимметрия означает, что значения распределения скучены в области высоких значений и распределение имеет длинный хвост в области малых значений. Равное нулю значение асимметрии соответствует симметричному распределению. 2 3 1 2 1 3)(1)(1         − − = ∑ ∑ = = n i i n i i xx n xx n A
  19. 19. Меры формы: асимметрия и эксцесс Эксцесс (kurtosis) (Пирсон 1905 г.) характеризует относительную остроконечность или сглаженность распределения по сравнению с нормальным распределением. Положительный эксцесс обозначает относительно остроконечное распределение, а отрицательный – относительно сглаженное распределение. Как с помощью асимметрии и эксцесса проверить нормальность распределения? Для нормального распределения A=E=0. 3)(1)(1 2 1 2 1 4 −         − − = ∑ ∑ = = n i i n i i xx n xx n E
  20. 20. Персентили (процентили) и квартили Квантиль (Кендалл 1940 г.) Одним из итоговых ориентиров является р-я персентиль (percentile), т.е. такое значение заданного распределения, которое больше р процентов всех значений распределения. Персентили обычно используются при анализе роста новорожденных, если, например, ребенка относят к 75-й или 90-й персентили, значит, он весит больше, чем 75% или 90% всех новорожденных детей. ()pF x p=
  21. 21. Персентили (процентили) и квартили Довольно близкими по смыслу к персентилям являются квартили (Гальтон 1982) (quartiles) – значения, соответствующие 25, 50 и 75-й персентилям, т.е. четвертям распределения. Обычно их называют первой, второй и третьей квартилями. В статистике часто используют интерквартильный диапазон (interquartile range), который обозначает разницу между первой и третьей квартилями (другое название – квартильный размах). Поскольку в этом диапазоне располагается 50% всех данных, его размер дает представление о ширине распределения.
  22. 22. Ящик с усами Диаграмма типа “ящик с усами” (boxplot) изображает важные характеристик описательной статистики на одном компактном рисунке. Он предложен Джоном Тьюки (John Tukey) в 1977 г. в. Диаграмма типа “ящик с усами” отображает следующие характеристики описательной статистики: Первая квартиль, медиана, третья квартиль и интерквартильный диапазон. Минимальное и максимальное значения. Умеренные и экстремальные выбросы. Диаграмма типа “ящик с усами” дает хорошее визуальное представление изменчивости данных, а также асимметрии распределения.
  23. 23. Ящик с усами После отображения интерквартильного диапазона можно приступать к вычислению внутреннего и внешнего ограждений. Внутренние ограждения (inner fences) располагаются в области больше третьей квартили + 1,5×IQR или меньше первой квартили – 1,5×IQR. Внешние ограждения (outer fences) располагаются в области больше третьей квартили + 3×IQR или меньше первой квартили – 3×IQR. 3-я квартиль 1-я квартиль внутреннее = 1-я квартиль - 1.5xIQR внешнее = 1-я квартиль - 3xIQR внутреннее = 3-я квартиль + 1.5xIQR внешнее = 3-я квартиль + 3xIQR медиана IQR
  24. 24. Ящик с усами Все значения, которые лежат в промежутке между внутренним и внешним ограждениями, называются умеренными выбросами (moderate outlier) и обозначаются символами . Все значения, которые лежат за пределами внешних ограждений, называются экстремальными выбросами (extreme outlier) и обозначаются символами  . 3-я квартиль 1-я квартиль внутреннее внешнее внутреннее внешнее медиана
  25. 25. Box&WhiskerPlot:Зарплата Median 25%-75% Min-Max Ж М Пол 18000 20000 22000 24000 26000 28000 30000 32000 34000 36000 38000 40000 42000 44000 46000 Зарплата
  26. 26. Анализ таблиц Таблицы частот Таблицы сопряженности Таблицы заголовков Многомерные отклики Дихотомии
  27. 27. Таблицы сопряженности Кросстабуляция - это процесс объединения двух (или нескольких) таблиц частот так, что каждая ячейка (клетка) в построенной таблице представляется единственной комбинацией значений или уровней табулированных переменных. Таким образом, кросстабуляция позволяет совместить частоты появления наблюдений на разных уровнях рассматриваемых факторов. Исследуя эти частоты, можно определить связи между табулированными переменными. Обычно табулируются категориальные переменные или переменные с относительно небольшим числом значений.
  28. 28. Таблицы сопряженности Газ. вода: А Газ. вода: В Пол: женщины 20 (40 %) 30 (60 %) 50 (50 %) Пол: мужчины 30 (60 %) 20 (40 %) 50 (50%) 50 (50 %) 50 (50 %) 100 100 %)
  29. 29. Таблицы сопряженности Маргинальные частоты. Значения, расположенные по краям таблицы сопряженности - это обычные таблицы частот (с одним входом) для рассматриваемых переменных. Так как эти частоты располагаются на краях таблицы, то они называются маргинальными. Маргинальные значения важны, т.к. позволяют оценить распределение частот в отдельных столбцах и строках таблицы. Например, 40% и 60% мужчин и женщин (соответственно), выбравших марку A, не могли бы показать какой-либо связи между переменными Пол и Газ.вода, если бы маргинальные частоты переменной Пол были также 40% и 60%. В этом случае они просто отражали бы разную долю мужчин и женщин, участвующих в опросе.
  30. 30. Таблицы сопряженности Summary Frequency Table (Опрос) Marked cells have counts > 10 (Marginal summaries are not marked) Var1 Var2 Матем Var2 Биз_Экон Var2 Мед_Здрав Var2 Социол Row Totals ПК 29 49 8 28 114 Мэйнфрейм 22 12 3 13 50 Мини-компьютер 2 1 0 1 4 Mac 12 4 0 6 22 All Grps 65 66 11 48 190
  31. 31. Таблицы сопряженности Проверка гипотезы H0: распределение разных видов компьютеров одинаково внутри каждой кафедры (переменные независимы). H1: распределение разных видов компьютеров зависит от кафедры (переменные зависимы)
  32. 32. Таблицы сопряженности В 1900 году Карл Пирсон предложил для проверки гипотезы тест (тест хи-квадрат Пирсона): , ожидаемые частоты, маргинальные частоты Если то гипотеза о независимости переменных отвергается (переменные зависимы). ∑∑ = = − = r i s j ij ijijn 1 1 2 2)(ν ν χ n nn ji ij .. =ν 2 2 ,(1)(1)r sαχ χ − −> ∑ = = s j iji nn 1 . 1 . r j ij i n n = = ∑

Data Mining Фролов Тимофей. БИ-1102 Добыча данных это процесс аналитического исследования больших массивов информации (обычно экономического характера) с целью выявления определенных закономерностей и систематических взаимосвязей между переменными, которые затем можно применить к новым совокупностям данных. Этот процесс включает три основных этапа: исследование, построение модели или структуры и ее проверку. В идеальном случае, при достаточном количестве данных можно организовать итеративную процедуру для построения устойчивой модели. В то же время, в реальной ситуации практически невозможно проверить экономическую модель на стадии анализа и поэтому начальные результаты имеют характер эвристик, которые можно использовать в процессе принятия решения (например, "Имеющиеся данные свиделельствуют о том, что у женщин частота приема снотворных средств увеличивается с возрастом быстрее, чем у мужчин."). Методы Data Mining приобретают все большую популярность в качестве инструмента для анализа экономической информации, особенно в тех случаях, когда предполагается, что из имеющихся данных можно будет извлечь знания для принятия решений в условиях неопределенности. Хотя в последнее время возрос интерес к разработке новых методов анализа данных, специально предназначенных для сферы бизнеса (например, Деревья классификации), в целом системы Data Mining по-прежнему основываются на классических принципах разведочного анализа данных(РАД) и построения моделей и используют те же подходы и методы. Имеется, однако, важное отличие процедуры Data Mining от классического разведочного анализа данных (РАД) : системы Data Mining в большей степени ориентированы на практическое приложение полученных результатов, чем на выяснение природы явления. Иными словами, при Data Mining нас не очень интересует конкретный вид зависимостей между переменными задачи. Выяснение природы участвующих здесь функций или конкретной формы интерактивных многомерных зависимостей между переменными не является главной целью этой процедуры. Основное внимание уделяется поиску решений, на основе которых можно было бы строить достоверные прогнозы. Таким образом, в области Data Mining принят такой подход к анализу данных и извлечению знаний, который иногда характеризуют словами "черный ящик". При этом используются не только классические приемы разведочного анализа данных, но и такие методы, как нейронные сети, которые позволяют строить достоверные прогнозы, не уточняя конкретный вид тех зависимостей, на которых такой прогноз основан. Очень часто Data Mining трактуется как "смесь статистики, методов искуственного интеллекта (ИИ) и анализа баз данных" (Pregibon, 1997, p. 8), и до последнего времени она не признавалась полноценной областью интереса для специалистов по статистике, а порой ее даже называли "задворками статистики" (Pregibon, 1997, p. 8). Однако, благодаря своей большой практической значимости, эта проблематика ныне интенсивно разрабатывается и привлекает большой интерес (в том числе и в ее статистических аспектах), и в ней достигнуты важные теоретические результаты (см. например, материалы ежегодно проводимой Международной конференции по поиску знаний и Data Mining (International Conferences on Knowledge Discovery and Data Mining), одним из организаторов которой в 1997 году стала Американская статистическая ассоциация - American Statistical Association). хранилище данных это место хранения больших многомерных массивов данных, которое позволяет легко извлекать и использовать информацию в процедурах анализа. Эффективная архитектура хранилища данных должна быть организована таким образом, чтобы быть составной частью информационной системы управления предприятием (или по крайней мере иметь связь со всеми доступными данными). При этом необходимо использовать специальные технологии работы с корпоративными базами данных (например, Oracle, Sybase, MS SQL Server). Высокопроизводительная технология хранилищ данных, позволяющая пользователям организовать и эффективно использовать базу данных предприятия практически неограниченной сложности, разработана компанией StatSoft enterprise systems и называется SENS и SEWSS ). Термин OLAP (или FASMI - быстрый анализ распределенной многомерной информации) обозначает методы, которые дают возможность пользователям многомерных баз данных в реальном времени генерировать описательные и сравнительные сводки ("views") данных и получать ответы на различные другие аналитические запросы. Обратите внимание, что несмотря на свое название, этот метод не подразумевает интерактивную обработку данных (в режиме реального времени); он означает процесс анализа многомерных баз данных (которые, в частности, могут содержать и динамически обновляемую информацию) путем составления эффективных "многомерных" запросов к данным различных типов. Средства OLAP могут быть встроены в корпоративные (масштаба предприятия) системы баз данных и позволяют аналитикам и менеджерам следить за ходом и результативностью своего бизнеса или рынка в целом (например, за различными сторонами производственного процесса или количеством и категориями совершенных сделок по разным регионам). Анализ, проводимый методами OLAP может быть как простым (например, таблицы частот, описательные статистики, простые таблицы), так и достаточно сложным (например, он может включать сезонные поправки, удаление выбросов и другие способы очистки данных). Хотя методы Data Mining можно применять к любой, предварительно не обработанной и даже неструктурированной информации, их можно также использовать для анализа данных и отчетов, полученных средствами OLAP, с целью более углубленного исследования, как правило, в более высоких размерностях. В этом смысле методы Data Mining можно рассматривать как альтернативный аналитический подход (служащий иным целям, нежели OLAP) или как аналитическое расширение систем OLAP. РАД и проверка гипотез В отличие от традиционной проверки гипотез, предназначенной для проверки априорных предположений, касающихся связей между переменными (например, "Имеется положительная корреляция между возрастом человека и его/ее нежеланием рисковать"), разведочный анализ данных (РАД) применяется для нахождения связей между переменными в ситуациях, когда отсутствуют (или недостаточны) априорные представления о природе этих связей. Как правило, при разведочном анализе учитывается и сравнивается большое число переменных, а для поиска закономерностей используются самые разные методы. Вычислительные методы РАД Вычислительные методы разведочного анализа данных включают основные статистические методы, а также более сложные, специально разработанные методы многомерного анализа, предназначенные для отыскания закономерностей в многомерных данных. Основные методы разведочного статистического анализа. К основным методам разведочного статистического анализа относится процедура анализа распределений переменных (например, чтобы выявить переменные с несимметричным или негауссовым распределением, в том числе и бимодальные), просмотр корреляционных матриц с целью поиска коэффициентов, превосходящих по величине определенные пороговые значения (см. предыдущий пример), или анализ многовходовых таблиц частот (например, "послойный" последовательный просмотр комбинаций уровней управляющих переменных). Методы многомерного разведочного анализа. Методы многомерного разведочного анализа специально разработаны для поиска закономерностей в многомерных данных (или последовательностях одномерных данных). К ним относятся: кластерный анализ, факторный анализ, анализ лискриминантных функций, многомерное шкалирование, логлинейный анализ,канонические корреляции, пошаговая линейная и нелинейная (например, логит) регрессия, анализ соответствий, анализ временных рядов. Нейронные сети. Этот класс аналитических методов основан на идее воспроизведения процессов обучения мыслящих существ (как они представляются исследователям) и функций нервных клеток. Нейронные сети могут прогнозировать будущие значения переменных по уже имеющимся значениям этих же или других переменных, предварительно осуществив процесс так называемого обучения на основе имеющихся данных. Предварительное исследование данных может служить лишь первым этапом в процессе их анализа, и пока результаты не подтверждены (методами кросс-проверки) на других фрагментах базы данных или на независимом множестве данных, их можно воспринимать самое большее как гипотезу. Если результаты разведочного анализа говорят в пользу некоторой модели, то ее правильность можно затем проверить, применив ее к новым данных и определив степень ее согласованности с данными (проверка "способности к прогнозированию"). Для быстрого выделения различных подмножеств данных (например, для очистки, проверки и пр.) и оценки надежности результатов удобно пользоваться условиями выбора наблюдений.

Ответ:

С помощью графических методов можно находить зависимости, тренды и смещения, "скрытые" в неструктурированных наборах данных.

К методам визуализации относятся:

Представление данных в виде столбчатых, линейных диаграмм в многомерном пространстве;

Наложение и объединение нескольких изображений;

Идентификация и маркировка подгрупп данных, удовлетворяющих определенным условиям;

Расщепление или слияние подгрупп данных на графике;

Агрегирование данных;

Сглаживание данных;

Построение пиктографиков;

Создание мозаичных структур;

Спектральных плоскостей, карт линий уровня; методы динамического вращения и динамического расслоения трехмерных изображений; выделение определенных наборов и блоков данных и т.д.

Типы графиков в Statistica:

§ двумерные графики;(гистограммы)

§ трехмерные графики;

§ матричные графики;

§ пиктографики.

Ответ: Эти графики представляют собой наборы двумерных, трехмерных, тернарных или n-мерных графиков (таких как гистограммы, диаграммы рассеяния, линейные графики, поверхности, круговые диаграммы), по одному графику для каждой выбранной категории (подмножества) наблюдений.

График представляет собой набор графиков, круговые диаграммы для каждой определенной категории выбранной переменной (2 пола – по 2м полам).

Структура категоризированных данных может быть обработана аналогичным образом. : например накоплена статистика о покупателях и необходимо провести анализ суммы покупки по различным категориям (мужчины-женщины, старики-зрелые-молодежь).

В статистике – гистограммы, диаграммы рассеяния, линейные графики, круговые диаграммы, 3мерные графики, 3мерные тернарные графики

Как вы можете видеть, эта переменная в целом имеет для каждой группы (типа цветов) нормальное распределение.

5. Какую информацию о природе данных можно получить при анализе диаграмм рассеяния и категоризованных диаграмм рассеяния?

Ответ:

Диаграммы рассеяния обычно используются для выявления природы взаимосвязи двух переменных (например, прибыль и фонд заработной платы), поскольку они предоставляют гораздо больше информации, чем коэффициент корреляции.



Если предполагается, что один из параметров зависит от другого, то обычно значения независимого параметра откладывается по горизонтальной оси, а значения зависимого - по вертикальной. Диаграммы рассеяния используются для демонстрации наличия или отсутствия корреляции между двумя переменными.

Каждая точка, отмеченная на диаграмме, включает две характеристики, например возраст и доход индивида, отложенные каждая по своей оси. Нередко это помогает выяснить, существует ли какая-либо значимая статистическая связь между этими характеристиками и какой тип функции имеет смысл подбирать. А

6. Какую информацию о природе данных можно получить на основе анализа гистограмм и категоризованных гистограмм?

Ответ

: Гистограммы используются для изучения распределений частот значений переменных. Такое частотное распределение показывает, какие именно конкретные значения или диапазоны значений исследуемой переменной встречаются наиболее часто, насколько различаются эти значения, расположено ли большинство наблюдений около среднего значения, является распределение симметричным или асимметричным, многомодальным (т.е. имеет две или более вершины) или одномодальным и т.д. Гистограммы также используются для сравнения наблюдаемых и теоретических или ожидаемых распределений.



Категоризованные гистограммы представляют собой наборы гистограмм, соответствующих различным значениям одной или нескольких категоризующих переменных или наборам логических условий категоризации.

Гистограмма, это способ представления статистических данных в графическом виде – в виде столбчатой диаграммы. Она отображает распределение отдельных измерений параметров изделия или процесса. Иногда ее называют частотным распределением, так как гистограмма показывает частоту появления измеренных значений параметров объекта.

Высота каждого столбца указывает на частоту появления значений параметров в выбранном диапазоне, а количество столбцов – на число выбранных диапазонов.

Важное преимущество гистограммы заключается в том, что она позволяет наглядно представить тенденции изменения измеряемых параметров качества объекта и зрительно оценить закон их распределения. Кроме того, гистограмма дает возможность быстро определить центр, разброс и форму распределения случайной величины. Строится гистограмма, как правило, для интервального изменения значений измеряемого параметра.

7. Чем принципиально отличаются категоризованные графики от матричных графиков в системе Statistica?

Ответ:

Матричные графики также состоят из нескольких графиков; однако здесь каждый из них основывается (или может основываться) на одном и том же множестве наблюдений, и графики строятся для всех комбинаций переменных из одного или двух списков.

атричные графики. На матричных графиках изображаются зависимости между несколькими переменными в форме матрицы XY-графиков. Наиболее распространенным типом матричного графика является матрица диаграмм рассеяния, которую можно считать графическим эквивалентом корреляционной матрицы.

Матричные графики - Диаграммы рассеяния. На матричном графике этого типа изображаются 2М диаграммы рассеяния, организованные в форме матрицы (значения переменной по столбцу используются в качестве координат X , а значения переменной по строке - в качестве координат Y ). Гистограммы, изображающие распределение каждой переменной, располагаются на диагонали матрицы (в случае квадратных матриц) или по краям (в случае прямоугольных матриц).

См. также раздел Сокращение объема выборки.

Для категоризованных графиков требуется такой же выбор переменных, как и для некатегоризованных графиков соответствующего типа (например, две переменных для диаграммы рассеяния). В то же время для категоризованных графиков необходимо указать по крайней мере одну группирующую переменную (или способ разбиения наблюдений на категории), где содержалась бы информация о принадлежности каждого наблюдения к определенной подгруппе. Группирующая переменная не будет непосредственно изображена на графике (т.е. не будет построена), однако она будет служить критерием для разделения всех анализируемых наблюдений на отдельные подгруппы. Для каждой группы (категории), определяемой группирующей переменной, будет построен один график.

8. В чем достоинства и недостатки графических методов разведочного анализа данных?

Ответ: + Наглядность и простота.

Наглядность (многомерное графическое представление данных, по которому аналитик сам выявляет закономерности и отношения между данными).

- Методы дают приближенные значения.

n - Высокая доля субъективизма в интерпретации результатов.

n Отсутствие аналитических моделей.

9. Какие аналитические методы первичного разведочного анализа данных вы знаете?

Ответ: Статистические методы, нейронные сети.

10. Как проверить гипотезу о согласии распределения выборочных данных с моделью нормального распределения в системе Statistica?

Ответ: Распределение x 2 (хи-квадрат) с n степенями свободы - это распределение суммы квадратов n независимых стандартных нормальных случайных величин.

Хи-квадрат - это мера различия. Задаем уровень ошибки, равный a=0,05. Соответственно, если значение p>a , то распределение оптимально.

- для проверки гипотезы о согласии распределения выборочных данных с моделью нормального распределения с помощью критерия хи-квадрат выберите пункт меню Statistics/Distribution Fittings. Затем в диалоговом окне Fitting Contentious Distribution задайте вид теоретического распределения - Normal, выберите переменную - Variables, задайте параметры анализа - Parameters.

11. Какие основные статистические характеристики количественных переменных вы знаете? Их описание и интерпретация в терминах решаемой задачи.

Ответ: Основные статистические характеристики количественных переменных:

математическое ожидание (среднее среди выборки, сумма значений\n ,седнирй объем производства среди предприятий)

медиана(середина значений.)

среднее квадратичное отклонение (Квадратный корень из дисперсии)

дисперсия (мера разброса данной случайной величины, т.е. её отклонения от математического ожидания)

коэффициент асимметрии (Определяем смещение относительно центра симметрии по правилу: если B1>0, то смещение влево, иначе - вправо.)

коэффициента эксцесса (близость к нормальному распределению)

минимальное выборочное значение, максимальное выборочное значение,

разброс

выборочные верхнюю и нижнюю квартили

Мода (пиковое значение)

12. Какие измерители связи применяются для измерения степени тесноты связи между количественными и порядковыми переменными? Их расчет в Statistica и интерпретация.

Ответ: Корреляция - статистическая взаимосвязь двух или нескольких случайных величин.

При этом изменения одной или нескольких из этих величин приводят к систематическому изменению другой или других величин. Мерой корреляции двух случайных величин служит коэффициент корреляции.

Количественные:

Коэффициент корреляции - это показатель характера изменения двух случайных величин.

Коэффициента корреляции Пирсона (измеряет степень линейных связей между переменными. Можно сказать, что корреляция определяет степень, с которой значения двух переменных пропорциональны друг другу.)

Частный коэффициент корреляции (измеряет степень тесноты между переменными, при условии что значения остальных переменных зафиксированы на постоянном уровне).

Качественные:

Коэффициент ранговой корреляции Спирмена (используется с целью статистического изучения связи между явлениями. Изучаемые объекты упорядочиваются в отношении некоторого признака т. е. им приписываются порядковые номера - ранги.)

| следующая лекция ==>

В книге, написанной в 1977 г. известным американским специалистом по математической статистике, изложены основы разведочного анализа данных, т.е. первичной обработки результатов наблюдений, осуществляемой посредством простейших средств - карандаша, бумаги и логарифмической линейки. На многочисленных примерах автор показывает, как представление наблюдений в наглядной форме с помощью схем, таблиц и графиков облегчает выявление закономерностей и подбор способов более глубокой статистической обработки. Изложение сопровождается многочисленными упражнениями с привлечением богатого материала из практики. Живой, образный язык облегчает понимание излагаемого материала.

Джон Тьюки. Анализ результатов наблюдений. Разведочный анализ. – М.: Мир, 1981. – 696 с.

Скачать конспект (краткое содержание) в формате или , примеры в формате

На момент публикации заметки книгу можно найти только в букинистических магазинах.

Автор подразделяет статистический анализ на два этапа: разведочный и подтверждающий. Первый этап включает преобразование данных наблюдений и способы их наглядного представления, позволяющие выявить внутренние закономерности, проявляющиеся в данных. На втором этапе применяются традиционные статистические методы оценки параметров и проверки гипотез. Настоящая книга посвящена разведочному анализу данных (о подтверждающем анализе см. ). Для чтения книги не требуется предварительных знаний по теории вероятностей и математической статистике.

Прим. Багузина. Учитывая год написания книги, автор сосредотачивается на наглядном представлении данных с помощью карандаша, линейки и бумаги (иногда миллиметровой). На мой взгляд, сегодня наглядное представление данных связано с ПК. Поэтому я попытался совместить оригинальные идеи автора и обработку в Excel. Мои комментарии набраны с отступом.

Глава 1. КАК ЗАПИСЫВАТЬ ЧИСЛА («СТЕБЕЛЬ С ЛИСТЬЯМИ»)

График имеет наибольшую ценность тогда, когда он вынуждает нас заметить то, что мы совсем не ожидали увидеть. Представление чисел в виде стебля и листьев позволяет выявить закономерности. Например, приняв основанием стебля десятки, число 35 можно отнести к стеблю 3. Лист будет равен 5. Для числа 108 стебель – 10, лист – 8.

В качестве примера я взял 100 случайных чисел, распределенных по нормальному закону со средним 10 и стандартным отклонением 3. Чтобы получить такие числа я воспользовался формулой =НОРМ.ОБР(СЛЧИС();10;3) (рис. 1). Откройте приложенный файл Excel. Нажимая F9, вы будете генерировать новый ряд случайных чисел.

Рис. 1. 100 случайных чисел

Видно, что числа в основном распределены в диапазоне от 5 до 16. Однако заметить какую-либо интересную закономерность сложно. График «стебель и листья» (рис. 2) выявляет нормальное распределение. В качестве ствола были взяты пары соседних чисел, например, 4-5. Листья отражают число значений в этом диапазоне. В нашем примере таких значений 3.

Рис. 2. График «стебель и листья»

В Excel есть две возможности, позволяющие быстро изучить частотные закономерности: функция ЧАСТОТА (рис. 3; подробнее см. ) и сводные таблицы (рис. 4; подробнее см. , раздел Группировка числовых полей ).

Рис. 3. Анализ с помощью функции массива ЧАСТОТА

Рис. 4. Анализ с помощью сводных таблиц

Представление в виде стебля с листьями (частотное представление) позволяет выявить следующие особенности данных:

  • разделение на группы;
  • несимметричное спадание к концам - один «хвост» длиннее другого;
  • неожиданно «популярные» и «непопулярные» значения;
  • относительно какого значения «центрированы» наблюдения;
  • как велик разброс данных.

Глава 2. ПРОСТЫЕ СВОДКИ ДАННЫХ – ЧИСЛОВЫЕ И ГРАФИЧЕСКИЕ

Представление чисел в виде стебля с листьями позволяет воспринять общую картину выборки. Перед нами стоит задача научиться выражать в сжатом виде наиболее часто встречающиеся общие особенности выборок. Для этого используются сводки данных. Однако, несмотря на то, что сводки могут быть очень полезными, но они не дают всех подробностей выборки. Если этих подробностей не так много, чтобы в них запутаться, лучше всего иметь перед глазами полные данные, размещенные отчетливо удобным для нас способом. Для больших массивов данных сводки необходимы. Мы не предполагаем и не ожидаем, что они заменят полные данные. Разумеется, нередко бывает, что добавление подробностей мало что дает, но важно осознать, что иногда подробности дают многое.

Если для характеристики выборки как целого нам нужно выбрать несколько чисел, которые легко найти, то нам наверняка понадобятся:

  • крайние значения - наибольшее и наименьшее, которые мы пометим символом «1» (в соответствии с их рангом или глубиной);
  • какое-то срединное значение.

Медиана = срединное значение.

Для ряда, представленного в виде стебля с листьями, срединное значение легко найти подсчетом вглубь от любого из концов, приписывая крайнему значению ранг «1». Таким образом, каждое значение в выборке получает свой ранг . Счет можно начинать с любого конца. Наименьший из двух получаемых таким образом рангов, которые можно приписать одному и тому же значению, мы назовем глубиной (рис. 5). Глубина крайнего значения всегда 1.

Рис. 5. Определение глубины на основе двух направлений ранжирования

глубина (или ранг) медианы = (1 + число значений)/2

Если мы хотим добавить еще два числа, чтобы образовать 5-числовую сводку, то естественно определять их подсчетом до половины расстояния от каждого из концов к медиане. Процесс нахождения медианы, а затем и этих новых значений можно представить себе, как складывание листа бумаги. Поэтому эти новые значения естественно назвать сгибами (сейчас чаще используется термин квартиль ).

В свернутом виде ряд из 13 значений может выглядеть, например, так:

Пять чисел для характеристики ряда в порядке возрастания будут: –3,2; 0,1; 1,5; 3,0; 9,8 - по одному в каждой точке перегиба ряда. Пять чисел (крайние значения, сгибы, медиана), из которых состоит 5-числовая сводка, мы будем изображать в виде следующей простой схемы:

где слева мы показали количество чисел (отмечено знаком #), глубину медианы (буквой М), глубину сгибов (буквой С) и глубину крайних значений (всегда 1, больше ничем отмечать не надо).

На рис. 8 показано, как изобразить 5-числовую сводку графически. Такого типа график называется «ящик с усами».

Рис. 8. Схематическая диаграмма или ящик с усами

К сожалению, Excel стандартно строит биржевые диаграммы, основанные только на трех или четырех значениях (рис. 9; как обойти это ограничение см. ). Для построения 5-числовой сводки можно воспользоваться статистическим пакетом R (рис. 10; подробнее см. Базовые графические возможности R: диаграммы размахов ; если вы не знакомы с пакетом R, можно начать с ). Функция boxplot() в R помимо 5 чисел отражает также выбросы (о них чуть позже).

Рис. 9. Возможные типы биржевых диаграмм в Excel

Рис. 10. Ящичная диаграмма в R; для построения такого графика достаточно выполнить команду boxplot(count ~ spray, data = InsectSprays), будут загружены данные, хранящиеся в программе, и построен представленный график

При построении диаграммы «ящик с усами» мы будем придерживаться следующей простой схемы:

  • «С-ширина» = разность между значениями двух сгибов;
  • «шаг» - величина, в полтора раза большая, чем С-ширина;
  • «внутренние барьеры» находятся снаружи сгибов на расстоянии одного шага;
  • «наружные барьеры» - снаружи на один шаг дальше внутренних;
  • значения между внутренним и соседним наружным барьерами будут «внешними»;
  • значения за наружными барьерами будем называть «отскакивающими» (или выбросы);
  • «размах» = разность между крайними значениями.

Рис. 19. Вычисление скользящей медианы: (а) подробно для части данных; (б) для всей выборки

Рис. 20. Сглаженная кривая

Глава 10. ИСПОЛЬЗОВАНИЕ ДВУХФАКТОРНОГО АНАЛИЗА

Наступило время рассмотреть двухфакторный анализ - как вследствие его важности, так и потому, что он является введением в разнообразные методы исследования. В основе двухфакторной таблицы (таблицы «откликов») лежат:

  • один вид откликов;
  • два фактора - и каждый из них проявляется в каждом наблюдении.

Двухфакторная таблица остатков. Анализ «строка-плюс-столбец». На рис. 21 приведены среднемесячные значения температуры для трех мест в Аризоне.

Рис. 21. Среднемесячные температуры в трех городах Аризоны, °F

Определим медиану по каждому месту, и вычтем ее из отдельных значений (рис. 22).

Рис. 22. Значения аппроксимации (медианы) для каждого города и остатки

Теперь определим аппроксимацию (медиану) по каждой строке, и вычтем ее из значений строки (рис. 23).

Рис. 23. Значения аппроксимации (медианы) для каждого месяца и остатки

Для рис. 23 мы вводим понятие «эффект». Число –24,7 представляет собой эффект столбца, а число 19,1 - эффект строки. Эффект показывает, как проявляется фактор или множество факторов в каждой из наблюденных величин. Если проявляющаяся часть фактора больше, чем то, что остается, то легче разглядеть и понять, что происходит с данными. Число, которое было вычтено из всех без исключения данных (здесь 70,8), называем «общее». Оно есть проявление всех факторов, общих для всех данных. Таким образом, для величин на рис. 23 справедлива формула:

Это и есть схема конкретного анализа «строка-ПЛЮС-столбец». Мы возвращаемся к нашей старой уловке - попытаться найти простое частичное описание - частичное описание, которое легче воспринимается - частичное описание, вычитание которого даст нам возможность глубже взглянуть на то, что еще не было описано.

Что нового мы сможем узнать благодаря полному двухфакторному анализу? Самый большой остаток, равный 1,9, мал по сравнению с величиной изменения эффекта от пункта к пункту и от месяца к месяцу. Во Флагстаффе приблизительно на 25°F прохладнее, чем в Финиксе, в то время как в Юме на 5–6°F теплее, чем в Финиксе. Последовательность эффектов месяцев монотонно убывает от месяца к месяцу, сначала медленно, затем быстро, затем снова медленно. Это похоже на симметрию относительно октября (такую закономерность я ранее наблюдал на примере продолжительности дня; см. . – Прим. Багузина ); Мы сняли обе завесы - эффект сезона и эффект места. После этого мы смогли увидеть довольно многое из того, что ранее оставалось незамеченным.

На рис. 24 приведена двухфакторная диаграмма . Хотя основное на этом рисунке - это аппроксимация, мы не должны пренебрегать остатками. В четырех точках мы нарисовали короткие вертикальные черточки. Длины этих черточек равны величинам соответствующих остатков, так что координаты вторых концов представляют не значения аппроксимации, а

Данные = аппроксимация ПЛЮС остаток.

Рис. 24. Двухфакторная диаграмма

Заметим также, что свойство этой или любой другой двухфакторной диаграммы - «шкала лишь в одном направлении», задающими вертикальный размер, т.е. пунктирными горизонтальными линиями, проведенными по бокам картинки, и отсутствием какого-либо размера в горизонтальном направлении.

О возможностях Excel см. . Любопытно, что некоторые формулы, использованные в этой заметке, носят имя Тьюки

Дальнейшее изложение, на мой взгляд, стало совсем сложным…

), и др. Более того, появление быстрых современных компьютеров и свободного программного обеспечения (вроде R) сделало все эти требующие вычислительных ресурсов методы доступными практически для каждого исследователя. Однако такая доступность еще больше обостряет хорошо известную проблему всех статистических методов, которую на английском языке часто описывают как "rubbish in, rubbish out ", т.е. "мусор на входе - мусор на выходе". Речь здесь идет о следующем: чудес не бывает, и если мы не будем уделять должного внимания тому, как тот или иной метод работает и какие требования предъявляет к анализируемым данным, то получаемые с его помощью результаты нельзя будет воспринимать всерьез. Поэтому каждый раз исследователю следует начинать свою работу с тщательного ознакомления со свойствами полученных данных и проверки необходимых условий применимости соответствующих статистических методов. Этот начальный этап анализа называют разведочным (Exploratory Data Analysis ).

В литературе по статистике можно найти немало рекомендаций по выполнению разведочного анализа данных (РДА). Два года назад в журнале Methods in Ecology and Evolution была опубликована отличная статья, в которой эти рекомендации сведены в единый протокол по выполнению РДА: Zuur A. F., Ieno E. N., Elphick C. S. (2010) A protocol for data exploration to avoid common statistical problems. Methods in Ecology and Evolution 1(1): 3-14 . Несмотря на то, что статья написана для биологов (в частности, для экологов), изложенные в ней принципы, безусловно, верны и в отношении других научных дисциплин. В этом и последующих сообщениях блога я приведу выдержки из работы Zuur et al. (2010) и опишу предложенный авторами РДА-протокол. Подобно тому, как это сделано в оригинальной статье, описание отдельных шагов протокола будет сопровождаться краткими рекомендациями по использованию соответствующих функций и пакетов системы R.

Предлагаемый протокол включает следующие основные элементы:

  1. Формулировка исследовательской гипотезы. Выполнение экспериментов/наблюдений для сбора данных.
  2. Разведочный анализ данных:
    • Выявление точек-выборосов
    • Проверка однородности дисперсий
    • Проверка нормальности распределения данных
    • Выявление избыточного количества нулевых значений
    • Выявление коллинеарных переменных
    • Выявление характера связи между анализируемыми переменными
    • Выявление взаимодействий между переменными-предикторами
    • Выявление пространственно-временных корреляций среди значений зависимой переменной
  3. Применение соответствующего ситуации статистического метода (модели).

Zuur et al. (2010) отмечают, что РДА наиболее эффективен при использовании разнообразных графических средств, поскольку графики часто позволяют лучше понять структуру и свойства анализируемых данных, чем формальные статистические тесты.

Рассмотрение приведенного РДА-протокола начнем с выявления точек-выбросов . Чувствительность разных статистических методов к наличию выбросов в данных неодинакова. Так, при использовании обобщенной линейной модели для анализа зависимой переменной, распределенной по закону Пуассона (например, количество случаев какого-либо заболевания в разных городах), наличие выбросов может вызвать избыточную дисперсию, что сделает модель неприменимой. В то же время при использовании непараметрического многомерного шкалирования , основанного на индексе Жаккара , все исходные данные переводятся в номинальную шкалу с двумя значениями (1/0), и наличие выбросов никак не сказывается на результат анализа. Исследователь должен четко понимать эти различия между разными методами и при необходимости выполнять проверку на наличие выборосов в данных. Дадим рабочее определение: под "выбросом" мы будем понимать наблюдение, которое "слишком" велико или "слишком" мало по сравнению с большинством других имеющихся наблюдений.

Обычно для выявления выбросов используют диаграммы размахов . В R при построении диаграмм размахов используются устойчивые (робастные) оценки центральной тенденции (медиана) и разброса (интерквартильный размах, ИКР). Верхний "ус" простирается от верхней границы "ящика" до наибольшего выборочного значения, находящегося в пределах расстояния 1.5 х ИКР от этой границы. Аналогично, нижний "ус" простирается от нижней границы "ящика" до наименьшего выборочного значения, находящегося в пределах расстояния 1.5 х ИКР от этой границы. Наблюдения, находящиеся за пределами "усов", рассматриваются как потенциальные выбросы (Рисунок 1).

Рисунок 1. Строение диаграммы размахов.

Примеры функций из R, служащих для построения диаграмм размахов:
  • Базовая функция boxplot() (подробнее см. ).
  • Пакет ggplot2 : геометрический объект ("geom ") boxplot . Например:
    p <- ggplot (mtcars, aes(factor(cyl), mpg)) p + geom_boxplot() # или: qplot (factor(cyl), mpg, data = mtcars, geom = "boxplot" )
Другим очень полезным, но, к сожалению, недостаточно используемым графическим средством выявления выборосов является точечная диаграмма Кливленда . На таком графике по оси ординат откладывают порядковые номера отдельных наблюдений, а по оси абсцисс - значения этих наблюдений. Наблюдения, "значительно" выделяющиеся из основного облака точек, потенциально могут быть выбросами (Рисунок 2).

Рисунок 2. Точечная диаграмма Кливленда, изображающая данные о длине крыла у 1295 воробьев (Zuur et al. 2010) . В этом примере данные предварительно были упорядочены в соответствии с весом птиц, и поэтому облако точек имеет примерно S-образную форму.


На Рисунке 2 хорошо выделяется точка, соответствующая длине крыла 68 мм. Однако это значение длины крыла не следует рассматривать в качестве выброса, поскольку оно лишь незначительно отличается от других значений длины. Эта точка выделяется на общем фоне лишь потому, что исходные значения длины крыла были упорядочены по весу птиц. Соответственно, выброс скорее стоит искать среди значений веса (т.е. очень высокое значение длины крыла (68 мм) было отмечено у необычно мало весящего для этого воробья).

До этого момента мы называли "выбросом" наблюдение, которое "значительно" отличается от большинства других наблюдений в исследуемой совокупности. Однако более строгий подход к определению выбросов состоит в оценке того, какое влияние эти необычные наблюдения оказывают на результаты анализа. При этом следует делать различие между необычными наблюдениями для зависимых и независимых переменных (предикторов). Например, при изучении зависимости численности какого-либо биологического вида от температуры большинство значений температуры может лежать в пределах от 15 до 20 °С, и лишь одно значение может оказаться равным 25 °С. Такой план эксперимента, мягко говоря, неидеален, поскольку диапазон температур от 20 до 25 °С будет исследован неравномерно. Однако при проведении реальных полевых исследований возможность выполнить измерения для высокой температуры может представиться только однажды. Что же тогда делать с этим необычным измерением, выполненным при 25 °С? При большом объеме наблюдений подобные редкие наблюдения можно исключить из анализа. Однако при относительно небольшом объеме данных еще большее его уменьшение может быть нежелательным с точки зрения статистической значимости получаемых результатов. Если удаление необычных значений предиктора по тем или иным причинам не представляется возможным, помочь может определенное преобразование этого предиктора (например, логарифмирование).

С необычными значениями зависимой переменной "бороться" сложнее, особенно при построении регрессионных моделей. Преобразование путем, например, логарифмирования, может помочь, но поскольку зависимая переменная представляет особый интерес при построении регрессионных моделей, лучше попытаться подобрать метод анализа, который основан на распределении вероятностей , допускающем больший разброс значений для больших средних величин (например, гамма-распределение для непрерывных переменных или распределение Пуассона для дискретных количественных переменных). Такой подход позволит работать с исходными значениями зависимой переменной.

В конечном счете решение об удалении необычных значений из анализа принимает сам исследователь. При этом он должен помнить о том, что причины для возникновения таких наблюдений могут быть разными. Так, удаление выбросов, возникших из-за неудачного планирования эксперимента (см. выше пример с температурой), может быть вполне оправданным. Оправданным будет также удаление выбросов, явно возникших из-за ошибок при выполнении измерений. В то же время необычные наблюдения среди значений зависимой переменной могут потребовать более тонкого подхода, особенно если они отражают естественную вариабельность этой переменной. В этой связи важно вести подробное документирование условий, при которых происходит экспериментальная часть исследования - это может помочь интерпретировать "выбросы" в ходе анализа данных. Независимо от причин возникновения необычных наблюдений, в итоговом научном отчете (например, в статье) важно сообщить читателю как о самом факте выявления таких наблюдений, так и о принятых в их отношении мерах.

Новое на сайте

>

Самое популярное