Webbc.ru

Веб и кризис
0 просмотров
Рейтинг статьи
1 звезда2 звезды3 звезды4 звезды5 звезд
Загрузка...

Кластерный анализ в statistica

Кластерный анализ в statistica

Кластеризация методом K средних в STATISTICA

Этот пример будет иллюстрировать один из других методов кластеризации: метод k средних. Как описано в разделе Вводный обзор, целью алгоритма является оптимальное «разбиение» всего набора объектов на k кластеров. Эта процедура будет перемещать объекты из одного кластера в другой, чтобы минимизировать внутрикластерную дисперсию и максимизировать межкластерную. В Примере 1, вы нашли три кластера во множестве данных об автомобилях (Cars.sta). Теперь посмотрим, какого сорта решение получим с помощью метода k средних в предположении, что в данных имеется всего три кластера.

Спецификация анализа . Выберите Кластерный анализ в меню Анализ — Многомерный разведочный анализ для отображения стартовой панели модуля Кластерный анализ. В появившемся диалоге выберите Кластеризация методом К средних и нажмите кнопку OK для отображения диалогового окна Кластерный анализ: кластеризация методом К средних. В этом диалоге выберите вкладу Дополнительно.

Нажмите кнопку Переменные, в появившемся окне Выбор переменных выберите все переменные. Далее, нажмите кнопку OK, чтобы вернуться во вкладку Дополнительно диалогового окна Кластерный анализ: кластеризация методом К средних. Как и в Примере 1 вы можете кластеризовать объекты или переменные. В этом случае выберите Наблюдения (строки) в поле Кластер для того, чтобы кластеризовать автомобили. Чтобы получить результаты для трех кластеров, изменим Число кластеров на 3.

Начальные центры кластеров . Эти опции управляют способом вычисления начальных центров кластеров. Результаты метода k средних зависят в известной мере от начальной конфигурации (т.е. от средних или центров кластеров). В частности, это происходит, когда формируется много маленьких отчетливо различающихся кластеров (с несколькими объектами). Для дальнейшей информации об этих опциях обратитесь к вкладке Дополнительно диалогового окна Кластерный анализ: категоризация методом К средних.

В этом примере выберите, по умолчанию, метод Сортировать расстояния и выбрать набл. на постоянных интервалах и затем нажмите кнопку OK, чтобы начать анализ.

Результаты . После завершения анализа появляется диалоговое окно Результаты метода K средних.

Дисперсионный анализ . В разделе Вводный обзор — Метод k средних этот метод был назван «дисперсионным анализом наоборот». В дисперсионном анализе межгрупповая дисперсия сравнивается с внутригрупповой дисперсией для принятия решения, являются ли средние для отдельных переменных в разных совокупностях значимо различными.

Даже, несмотря на то, что тестирование в этом случае не вполне корректно (во многом вы рассчитываете на везение), вы можете, тем не менее, принимать во внимание результаты дисперсионного анализа, сравнивая для каждого измерения средние (т.е. измерения характеристик) между совокупностями (кластерами автомобилей). Нажмите на кнопку Дисперсионный анализ для отображения приведенной выше таблицы.

Читать еще:  Анализ производственной деятельности

Исходя из амплитуды (и уровней значимости) F-статистики, переменные Управляемость — Handling, Тормоз — Braking и Цена — Price являются главными при решении вопроса о распределении объектов по кластерам.

Идентификация кластеров. Теперь посмотрим, как программа назначает автомобили в кластеры с использованием этого критерия. Для того чтобы понять, из каких членов состоит каждый кластер, нажмите на кнопку Элементы кластеров и расстояния во вкладке Дополнительно диалогового окна Результаты метода К средних для получения таблиц результатов (по одной для каждого кластера). Кластер 1 состоит из Акура — Acura, Бьюик — Buick, Крайслер — Chrysler, Додж — Dodge, Хонда — Honda, Мицубиси — Mitsubishi, Ниссан — Nissan, Олдс — Olds, Понтиак — Pontiac, Сааб — Saab, Тойота — Toyota, Фольксваген — VW и Вольво — Volvo.

Следующая таблица содержит члены кластера 2:

Второй кластер содержит Ауди — Audi, БМВ — BMW, Корвет — Corvette, Форд — Ford, Мазду — Mazda, Мерседес — Mercedes и Порше — Porsche. Последний кластер приведен в третьей таблице ниже. Этот кластер состоит из Игл — Eagle и Исузу — Isuzu.

Эти результаты не полностью аналогичны кластерам, найденным в предшествующем анализе. Однако различия между кластерами экономичный седан и роскошный седан по-прежнему кажутся устойчивыми. Автомобили Игл — Eagle и Исузу — Isuzu были, вероятно, помещены в собственную категорию, так как они не «подходят» куда-либо ещё, и поскольку любое другое перераспределение автомобилей не улучшает решение (т.е. увеличивает межгрупповые суммы квадратов).

Описательные статистики для каждого кластера . Другим способом определения природы кластеров является проверка средних значений для каждого кластера и для каждого измерения. Вы можете или отобразить описательные статистики отдельно (нажмите на кнопку Описат. статистики для каждого кластера), или отобразить средние для всех кластеров и расстояний (евклидовых и квадратов евклидовых, см. ниже) между кластерами в отдельную таблицу результатов (нажмите на кнопку Средние кластеров и евклидовы расстояния), или вывести диаграмму этих средних (нажмите на кнопку График средних). Обычно, этот график дает наилучшее представление результатов.

Взглянем, например, на линию для кластера экономичный седан (Кластер 1) и сравним её с кластером роскошный седан (Кластер 2) на графике ниже. Можно заметить, что и в самом деле, автомобили в последнем классе:

(1) Являются более дорогими,

(2) Имеют меньше время разгона (вероятно из-за большего веса),

Читать еще:  Многофакторный корреляционный анализ

(3) Имеют приблизительно тот самый тормозной путь,

(4) Являются одинаковыми с точки зрения управляемости, и

(5) Имеют меньший расход топлива.

Наиболее различающим признаком автомобилей из третьего кластера (Игл — Eagle и Исузу — Isuzu) в соответствии с этим графиком, является их более короткий тормозной путь и плохая управляемость.

Расстояния между кластерами. Другой полезный результат проверки — евклидовы расстояния между кластерами (нажмите на кнопку Средние кластеров и евклидовы расстояния). Эти расстояния (евклидовы и их квадраты) вычисляются по средним каждой переменной в кластере.

Отметим, что кластеры 1 и 2 относительно близки друг к другу (евклидово расстояние = 0.97) по отношению к расстояниям от кластера 3 до кластеров 1 и 2.

Этот пример взят из справочной системы ППП STATISTICA фирмы StatSoft

X Международная студенческая научная конференция Студенческий научный форум — 2018

КЛАСТЕРНЫЙ АНАЛИЗ. ПРИМЕНЕНИЕ В ПАКЕТЕ STATISTICA

Следует сразу оговориться, что под точным прогнозом подразумевается не однозначное совпадение предсказаний исходов игр (победа или ничья какой-либо команды) с реальными результатами, а статистическое соответствие между вероятностями всех исходов, которые возможны и частотами этих самых исходов среди массы всех определённых спортивных результатов.

В общем случае, кластеризация – набор математических методов, направленных на формирование относительно «отдаленных» друг от друга групп «близких» между собой объектов по информации о расстояниях или связях (мерах близости) между ними. Ведущее назначение кластерного анализа – раздробление множества исследуемых объектов и признаков на схожие по чертам, однородные в соответствующем понимании группы или кластеры. Методы, использующиеся для кластеризации делятся на иерархические: метод ближней связи; метод средней связи Кинга; метод Уорда и неиерархические: метод k-средних Мак-Куина.

Преимущества кластерного анализа:

№1: даёт возможность производить раздробление объектов не по одному признаку, а по целому набору.

№2: при прогнозировании конъюнктуры, где показатели принимают разнообразный вид, даёт свободное использование традиционных эконометрических подходов.

№3: анализ кластеров даёт возможность рассматривать достаточно большой объём и резко сокращать, сжимать большие массивы социально-экономической информации, придавать им компактный и наглядный вид.

№4: позволяет давать оценку экономическому развитию мобильно и не проводя сложных математических вычислений.

Недостатки и ограничения кластерного анализа:

№1: при сведении исходного массива данных к более компактному виду могут возникнуть некоторые искажения.

№2: потеря индивидуальных черт отдельных объектов за счёт замены их данными обобщённых значений и параметров кластера.

№3: при проведении группирования объектов очень часто не берётся во внимание возможность отсутствия в приведённой совокупности каких-либо данных кластеров.

Постановка задачи: спрогнозировать результаты игр сборной Российской Федерации на Чемпионате Мира 2018 по футболу, используя пакет Statistica.

Читать еще:  Статистическая отчетность в экономическом анализе

Решение. Составляем таблицу имеющихся данных.

Создаём новый документ (Create New Document): В меню Файл/Новый…

В появившемся окне диалога набираем количество переменных – 6, число регистров – 16 (количество футболистов)./Ок.

В появившейся таблице вводим исходные данные.

Стандартизируем данные, так как они имеют разную размерность:

Правой кнопкой мыши по названию любого столбца переменной вызвать контекстное меню

Выбрать команду Fill/Standardize Block/Standardize Columns

Вызываем диалог кластерного анализа: Меню Статистика/Многомерные исследовательские методы/ Анализ кластера.

В появившемся окне диалога выбираем иерархические агломеративные методы Joining (tree clustering).

В открывшемся окне диалога выбрать все переменные (можно нажать кнопку Select All)

Нажать кнопку Ок.

Кнопка Distance matrix выводит матрицу расстояний(с учётом выбранной метрики).

Кнопка Amalgamation schedule выводит последовательность объединения в кластеры в виде таблицы.

Кнопка Horizontal hierarchical tree plot выводит дендограмму в горизонтальном виде.

1 кластер: Антон Заболотный, Константин Рауш, Дмитрий Тарасов, Марио Фернандес

2 кластер: Евгений Чернов

3 кластер: Далер Кузяев, Антон Миранчук

4 кластер: Дмитрий Полоз, Александр Ерохин

5 кластер: Александр Головин

6 кластер: Магомед Оздоев

7 кластер: Фёдор Смолов

8 кластер: Александр Кокорин

9 кластер: Алан Дзагоев

10 кластер: Александр Самедов

1 кластер: Антон Заболотный, Константин Рауш, Дмитрий Тарасов, Марио Фернандес, Евгений Чернов, Далер Кузяев, Антон Миранчук, Дмитрий Полоз, Александр Ерохин, Александр Головин, Магомед Оздоев, Алексей Миранчук

2 кластер: Фёдор Смолов

3 кластер: Александр Кокорин

4 кластер: Алан Дзагоев

5 кластер: Александр Самедов

1 кластер: Антон Заболотный, Константин Рауш, Дмитрий Тарасов, Марио Фернандес, Евгений Чернов, Далер Кузяев, Антон Миранчук, Дмитрий Полоз, Александр Ерохин, Александр Головин, Магомед Оздоев, Алексей Миранчук, Фёдор Смолов

2 кластер: Александр Кокорин, Алан Дзагоев, Александр Самедов

Итак, с помощью пакета Statistica с лёгкостью можно провести анализ наших данных и сделать необходимые выводы. Зная сроки, которые игроки состоят в сборной и статистику забитых голов, мы можем с некоторой вероятностью предсказать результаты игр Чемпионата Мира по футболу 2018. Но нельзя исключать человеческий фактор, решения тренера о замене игроков в действующем составе сборной и т.д., так как это может полностью изменить результаты.

Студенческий научный форум — 2018
X Международная студенческая научная конференция

В рамках реализации «Государственной молодежной политики Российской Федерации на период до 2025 года» и направления «Вовлечение молодежи в инновационную деятельность и научно-техническое творчество» коллективами преподавателей различных вузов России в 2009 году было предложено совместное проведение электронной научной конференции «Международный студенческий научный форум».

Ссылка на основную публикацию
Adblock
detector