Webbc.ru

Веб и кризис
0 просмотров
Рейтинг статьи
1 звезда2 звезды3 звезды4 звезды5 звезд
Загрузка...

Перекрестный анализ данных

Анализ данных с помощью перекрестных запросов и сводных таблиц. Создание перекрестных запросов

Страницы работы

Фрагмент текста работы

6.Анализ данных с помощью перекрестных запросов и сводных таблиц

Программа Access приспособлена и нацелена на сохранение всех подробностей в вашей базе данных. Но иногда вам не нужно знать все детали — взамен вы хотите получить общее представление. Необходим способ получения необработанных данных, которые могут включать сотни и тысячи записей, и подведения итогов каким-либо осмысленным образом.

Одним из методом анализа больших объемов информации является использование групповых операций в итоговых запросах (см. запросы 14, 15). Применяя группировку, можно взять огромную подборку строк и сократить ее до нескольких промежуточных итогов.

Перекрестные запросы и сводные таблицы играют ту же роль. Но они представляют данные несколько иначе. В перекрестных запросах применяются дополнительные столбцы для размещения информации в крайне сжатой таблице. Сводные таблицы используют интерфейс перемещений, позволяющий реорганизовать ваши итоги на лету для выявления различных тенденций и связей. Оба эти средства используются в наборе средств любого специалиста Access.

6.1. Создание перекрестных запросов

Перекрестный запрос — это мощное средство подведения итогов, исследующее большие объемы данных и применяющее их для вычисления промежуточных итогов и средних значений.

Как и итоговые запросы, перекрестные применяют два основных компонента: группировку и функции подведения итога. Группировка применяется для объединения строк в небольшие подмножества. Функция подведения итога используется для вычисления единого значения для каждой группы.

Но есть два важных отличия.

Первое отличие заключается в том, в перекрестных запросах всегда применяется двухуровневая группировка.

Например, в типичных итоговых запросах можно сгруппировать по товарам и увидеть размер приносимого ими дохода. В перекрестном запросе можно проанализировать данные о продажах в зависимости от страны покупателя и категории товара. С помощью такого анализа вы сможете быстро определить, какие категории товаров особенно популярны в конкретных странах.

Другое отличие перекрестных запросов от итоговых заключается в способе представления программой Access результатов. Итоговый запрос создает отдельную строку для каждой группы.

Например, если вы анализируете продажи в разных странах различных категорий товаров, итоговый запрос выведет строку для каждой комбинации категории и страны.

Перекрестный запрос действует несколько иначе: он использует ту же информацию, но располагает ее в отдельных столбцах, создавая более сжатое представление.

Запрос 25. Проанализировать заказы различных категорий товаров в разных странах.

1. Создать запрос Объемы заказов, содержащий данные о стране проживания заказчиков, категории заказанных товаров и объеме их заказов.

2. Выберите на ленте Создание à Другие à Мастер запросов.

3. На экране появляется окно Создание запроса со списком запросов разных типов, которые может создать мастер. Выберите Перекрестный запрос и щелкните мышью кнопку ОК.

4. В области Показать щелкните кнопкой мыши переключатель Запросы, а затем выберите запрос Объемы заказов. Щелкните мышью кнопку Далее.

5. На следующем этапе нужно задать критерий группировки, которые будут применяться для объединения данных в строки. Строки группируются по полю Страна. Щелкните мышью кнопку Далее.

6. На следующем шаге показывается критерий группировки, применяемый для разделения строк на столбцы. Это поле Категория. Щелкните мышью кнопку Далее.

7. Выберите поле для вычисления (Объемы заказов) и затем функцию для подсчета сводных данных (Сумма). Щелкните мышью кнопку Далее.

8. Щелкните мышью кнопку Готово.

6.2. Сводные таблицы

У Access есть еще одно мощное средство для подытоживания ваших данных

АНАЛИЗ ПЕРЕКРЁСТНЫХ ДАННЫХ

Основная цель любого научного (в том числе и эконометрического) исследования – количественное описание взаимосвязей между переменными, которые характеризуют изучаемый процесс. Например, полезно знать, как цена товара связана с объёмом его реализации. Знание формы взаимосвязи этих переменных позволяет прогнозировать сбыт товара при изменении в будущем его цены в ту или иную сторону.

Приступая к решению подобных задач, следует в первую очередь ответить на вопросы: есть ли вообще связь между изучаемыми переменными, какова сила этой связи? Интуитивно ясно, что чем теснее связь между переменными, тем больше информации содержит одна переменная относительно другой, тем точнее можно спрогнозировать неизвестное значение одной переменной по заданной величине другой.

Измерение тесноты взаимосвязи переменных составляет содержание корреляционного анализа. Форму (то есть формулу) взаимосвязи переменных устанавливают методами регрессионного анализа. Обозначим некоторые принципиальные моменты корреляционного и регрессионного анализа на простом примере взаимосвязи двух переменных Y и X. В специальной литературе зависимую переменную Y называют результирующей, объясняемой, а независимую переменную X, которая определяет изменение Y, называют объясняющей, факторной переменной.

В зависимости от тесноты взаимосвязи между переменными Y и X различают следующие варианты.

Полная, точная взаимосвязь, при которой каждому значению величины X соответствует строго определенное значение Y. Такую связь называют функциональной. Например, площадь круга функционально зависит от его радиуса. Функциональную связь изучают в классических естественных науках (физике, математике, механике и т. д.).

Другой предельный вариант – полное отсутствие связи между независимыми переменными.

Промежуточный вариант неполной связи характерен для всех реально наблюдаемых величин. В частности, неполные, неточные связи между экономическими переменными обусловлены целым рядом причин: во-первых, трудно выявить все факторы, влияющие на экономический показатель; во-вторых, это влияние может быть не прямым, а опосредованным, то есть проявляться через цепочку других факторов; в-третьих, многие факторы в экономике носят случайный характер и т. д.

В силу названных причин экономические явления характеризуются случайными переменными, взаимосвязь которых всегда статистическая, то есть неполная.

Статистической называют зависимость, при которой изменение одной из величин влечет изменение распределения другой. В частном случае, когда при изменении одной из величин изменяется только среднее значение другой, а закон распределения сохраняется, статистическая зависимость называется корреляционной.

Приведем пример. Пусть Y – урожай зерна, а X – количество удобрений на единицу площади. С одинаковых по площади участков земли при равных количествах внесенных удобрений снимают разный по величине урожай, то есть связь Y и X не является полной (функциональной). Разница в значениях Y при одном и том же X объясняется влиянием других, в том числе и случайных факторов (осадки, температура воздуха и др.). Вместе с тем, как показывает опыт, средний урожай является функцией от количества удобрений, то есть Y связан с X корреляционной зависимостью.

При корреляционной связи каждому значению независимой переменной X соответствует не одно значение Y, а совокупность с некоторым средним по совокупности . Именно это среднее значение меняется в зависимости от X. Математически этот факт записывается в виде

Читать еще:  Пример анализа производства и реализации продукции

, (1)

где условное математическое ожидание величины Y, соответствующее фиксированному значению х случайной величины Х; – некоторая функция.

Уравнение (1) называется уравнением регрессии Y на X, функция f(x)функцией регрессии, а ее график – линией регрессии.

При рассмотрении зависимости двух переменных говорят о парной регрессии.Уравнение парной регрессии определяет, каким в среднем будет значение результативного признака Y при каждом фиксированном значении факторного признака X.

В зависимости от вида функции регрессии говорят о той или иной форме зависимости между изучаемыми величинами – линейной, квадратичной, экспоненциальной и т. д.

Таким образом, процедура решения основной задачи эконометрики – описание взаимосвязи экономических переменных – состоит из двух последовательных этапов. Сначала в ходе корреляционного анализа исследуют наличие и силу связи между переменными. При положительном заключении (связь есть и она достаточно тесная) переходят ко второму этапу по определению формы связи между переменными средствами регрессионного анализа.

Анализ данных с помощью перекрестных запросов и сводных таблиц

Программа Access приспособлена и нацелена на сохранение всех подробностей в вашей БД. Но иногда вам не нужно знать все детали — взамен вы хотите получить общее представле­ние. Необходим способ получения необработанных данных, которые могут включать сотни и тысячи записей и подведения итогов каким-либо осмысленным образом.

Вы уже познакомились с одним методом анализа больших объемов информации с по­мощью итогового запроса (см. разд. «Итоговые данные» главы 7). Применяя итоговый за­прос, можно взять огромную подборку строк и сократить ее для нескольких искусно сгруп­пированных промежуточных итогов. В этой главе вы познакомитесь с двумя более специализированными вариантами обработки чисел: перекрестными запросами и сводными таблицами.

Перекрестные запросы и сводные таблицы играют ту же роль, что и уже знакомые вам итоговые запросы. Но они представляют данные несколько иначе. В перекрестных запросах применяются дополнительные столбцы для размещения информации в крайне сжатой таб­лице. Сводные таблицы используют интерфейс перемещений, позволяющий реорганизовать ваши итоги на лету для выявления различных тенденций и связей. Оба эти средства интен­сивно используются в наборе средств любого специалиста Access.

Примечание

Для опробования перекрестных запросов и сводных таблиц вам нужны данные — большой объем данных. В БД, используемых в качестве примеров в предыдущих главах, нет достаточ­ного количества исходных данных. В примерах этой главы используются некоторые таблицы огромной БД AdventureWorks — примера, предлагаемого корпорацией Microsoft и содержащего каталог товаров и сведения о продажах вымышленного производителя велосипедов. Найдите Web-страницу «Missing CD» для данной книги (на сайте www.missingmanuals.com)для загруз­ки нужной вам информации.

О перекрестных запросах

Перекрестный запрос — это мощное средство подведения итогов, исследующее большие объемы данных и применяющее их для вычисления промежуточных итогов и средних зна­чений. Это определение может показаться знакомым, поскольку вы уже именно для этой цели использовали итоговые запросы в главе 7.

Как и итоговые запросы, перекрестные применяют два основных компонента: группи­ровку и функции подведения итога. Группировка применяется для объединения строк в

небольшие подмножества. Функция подведения итога используется для вычисления едино­го значения для каждой группы.

За кадром перекрестные и итоговые запросы функционируют почти одинаково. Прини­мают большие количества записей и сокращают их до итогов, средних, минимальных или максимальных значений и т. д. Но есть два важных отличия.

Рис. 9.1. Вверху: в итоговом запросе каждая группа занимает отдельную строку, отображая объемы продаж отдельной категории товаров в одной стране. В общем получается 24 группы, и в результате формируется длинный узкий список. Внизу: в перекрестном запросе программа Access применяет первый уровень группировки (в данном случае страну) для разделения данных на строки и следующий уровень (категорию товара) для распределения каждой строки по столбцам. Числа, которые вы видите, те же самые, что и на верхнем рисунке, но теперь у вас всего 6 строк с четырьмя категориями товаров в каждой

Другое отличие перекрестных запросов от итоговых заключается в способе представле­ния программой Access результатов. Итоговый запрос создает отдельную строку для каждой группы. Например, если вы анализируете продажи в разных странах различных категорий товаров, итоговый запрос выведет строку для каждой комбинации страны и категории това­ров, как показано в верхней части рис. 9.1. Перекрестный запрос действует несколько иначе; он использует ту же информацию, но располагает ее в отдельных столбцах, создавая более сжатое представление (нижняя часть рис. 9.1).

Рис. 9.2. В данном примере записи сгруппированы в строки по категориям товаров и затем разделены на отдельные товары. Затем данные по каждому товару дополнительно делятся на столбцы в зависимости от страны

Примечание

Помните о том, что при использовании нескольких уровней группировки последний уровень (используемый для формирования столбцов) не должен быть связан с другими уровнями. В то

время как другие уровни группировки могут быть связаны между собой. Пример на рис. 9.2 ра­ботает, потому что следует этому правилу (группировка по категории, товару и затем стране). Если эти же данные сгруппировать иначе (например, по категории, стране и товару), результат будет далеко не так хорош.

4 техники анализа данных в Microsoft Excel

Если вам по работе или учёбе приходится погружаться в океан цифр и искать в них подтверждение своих гипотез, вам определённо пригодятся эти техники работы в Microsoft Excel. Как их применять — показываем с помощью гифок.

Тренер Учебного центра Softline с 2008 года.

1. Сводные таблицы

Базовый инструмент для работы с огромным количеством неструктурированных данных, из которых можно быстро сделать выводы и не возиться с фильтрацией и сортировкой вручную. Сводные таблицы можно создать с помощью нескольких действий и быстро настроить в зависимости от того, как именно вы хотите отобразить результаты.

Полезное дополнение. Вы также можете создавать сводные диаграммы на основе сводных таблиц, которые будут автоматически обновляться при их изменении. Это полезно, если вам, например, нужно регулярно создавать отчёты по одним и тем же параметрам.

Как работать

Исходные данные могут быть любыми: данные по продажам, отгрузкам, доставкам и так далее.

  1. Откройте файл с таблицей, данные которой надо проанализировать.
  2. Выделите диапазон данных для анализа.
  3. Перейдите на вкладку «Вставка» → «Таблица» → «Сводная таблица» (для macOS на вкладке «Данные» в группе «Анализ»).
  4. Должно появиться диалоговое окно «Создание сводной таблицы».
  5. Настройте отображение данных, которые есть у вас в таблице.
Читать еще:  Анализ организационной культуры предприятия на примере

Перед нами таблица с неструктурированными данными. Мы можем их систематизировать и настроить отображение тех данных, которые есть у нас в таблице. «Сумму заказов» отправляем в «Значения», а «Продавцов», «Дату продажи» — в «Строки». По данным разных продавцов за разные годы тут же посчитались суммы. При необходимости можно развернуть каждый год, квартал или месяц — получим более детальную информацию за конкретный период.

Набор опций будет зависеть от количества столбцов. Например, у нас пять столбцов. Их нужно просто правильно расположить и выбрать, что мы хотим показать. Скажем, сумму.

Можно её детализировать, например, по странам. Переносим «Страны».

Можно посмотреть результаты по продавцам. Меняем «Страну» на «Продавцов». По продавцам результаты будут такие.

2. 3D-карты

Этот способ визуализации данных с географической привязкой позволяет анализировать данные, находить закономерности, имеющие региональное происхождение.

Полезное дополнение. Координаты нигде прописывать не нужно — достаточно лишь корректно указать географическое название в таблице.

Как работать

  1. Откройте файл с таблицей, данные которой нужно визуализировать. Например, с информацией по разным городам и странам.
  2. Подготовьте данные для отображения на карте: «Главная» → «Форматировать как таблицу».
  3. Выделите диапазон данных для анализа.
  4. На вкладке «Вставка» есть кнопка 3D-карта.

Точки на карте — это наши города. Но просто города нам не очень интересны — интересно увидеть информацию, привязанную к этим городам. Например, суммы, которые можно отобразить через высоту столбика. При наведении курсора на столбик показывается сумма.

Также достаточно информативной является круговая диаграмма по годам. Размер круга задаётся суммой.

3. Лист прогнозов

Зачастую в бизнес-процессах наблюдаются сезонные закономерности, которые необходимо учитывать при планировании. Лист прогноза — наиболее точный инструмент для прогнозирования в Excel, чем все функции, которые были до этого и есть сейчас. Его можно использовать для планирования деятельности коммерческих, финансовых, маркетинговых и других служб.

Полезное дополнение. Для расчёта прогноза потребуются данные за более ранние периоды. Точность прогнозирования зависит от количества данных по периодам — лучше не меньше, чем за год. Вам требуются одинаковые интервалы между точками данных (например, месяц или равное количество дней).

Как работать

  1. Откройте таблицу с данными за период и соответствующими ему показателями, например, от года.
  2. Выделите два ряда данных.
  3. На вкладке «Данные» в группе нажмите кнопку «Лист прогноза».
  4. В окне «Создание листа прогноза» выберите график или гистограмму для визуального представления прогноза.
  5. Выберите дату окончания прогноза.

В примере ниже у нас есть данные за 2011, 2012 и 2013 годы. Важно указывать не числа, а именно временные периоды (то есть не 5 марта 2013 года, а март 2013-го).

Для прогноза на 2014 год вам потребуются два ряда данных: даты и соответствующие им значения показателей. Выделяем оба ряда данных.

На вкладке «Данные» в группе «Прогноз» нажимаем на «Лист прогноза». В появившемся окне «Создание листа прогноза» выбираем формат представления прогноза — график или гистограмму. В поле «Завершение прогноза» выбираем дату окончания, а затем нажимаем кнопку «Создать». Оранжевая линия — это и есть прогноз.

4. Быстрый анализ

Эта функциональность, пожалуй, первый шаг к тому, что можно назвать бизнес-анализом. Приятно, что эта функциональность реализована наиболее дружественным по отношению к пользователю способом: желаемый результат достигается буквально в несколько кликов. Ничего не нужно считать, не надо записывать никаких формул. Достаточно выделить нужный диапазон и выбрать, какой результат вы хотите получить.

Полезное дополнение. Мгновенно можно создавать различные типы диаграмм или спарклайны (микрографики прямо в ячейке).

Как работать

  1. Откройте таблицу с данными для анализа.
  2. Выделите нужный для анализа диапазон.
  3. При выделении диапазона внизу всегда появляется кнопка «Быстрый анализ». Она сразу предлагает совершить с данными несколько возможных действий. Например, найти итоги. Мы можем узнать суммы, они проставляются внизу.

В быстром анализе также есть несколько вариантов форматирования. Посмотреть, какие значения больше, а какие меньше, можно в самих ячейках гистограммы.

Также можно проставить в ячейках разноцветные значки: зелёные — наибольшие значения, красные — наименьшие.

Надеемся, что эти приёмы помогут ускорить работу с анализом данных в Microsoft Excel и быстрее покорить вершины этого сложного, но такого полезного с точки зрения работы с цифрами приложения.

CFA — Временные ряды и перекрестные данные

Временные ряды и перекрестные данные — это основные типы исходных данных, используемых для анализа доходности и прочих исторических финансовых данных. Рассмотрим эти типы данных в рамках изучения количественных методов по программе CFA.

Инвестиционные аналитики обычно работают как с временными рядами, так и с перекрестными данными.

Временной ряд данных (англ. ‘time series data’) представляет собой последовательность ставок доходности, собранных через дискретные и одинаковые интервалы времени (например, исторические ряды ежемесячных ставок доходности акций).

Перекрестные данные (англ. ‘cross-sectional data’) — это данные о некоторой характеристике отдельных людей, групп, географических регионов или компаний в один и тот же момент времени. Балансовая стоимость на акцию на конец 2014 года для всех компаний Нью-Йоркской фондовой биржи является примером перекрестных данных.

Экономическая или финансовая теория не дает никакой основы для определения того, следует ли выбрать длинный или короткий период времени, чтобы сделать выборку. Как финансовым аналитикам, нам, возможно, придется самим искать тонкие подсказки.

Например, объединение данных за период, когда наблюдались фиксированные обменные курсы, с данными за другой период, с плавающими валютными курсами, было бы неуместным.

Дисперсия обменных курсов, в тот период, когда они были фиксированными, конечно, будет меньше, чем за период с плавающим курсом. Как следствие, мы не должны делать выборку из генеральной совокупности, описываемой одним набором параметров.

Направление денежно-кредитной политики [жесткая (сдерживающая) или мягкая (свободная или стимулирующая)] также влияет на распределение доходности акций. Таким образом, объединение данных из периода с жесткой и мягкой денежно-кредитной политикой было бы неуместным.

Пример (2) иллюстрирует проблемы, которые могут возникнуть при выборке из более чем одного распределения данных.

Читать еще:  Анализ собранной информации

Пример (2) расчета коэффициента Шарпа за один или два года квартальных данных.

Аналитики часто используют коэффициент Шарпа для оценки эффективности управляющего портфеля. Коэффициент Шарпа является средней доходностью портфеля сверх безрисковой ставки, деленной на стандартное отклонение доходности. Это соотношение оценивает избыточную доходность (англ. ‘excess return’), заработанную на единицу стандартного отклонения доходности.

[см. также подробное описание этой концепции: CFA — Коэффициент Шарпа]

Предположим, что для вычисления коэффициента Шарпа аналитик использует ряд значений избыточной доходности (т.е. совокупная доходность сверх безрисковой ставки) за 8 кварталов. В течение 1-го года инвестиционный менеджер портфеля следовал стратегии с низким уровнем риска, а в течение 2-го года менеджер следовал стратегии высокого риска.

Для каждого года аналитик также отслеживает ежеквартальную избыточную прибыль с относительно некоторого эталонного показателя, по которому будет оцениваться эффективность работы менеджера. Для 1 и 2 года эталонный коэффициент Шарпа составляет 0.21.

В Таблице 1 приведено вычисление коэффициента Шарпа для портфеля.

1 год

2 год

Квартал / Показатель

Избыточная доходность

Избыточная доходность

Квартальное стандартное отклонение

Коэффициент Шарпа = 0.22 = 1/4.62 = 4/18.48

В течение первого года, когда менеджер следует стратегии с низким уровнем риска, средняя квартальная доходность сверх безрисковой ставки составила 1% со стандартным отклонением 4.62%. Коэффициент Шарпа, таким образом, составил 1/4.62 = 0.22.

Результаты второго года идентичны результатам первого года, за исключением более высокой средней доходности и волатильности. Коэффициент Шарпа за второй год составляет 4/18.48 = 0.22. Эталонный коэффициент Шарпа составляет 0.21 за первый и второй год.

Поскольку большие коэффициенты Шарпа лучше, чем меньшие (обеспечение более высокой доходности на единицу риска), менеджер, кажется, превзошел эталон.

Теперь предположим, что аналитик считает, что большая выборка даст более достоверный результат. Поэтому он решает объединить эти два года и рассчитать коэффициент Шарпа, основанный на совокупности восьми квартальных наблюдений.

Среднеквартальная избыточная доходность за 2 года равна среднему значению среднеквартальной избыточной доходности каждого года. Для двухлетнего периода она составляет (1 + 4)/2 = 2.5% в квартал.

Стандартное отклонение для всех восьми кварталов при выборочном среднем 2.5% составляет 12.57%. Коэффициент Шарпа для двухлетнего периода теперь составляет 2.5/12.57 = 0.199. Эталонный коэффициент Шарпа остается 0.21.

Таким образом, при объединении ставок доходности за двухлетний период, менеджер, по-видимому, обеспечит меньшую доходность на единицу риска, по сравнению с эталоном, и меньшую доходность по сравнению с отдельными годовыми результатами.

Проблема с использованием квартальных данных за 8 кварталов заключается в том, что аналитик нарушил допущение о том, что выборка ставок доходности берется из той же генеральной совокупности. В результате изменения в инвестиционной стратегии менеджера, ставки доходности за 2-й год имеют иное распределение, чем ставки доходности за 1-й год.

Очевидно, что в течение 1 года, выборка доходности была получена из совокупности с более низким средним и дисперсией, чем в совокупности второго года. Объединение результатов первого и второго года дало выборку, не соответствующую ни одной совокупности — ни 1-го, ни 2-го года.

Поскольку большая выборка не удовлетворяет допущениям модели, любые выводы, полученные аналитиком на основании нее, будут ошибочны.

В этом примере аналитику лучше использовать меньшую выборку (т.е. за год), так как она представляет собой более равномерное распределение доходности.

Перекрестные данные.

Второй основной тип данных представляет собой перекрестные данные.

Читатель может также столкнуться с двумя типами данных, которые включают как временные ряды, так и перекрестные данные. Многомерный временной ряд (англ. ‘panel data’) состоит из наблюдений, сделанных на протяжении определенного времени для одной характеристики нескольких наблюдательных объектов (например, компаний).

Например, годовой уровень инфляции в странах еврозоны в течение пяти лет будет представляет собой многомерный временной ряд.

Продольные данные (или продольный срез данных, англ. ‘longitudinal data’) состоят из наблюдений характеристик(и) одного и того же наблюдаемого объекта в течении периода времени.

Наблюдения для набора финансовых коэффициентов для одной компании за 10-летний период является примером продольных данных.

И перекрестные и продольные данные могут быть представлены в виде массивов данных (матриц), в которых последовательные строки представляют собой наблюдения за последовательные периоды времени.

В перекрестных данных (или поперечном срезе данных, англ. ‘cross-sectional data’) наблюдения выборки представляет собой характеристику отдельных людей, групп, географических регионов или компаний в определенный общий момент времени. Поэтому поперечные данные также называют одномоментной выборкой данных.

Пример с анализом клиентов телекоммуникационной компании, обсуждавшийся ранее, по существу, заключался в сборе перекрестных планируемых капитальных расходов клиентов на предстоящий год.

Всякий раз, когда мы делаем перекрестную выборку данных, должны выполняться некоторые допущения, если мы хотим осмысленно обобщать эти данные. Опять же, разумным подходом будет воспринимать интересующее наблюдение как случайную величину, принадлежащую некоторой генеральной совокупности с заданным средним и дисперсией.

Как мы делаем нашу выборку и начинаем обобщать данные, мы должны быть уверены, что все эти данные, действительно, на самом деле, принадлежат одной общей генеральной совокупности.

Например, аналитик может быть заинтересован в определении того, насколько эффективно компании используют свои запасы.

Некоторые компании, однако, оборачивают свои запасы быстрее, чем другие, из-за отличий их операционной среды (например, продуктовые магазины обычно оборачивают свои запасы значительно быстрее, чем производители автомобилей). Таким образом, распределение коэффициентов оборачиваемости запасов для всех компаний нельзя охарактеризовать одним распределением с заданным средним значением и дисперсией.

Таким образом, обобщение оборачиваемости запасов по всем компаниям может быть неуместным.

Если случайные величины относятся к различным распределениям вероятности, то статистики, вычисленные по объединенным выборкам, не будут связаны с одним общим параметром лежащей в основе генеральной совокупности. Размер ошибки выборки в таких случаях неизвестен.

В подобных случаях аналитики часто обобщают данные на уровне компаний, принадлежащих одной отрасли. Попытка обобщения данных по отрасли частично решает проблему разных распределений, но крупные корпорации часто присутствуют в более чем в одной отрасли, поэтому аналитики должны быть уверены, что они понимают, к каким отраслевым группам относятся компании.

Имеем ли мы дело с временными рядами или перекрестными данными, мы должны быть уверены, что получили случайную выборку, репрезентативную рассматриваемой совокупности.

Задавшись целью получения информации на основе репрезентативных выборок, мы переходим к следующей части этого чтения, которая посвящена центральной предельной теореме, а также точечной и интервальной оценке среднего значения совокупности.

Ссылка на основную публикацию
Adblock
detector