Надстройка «Анализ данных» в Экселе. Описательная статистика на базе Пакета анализа данных Excel

Исходные данные для анализа могут быть представлены на рабочем листе в виде списка значений. Для идентификации массива значений используются названия столбцов - метки, и создаются именованные блоки.

Для обработки числовых данных используют Пакет анализа. Предварительно его необходимо настроить,

в Excel 2003: дать команду Сервис -> Надстройки и поставить галочку напротив Пакета анализа. Теперь в меню Сервис появится команда Анализ данных.

в Excel 2007:щелкнуть по кнопке Офис, далее по кнопе Параметры Excel, выбрать Надстройки, в нижней части окна в поле Управления выбрать Надстройки Excel , щелкнуть по кнопке Перейти, поставить галочку напротив Пакета анализа ю На вкладке Данные в группе Анализ появится команда Анализ данных

При выполнении команды Анализ данных вызывается диалоговое окно Анализ данных, в котором выбирается режим Описательная статистика (рис. 23); в одноименном диалоговом окне задаются установки:

рис. Диалоговое окно режима Описательная статистика.

Параметры диалогового окна «Описательная статистика» имеют следующий смысл.

Входной диапазон - блок ячеек, содержащий значения исследуемого показателя. Надо ввести ссылку на ячейки, содержащие анализируемые данные. Ссылка должна состоять как минимум из двух смежных диапазонов данных, организованных в виде столбцов или строк.

Группирование определяет ориентацию блока исходных данных на рабочем листе. Для его определения надо установить переключатель в положение По столбцам или По строкам в зависимости от расположения данных во входном диапазоне.

Метки - наличие имен в блоке ячеек. Для его определения надо установить переключатель в положение Метки в первой строке (столбце), если первая строка (столбец) во входном диапазоне содержит названия столбцов. Если входной диапазон не содержит меток, то необходимые заголовки в выходном диапазоне будут созданы автоматически.

Уровень надежности указывает процент надежности данных для вычисления доверительного интервала. Для его определения надо установить флажок и в поле ввести требуемое значение. Например, значение 95% вычисляет уровень надежности среднего со значимостью 0.05.

К-ый наибольший - порядковый номер наибольшего после максимального значения. Установить флажок, если в выходную таблицу необходимо включить строку для k-го наибольшего значения для каждого диапазона данных. В соответствующем окне ввести число k. Если k равно 1, эта строка будет содержать максимум из набора данных.

К-ый наименьший - порядковый номер наименьшего после минимального значения. Установить флажок, если в выходную таблицу необходимо включить строку для k-го наименьшего значения для каждого диапазона данных. В соответствующем окне ввести число k. Если k равно 1, эта строка будет содержать минимум из набора данных.

Вывод описательной статистики осуществляется по месту указания в поле Выходной диапазон. Здесь надо ввести ссылку на левую верхнюю ячейку выходного диапазона. Этот инструмент анализа выводит два столбца сведений для каждого набора данных. Левый столбец содержит метки статистических данных; правый столбец содержит статистические данные. Состоящий их двух столбцов диапазон статистических данных будет выведен для каждого столбца (строки) входного диапазона в зависимости от положения переключателя Группирование.

Для изменения места вывода результатов можно установить переключатель Новый рабочий лист, чтобы открыть новый лист и вставить результаты, начиная с ячейки A1. Можно ввести имя нового листа в поле, расположенном напротив соответствующего положения переключателя. Если установить переключатель Новая книга, то открывается новая книга, и результаты вставляются в ячейку A1 на первом листе в этой книге.

Итоговая статистика - полный вывод показателей описательной статистики. Для его определения надо установить флажок, если в выходном диапазоне необходимо получить по одному полю для каждого из следующих видов статистических данных: Среднее, Стандартная ошибка (среднего), Медиана, Мода, Стандартное отклонение, Дисперсия выборки, Эксцесс, Асимметричность, Интервал, Минимум, Максимум, Сумма, Счет, Наибольшее (#), Наименьшее (#), Уровень надежности.

Сводные таблицы

Для анализа списков данных (таблиц данных) в Excel 2007, которые имеют множество строк или записей, часто используются такие средства как сводные таблицы. Сводные таблицы значительно упрощают просмотр, обработку и обобщение данных в списках Excel 2007.

Для того чтобы программа Excel работала с введенными данными как с таблицей данных, а не с простым набором данных, необходимо ее отформатировать как таблицу. Для этого щелкните на кнопке Таблица, расположенной во вкладке Вставка. В диалоговом окне Создание таблицы (рис. 1) укажите предполагаемый диапазон, в котором будет размещаться таблица, и установите флажок Таблица с заголовками.

Рис. 1.

К данному диапазону будет применено форматирование, т.е. применен экспресс-стиль таблицы, заданный по умолчанию, при этом активизируются контекстные инструменты под общим названием "Работа с таблицами", которые входят в контекстную вкладку Конструктор. Для форматирования таблицы можно также применить средство "Форматировать как таблицу" на вкладке "Главная".

Рис. 2.

Для построения отчета по этой таблице целесообразно применить мощное средство "Сводная таблица". Для применения этого средства к спискам данных или к таблицам данных необходимо активизировать одну из ячеек таблицы данных, например ячейку таблицы "Остатки товаров на складе". Затем щелкнуть кнопку "Сводная таблица", которая находится на вкладке "Вставка" в группе "Таблица" (рисунок 3).

Рис. 3.

В открывшемся окне диалога "Создание сводной таблицы" требуется выбрать (выделить) таблицу или диапазон и указать, куда следует поместить отчет (желательно на новый лист), затем щелкнуть ОК. Откроется специальный мастер сводных таблиц (рисунок 4).

Рис. 4.

В левой части рабочего листа отображается изображение отчета (Сводная Таблица1), а в правой части листа расположены инструменты для создания сводной таблицы: четыре пустых областей и список полей. Для построения отчета надо в правой части перетащить требуемые поля в соответствующие области сводной таблицы: "Фильтр отчета", "Название столбцов", "Название строк" и "Значения".

Например, если выбрать поля: № склада, Наименование, Цена (грн.) и перетащить их в соответствующие области: "Название столбцов", "Название строк" и "Значения", то в правой части они будут отображаться в этих областях. При этом в левой части рабочего листа будет построена сводная таблица или отчет (рис. 5).

Рис. 5.

Следует отметить, что в области "Значения" выполняются какие-либо математические вычисления, например, суммирование (Сумма по полю Цена). Чтобы изменить тип вычислений, надо в области "Значения" щелкнуть левой кнопкой мыши по полю "Сумма по полю Цена" и в открывшемся меню выбрать команду "Параметры полей значений", затем в окне диалога "Параметры поля значений" выбрать требуемую функцию и щелкнуть на кнопке ОК.

Для изменения структуры сводной таблицы надо в правой части листа перетащить поля в другую область сводной таблицы или удалить. Необходимо отметить, что для удаления поля надо перетащить его за пределы таблицы.

Средства Excel для анализа данных и решения задач оптимизации

Мощными средствами анализа данных Excel 2007 являются:

анализ "что – если", к которым относятся: подбор параметров и диспетчер сценариев;
надстройка "Поиск решения" (надстройка Solver).

Средства анализ "что – если" помещены на вкладке "Данные" в группе "Работа с данными", а "Поиск решений" на вкладке "Данные" в группе "Analysis".

Подбор параметров обеспечивает решение задачи подбора параметра для функции одного аргумента. Диспетчер сценариев предназначен для создания сценариев (сначала добавляются несколько сценариев для различных случаев), а затем выполняется просмотр сценариев с целью прогнозирования процесса и создание отчета по сценарию.

Программа "Поиск решений" предназначена для решения сложных систем уравнений, линейных и нелинейных задач оптимизации. В основе надстройка Solver лежат итерационные методы.

Если вам нужно разработать сложные статистические или инженерные анализы, вы можете сэкономить этапы и время с помощью пакета анализа. Вы предоставляете данные и параметры для каждого анализа, и в этом средстве используются соответствующие статистические или инженерные функции для вычисления и отображения результатов в выходной таблице. Некоторые инструменты создают диаграммы в дополнение к выходным таблицам.

Функции анализа данных можно применять только на одном листе. Если анализ данных проводится в группе, состоящей из нескольких листов, то результаты будут выведены на первом листе, на остальных листах будут выведены пустые диапазоны, содержащие только форматы. Чтобы провести анализ данных на всех листах, повторите процедуру для каждого листа в отдельности.

Ниже описаны инструменты, включенные в пакет анализа. Для доступа к ним нажмите кнопкуАнализ данных в группе Анализ на вкладке Данные . Если команда Анализ данных недоступна, необходимо загрузить надстройку "Пакет анализа".

Примечание: Чтобы включить функцию Visual Basic для приложений (VBA) для пакета анализа, вы можете загрузить надстройку "пакет анализа - VBA" таким же образом, как и при загрузке пакета анализа. В диалоговом окне Доступные надстройки установите флажок Пакет анализа - VBA .

Дисперсионный анализ

Существует несколько видов дисперсионного анализа. Нужный вариант выбирается с учетом числа факторов и имеющихся выборок из генеральной совокупности.

Однофакторный дисперсионный анализ

Это средство выполняет простой анализ дисперсии для данных двух или более образцов. Анализ - это проверка гипотезы о том, что каждый образец выводится из того же основного распределения вероятности, что и для альтернативной гипотезы, для которой базовые распределения вероятностей не одинаковы. Если есть только два примера, вы можете использовать функцию на листе T . Проверка . В более чем двух выборках нет удобной обобщения с T . И может быть вызвана модель однофакторного дисперсионный проверки .

Двухфакторный дисперсионный анализ с повторениями

Этот инструмент анализа применяется, если данные можно систематизировать по двум параметрам. Например, в эксперименте по измерению высоты растений последние обрабатывали удобрениями от различных изготовителей (например, A, B, C) и содержали при различной температуре (например, низкой и высокой). Таким образом, для каждой из 6 возможных пар условий {удобрение, температура}, имеется одинаковый набор наблюдений за ростом растений. С помощью этого дисперсионного анализа можно проверить следующие гипотезы:

Извлечены ли данные о росте растений для различных марок удобрений из одной генеральной совокупности. Температура в этом анализе не учитывается.

Извлечены ли данные о росте растений для различных уровней температуры из одной генеральной совокупности. Марка удобрения в этом анализе не учитывается.

Извлечены ли шесть выборок, представляющих все пары значений {удобрение, температура}, используемые для оценки влияния различных марок удобрений (для первого пункта в списке) и уровней температуры (для второго пункта в списке), из одной генеральной совокупности. Альтернативная гипотеза предполагает, что влияние конкретных пар {удобрение, температура} превышает влияние отдельно удобрения и отдельно температуры.

Двухфакторный дисперсионный анализ без повторений

Этот инструмент анализа применяется, если данные можно систематизировать по двум параметрам, как в случае двухфакторного дисперсионного анализа с повторениями. Однако в таком анализе предполагается, что для каждой пары параметров есть только одно измерение (например, для каждой пары параметров {удобрение, температура} из предыдущего примера).

Корреляция

На листе КОРРЕЛ и Пирсон рассчитываются коэффициент корреляции между двумя переменными измерения, если измерения для каждой переменной отображаются для каждого из N субъектов. (Отсутствие наблюдения для какой-либо из тем приводит к тому, что эта тема пропускается в анализе.) Средство анализа корреляции особенно полезно, если для N тем используется более двух переменных измерения. Она предоставляет выходную таблицу, матрицу корреляции, которая показывает значение КОРРЕЛ (или Пирсона ), примененное к каждой возможной паре переменных измерения.

Коэффициент корреляции, например Ковариация, - это мера экстента, в котором одновременно различаются две переменные измерения. В отличие от ковариации коэффициент корреляции масштабируется таким образом, чтобы его значение не зависело от единиц, в которых выражаются две переменные измерения. (Например, если две переменные измерения являются весом и высотой, значение коэффициента корреляции не меняется, если вес конвертируется из килограммов в килограммы). Значение любого коэффициента корреляции должно находиться в диапазоне от-1 до + 1 включительно.

Корреляционный анализ дает возможность установить, ассоциированы ли наборы данных по величине, т. е. большие значения из одного набора данных связаны с большими значениями другого набора (положительная корреляция) или наоборот, малые значения одного набора связаны с большими значениями другого (отрицательная корреляция), или данные двух диапазонов никак не связаны (нулевая корреляция).

Ковариация

Вы можете использовать инструменты корреляции и ковариации в одном и том же параметре, если у вас есть N различных переменных измерения, которые потратили на набор отдельных пользователей. Средства корреляции и ковариации предоставляют выходную таблицу, матрицу, которая показывает коэффициент корреляции или ковариацию соответственно между каждой парой переменных измерения. Разница заключается в том, что коэффициенты корреляции масштабируются в зависимости от-1 и + 1 включительно. Соответствующие ковариации не масштабируются. Как коэффициент корреляции, так и ковариация - это величины экстентов, в которых две переменные различны друг от друга.

Инструмент Ковариация вычисляет значение функции КОвариация на листе. P для каждой пары переменных измерения. (Прямое использование ковариации. Функция P вместо средства Ковариация является разумной альтернативой, если есть только две переменные измерения, т. е. N = 2.) Запись по диагонали в выходной таблице инструмента ковариации в строке i - это Ковариация переменной измерения i-ой. Это всего лишь дисперсия Генеральной совокупности для этой переменной, вычисленная функцией на листе var . P .

Ковариационный анализ дает возможность установить, ассоциированы ли наборы данных по величине, то есть большие значения из одного набора данных связаны с большими значениями другого набора (положительная ковариация) или наоборот, малые значения одного набора связаны с большими значениями другого (отрицательная ковариация), или данные двух диапазонов никак не связаны (ковариация близка к нулю).

Описательная статистика

Инструмент анализа "Описательная статистика" применяется для создания одномерного статистического отчета, содержащего информацию о центральной тенденции и изменчивости входных данных.

Экспоненциальное сглаживание

Инструмент анализа "Экспоненциальное сглаживание" применяется для предсказания значения на основе прогноза для предыдущего периода, скорректированного с учетом погрешностей в этом прогнозе. При анализе используется константа сглаживания a , величина которой определяет степень влияния на прогнозы погрешностей в предыдущем прогнозе.

Примечание: Для константы сглаживания наиболее подходящими являются значения от 0,2 до 0,3. Эти значения показывают, что ошибка текущего прогноза установлена на уровне от 20 до 30 процентов ошибки предыдущего прогноза. Более высокие значения константы ускоряют отклик, но могут привести к непредсказуемым выбросам. Низкие значения константы могут привести к большим промежуткам между предсказанными значениями.

Двухвыборочный t-тест для дисперсии

Двухвыборочный F-тест применяется для сравнения дисперсий двух генеральных совокупностей.

Например, можно использовать F-тест по выборкам результатов заплыва для каждой из двух команд. Это средство предоставляет результаты сравнения нулевой гипотезы о том, что эти две выборки взяты из распределения с равными дисперсиями, с гипотезой, предполагающей, что дисперсии различны в базовом распределении.

С помощью этого инструмента вычисляется значение f F-статистики (или F-коэффициент). Значение f, близкое к 1, показывает, что дисперсии генеральной совокупности равны. В таблице результатов, если f < 1, "P(F <= f) одностороннее" дает возможность наблюдения значения F-статистики меньшего f при равных дисперсиях генеральной совокупности и F критическом одностороннем выдает критическое значение меньше 1 для выбранного уровня значимости "Альфа". Если f > 1, "P(F <= f) одностороннее" дает возможность наблюдения значения F-статистики большего f при равных дисперсиях генеральной совокупности и F критическом одностороннем дает критическое значение больше 1 для "Альфа".

Анализ Фурье

Инструмент "Анализ Фурье" применяется для решения задач в линейных системах и анализа периодических данных на основе метода быстрого преобразования Фурье (БПФ). Этот инструмент поддерживает также обратные преобразования, при этом инвертирование преобразованных данных возвращает исходные данные.

Гистограмма

Инструмент "Гистограмма" применяется для вычисления выборочных и интегральных частот попадания данных в указанные интервалы значений. При этом рассчитываются числа попаданий для заданного диапазона ячеек.

Например, можно получить распределение успеваемости по шкале оценок в группе из 20 студентов. Таблица гистограммы состоит из границ шкалы оценок и групп студентов, уровень успеваемости которых находится между самой нижней границей и текущей границей. Наиболее часто встречающийся уровень является модой диапазона данных.

Скользящее среднее

Инструмент анализа "Скользящее среднее" применяется для расчета значений в прогнозируемом периоде на основе среднего значения переменной для указанного числа предшествующих периодов. Скользящее среднее, в отличие от простого среднего для всей выборки, содержит сведения о тенденциях изменения данных. Этот метод может использоваться для прогноза сбыта, запасов и других тенденций. Расчет прогнозируемых значений выполняется по следующей формуле:

N - число предшествующих периодов, входящих в скользящее среднее;

A j - фактическое значение в момент времени j ;

F j - прогнозируемое значение в момент времени j .

Генерация случайных чисел

Инструмент "Генерация случайных чисел" применяется для заполнения диапазона случайными числами, извлеченными из одного или нескольких распределений. С помощью этой процедуры можно моделировать объекты, имеющие случайную природу, по известному распределению вероятностей. Например, можно использовать нормальное распределение для моделирования совокупности данных по росту людей или использовать распределение Бернулли для двух вероятных исходов, чтобы описать совокупность результатов бросания монеты.

Ранг и персентиль

Инструмент «ранжирование и персентиль» формирует таблицу, содержащую порядковый и процентный ранги для каждого значения в наборе данных. Вы можете проанализировать относительные значения в наборе данных. Это средство использует функции ранжирования на листе. EQ иПРОЦЕНТРАНГ. INC . Если вы хотите учитывать привязанные значения, используйте ранг. EQ , который обрабатывает привязанные значения в соответствии с одинаковым рангом или использует ранг. Функция AVG , возвращающая среднее значение ранга для привязанных значений.

Регрессия

Инструмент анализа "Регрессия" применяется для подбора графика для набора наблюдений с помощью метода наименьших квадратов. Регрессия используется для анализа воздействия на отдельную зависимую переменную значений одной или нескольких независимых переменных. Например, на спортивные качества атлета влияют несколько факторов, включая возраст, рост и вес. Можно вычислить степень влияния каждого из этих трех факторов по результатам выступления спортсмена, а затем использовать полученные данные для предсказания выступления другого спортсмена.

Средство регрессия использует функцию листа ЛИНЕЙН .

Инструмент анализа "Выборка" создает выборку из генеральной совокупности, рассматривая входной диапазон как генеральную совокупность. Если совокупность слишком велика для обработки или построения диаграммы, можно использовать представительную выборку. Кроме того, если предполагается периодичность входных данных, то можно создать выборку, содержащую значения только из отдельной части цикла. Например, если входной диапазон содержит данные для квартальных продаж, создание выборки с периодом 4 разместит в выходном диапазоне значения продаж из одного и того же квартала.

Двухвыборочный t-тест проверяет равенство средних значений генеральной совокупности по каждой выборке. Три вида этого теста допускают следующие условия: равные дисперсии генерального распределения, дисперсии генеральной совокупности не равны, а также представление двух выборок до и после наблюдения по одному и тому же субъекту.

Для всех трех средств, перечисленных ниже, значение t вычисляется и отображается как "t-статистика" в выводимой таблице. В зависимости от данных это значение t может быть отрицательным или неотрицательным. Если предположить, что средние генеральной совокупности равны, при t < 0 "P(T <= t) одностороннее" дает вероятность того, что наблюдаемое значение t-статистики будет более отрицательным, чем t. При t >=0 "P(T <= t) одностороннее" делает возможным наблюдение значения t-статистики, которое будет более положительным, чем t. "t критическое одностороннее" дает пороговое значение, так что вероятность наблюдения значения t-статистики большего или равного "t критическое одностороннее" равно "Альфа".

"P(T <= t) двустороннее" дает вероятность наблюдения значения t-статистики, по абсолютному значению большего, чем t. "P критическое двустороннее" выдает пороговое значение, так что значение вероятности наблюдения значения t- статистики, по абсолютному значению большего, чем "P критическое двустороннее", равно "Альфа".

Парный двухвыборочный t-тест для средних

Парный тест используется, когда имеется естественная парность наблюдений в выборках, например, когда генеральная совокупность тестируется дважды - до и после эксперимента. Этот инструмент анализа применяется для проверки гипотезы о различии средних для двух выборок данных. В нем не предполагается равенство дисперсий генеральных совокупностей, из которых выбраны данные.

Примечание: Одним из результатов теста является совокупная дисперсия (совокупная мера распределения данных вокруг среднего значения), вычисляемая по следующей формуле:

Двухвыборочный t-тест с одинаковыми дисперсиями

Это средство анализа выполняет двухвыборочный t-тест учащегося. В этой форме t-тест предполагается, что два набора данных получены из распространения с одинаковыми дисперсиями. Она называется гомоскедастическийм t-тестом. Вы можете использовать этот t-тест, чтобы определить, могут ли два примера быть получены из распределений с одинаковым заполнением.

Двухвыборочный t-тест с различными дисперсиями

Это средство анализа выполняет двухвыборочный t-тест учащегося. В этой форме t-тест предполагается, что два набора данных получены из распространения с неравными дисперсиями. Она называется гетероскедастическийм t-тестом. Как и в предыдущем случае с одинаковыми дисперсиями, вы можете использовать этот t-тест, чтобы определить, должны ли два примера поступать из распределения с одинаковым заполнением. Используйте этот тест, если в двух примерах есть отдельные темы. Используйте парный тест, описанный в приведенном ниже примере, когда есть один набор тем, а в двух образцах - измерения для каждой темы до и после обработки.

Для определения тестовой величины t используется следующая формула.

Следующая формула используется для вычисления степеней свободы, DF. Так как результат вычисления обычно не является целым числом, значение df округляется до ближайшего целого числа, чтобы получить критическое значение из t-таблицы. Функция листа Excel - T . Тест использует вычисляемое значение DF без округля, так как можно вычислить значение для T . Проверка с нецелочисленной DF. Из-за разных подходов к определению степеней свободы результаты в T . Тестирование и это средство t-тест будет отличаться в случае неравной вариации.

Двухвыборочный z-тест для средних - это Двухвыборочный z-тест для средних и известных отклонений. Это средство используется для проверки гипотезы на то, что в двух или двусторонних вариантах есть различия между двумя единицами заполнения. Если вариативность неизвестна, то функция листа Z . Вместо этого следует использовать проверку .

При использовании этого инструмента следует внимательно просматривать результат. "P(Z <= z) одностороннее" на самом деле есть P(Z >= ABS(z)), вероятность z-значения, удаленного от 0 в том же направлении, что и наблюдаемое z-значение при одинаковых средних значениях генеральной совокупности. "P(Z <= z) двустороннее" на самом деле есть P(Z >= ABS(z) или Z <= -ABS(z)), вероятность z-значения, удаленного от 0 в том же направлении, что и наблюдаемое z-значение при одинаковых средних значениях генеральной совокупности. Двусторонний результат является односторонним результатом, умноженным на 2. Инструмент "z-тест" можно также применять для гипотезы об определенном ненулевом значении разницы между двумя средними генеральных совокупностей. Например, этот тест можно использовать для определения разницы выступлений на соревнованиях двух автомобилей разных марок.

Примечание: Эта страница переведена автоматически, поэтому ее текст может содержать неточности и грамматические ошибки. Для нас важно, чтобы эта статья была вам полезна. Была ли информация полезной? Для удобства также (на английском языке).

Microsoft Excel предлагает средства для анализа статистических данных. Такие встроенные функции, как СРЗНАЧ (AVERAGE), МЕДИАНА (MEDIAN) и МОДА (MODE), могут использоваться для проведения анализа данных. Если встроенных статистических функций недостаточно, необходимо обратиться к пакету Анализ данных .

Пакет Анализ данных, являющийся надстройкой, содержит коллекцию функций и инструментов, расширяющих встроенные аналитические возможности Excel. В частности, пакет Анализ данных можно использовать для создания гистограмм, ранжирования данных, извлечения случайных или периодических выборок из набора данных, проведения регрессионного анализа, получения основных статистических характеристик выборки, генерации случайных чисел с различным распределением, а также для обработки данных с помощью преобразования Фурье и других преобразований.

Пакет Анализ данных доступен при каждом запуске Excel. Функции пакета Анализ данных можно использовать точно так же, как и любые другие функции Excel, а чтобы получить к ним доступ, выполните описанные ниже действия:

1. Выберите в меню Сервис команду Анализ данных . При первом выборе этой команды Excel загружает файл с диска. Затем на экране появится окно диалога Анализ данных (рис. 2.19).

Рис. 2.19. Окно диалога Анализ данных

2. Чтобы использовать какой-либо из инструментов анализа, выберите его имя в списке и нажмите кнопку ОК.

3. Заполните открывшееся окно диалога. В большинстве случаев это означает задание входного диапазона с данными, которые вы собираетесь анализировать, задание выходного диапазона, куда должны быть помещены результаты, и выбор нужных параметров.

Если команда Анализ данных отсутствуетв меню Сервис или формула, содержащая функцию из пакета анализа, возвращает ошибочное значение #И MЯ?(# NAME?), выберите в меню Сервис команду Надстройки , затем Пакет анализа в списке надстроек, после чего нажмите кнопку ОК . Если Пакет анализа отсутствует в списке надстроек, вы должны установить его, запустив программу Setup.

При анализе данных часто возникает необходимость определения различных статистических характеристик или параметров распределения. С помощью Microsoft Excel можно анализировать распределение, используя несколько инструментов: встроенные статистические функции, функции для оценки разброса данных, инструмент Описательная статистика (Descriptive Statistics), который предоставляет удобные сводные таблицы основных параметров распределения, инструменты Гистограмма (Histogram), Ранг и персентиль (Rank and Percentile).

Встроенные статистические функции Microsoft Excel применяются при проведении статистического анализа данных. В данном разделе мы ограничимся обсуждением наиболее часто используемых статистических функций. Кроме них Excel также предлагает более сложные функции ЛИНЕЙН (LINEST), ЛГРФПРИБЛ (LOGEST), ТЕНДЕНЦИЯ (TREND) и РОСТ (GROWTH), которые работают с числовыми массивами.

Описательная статистика (Descriptive Statistics) позволяет создать таблицу основных статистических характеристик для одного или нескольких множеств входных значений. Выходной диапазон содержит таблицу со статистическими характеристиками для каждой переменной входного диапазона: среднее, стандартная ошибка, медиана, мода, стандартное отклонение и дисперсия выборки, коэффициент эксцесса, коэффициент асимметрии, размах, минимальное значение, максимальное значение, сумма, количество значений, k -е наибольшее и наименьшее значения (для любого заданного k ) и доверительный интервал для среднего.

Для использования Описательная статистика в меню Сервис выберите команду Анализ данных , затем в списке Инструменты анализа окна диалога Анализ данных выберите инструмент Описательная статистика и нажмите кнопку ОК . Появится окно диалога, показанное на рис. 2.20.

Рис. 2.20. Окно диалога Описательная статистика

Инструмент Описательная статистика требует задания входного диапазона, который может содержать одну или несколько переменных, и выходного диапазона. Вы должны также указать, как расположены переменные в столбцах или в строках. Установите флажок Метки в первой строке, если первая строка во входном диапазоне содержит названия столбцов. Excel использует эти метки для создания заголовков в выходной таблице.

Чтобы получить представленную выше таблицу статистических характеристик, установите флажки в области Параметры вывода .

Подобно другим инструментам пакета анализа, Описательная статистика создает таблицу констант. Если эта таблица вас не устраивает, можно получить большинство из перечисленных ниже статистических характеристик с помощью других инструментов пакета анализа или формул с использованием встроенных функций Excel.

Анализ данных с помощью диаграмм

В MS Excel имеется возможность графического представления данных в виде диаграммы. Диаграммы связаны с данными листа, на основе которых они были созданы, и изменяются каждый раз, когда изменяются данные на листе.

Диаграммы могут использовать данные несмежных ячеек. Диаграмма может также использовать данные сводной таблицы.

Можно создать либо внедренную диаграмму, либо лист диаграммы. Внедренная диаграмма – это объект, расположенный на листе и сохраняемый вместе с листом при сохранении книги. Внедренные диаграммы также связаны с данными и обновляются при изменении исходных данных. Лист диаграммы – лист книги, содержащий только диаграмму. Листы диаграммы связаны с данными таблиц и обновляются при изменении данных в таблице.

Для того чтобы построить диаграмму, выделите ячейки, содержащие данные, которые должны быть отражены на диаграмме; если необходимо, чтобы в диаграмме были отражены и названия строк или столбцов, выделите также содержащие их ячейки; нажмите кнопку Мастер диаграмм и следуйте инструкциям Мастера .

Для создания диаграмм из несмежных диапазонов нужно выделить первую группу ячеек, содержащих необходимые данные, удерживая клавишу CTRL, выделить необходимые дополнительные группы ячеек и нажать кнопку Мастер диаграмм.

Большая часть текстов диаграммы, например подписи делений оси категорий, имена рядов данных, текст легенды и подписи данных, связана с ячейками рабочего листа, используемого диаграммой. Если изменить текст этих элементов на диаграмме, они потеряют связь с ячейками листа. Чтобы сохранить связь, следует изменять текст этих элементов в исходных таблицах.

Ряд данных – группа связанных точек данных диаграммы, отображающая значение строк или столбцов листа. Каждый ряд данных отображается по-своему. На диаграмме может быть отображен один или несколько рядов данных. На круговой диаграмме отображается только один ряд данных.

Чтобы изменить текст легенды или имя ряда данных на листе, выберите ячейку, содержащую изменяемое имя ряда, введите новое имя и нажмите клавишу ENTER.

Чтобы изменить текст легенды или имя ряда данных на диаграмме, выберите нужную диаграмму, а затем выберите команду Диаграмма – Исходные данные . На вкладке Ряды выберите изменяемые имена рядов данных. В поле Имя укажите ячейку листа, которую следует использовать как легенду или имя ряда. Также можно просто ввести нужное имя. Если в поле Имя ввести имя, то текст легенды или имя ряда потеряют связь с ячейкой листа.

Чтобы изменить подписи значений на листе, необходимо выбрать ячейку, содержащую изменяемые данные, ввести новый текст или значение и нажать клавишу ENTER. Чтобы изменить подписи значений на диаграмме, надо один раз щелкнуть мышью изменяемую подпись, чтобы выбрать подписи для всего ряда, и щелкнуть еще раз, чтобы выбрать отдельную подпись значения. Ввести новый текст или значение и нажать клавишу ENTER. Если изменить текст подписи значений на диаграмме, то связь с ячейкой листа будет потеряна.

При большом диапазоне изменения значений для разных рядов данных в линейчатой диаграмме или при смещении типов данных (таких, как цена и объем) есть возможность отобразить один или несколько рядов данных на вспомогательной оси. Шкала этой оси соответствует значениям для соответствующих рядов:

– выберите ряды данных, которые нужно отобразить на вспомогательной оси, щелчком мыши;

– Формат – Ряды – вкладка Ось ;

– установите переключатель в положение По вспомогательной оси .

Для большинства плоских диаграмм можно изменить диаграммный тип ряда данных или диаграммы в целом. Для объемной диаграммы изменение типа диаграммы может повлечь за собой и изменение диаграммы в целом. Порядок преобразования рядов данных в конусную, цилиндрическую или пирамидальную диаграммы:

– выберите диаграмму, которую необходимо изменить, а также ряд данных на ней. Для изменения типа диаграммы в целом на самой диаграмме ничего не нажимайте;

– Диаграмма – Тип диаграммы – на вкладках Стандартные или Нестандартные выберите необходимый тип.

Для использования типов диаграмм конус, цилиндр или пирамида в объемной диаграмме или гистограмме выберите в поле Тип диаграммы в меню Стандартные пункт Цилиндр, Конус или Пирамида, а затем установите значок в поле Применить к .

Процедура изменения цветов, узора, ширины линии или типа рамки для маркеров данных, области диаграммы, области построения, сетки, осей и подписей делений на плоских и объемных диаграммах, линий тренда и планок погрешностей на плоских диаграммах, а также стенки и основания на объемных диаграммах:

– установить указатель на изменяемый элемент диаграммы и дважды нажать кнопку мыши;

– при необходимости выбрать вкладку Узор и указать нужные параметры.

Для указания эффекта заливки необходимо выбрать соответствующую команду, а затем указать нужные параметры на вкладках Градиентная, Текстура и Узор .

Работа с таблицами формата Список

Список – это упорядоченный набор данных, состоящий из строки заголовков (описания данных) и строк данных, которые могут быть числовыми и текстовыми.

Размер списка ограничен размерами одного рабочего листа, т.е. список может иметь не более 256 полей и не более 65 535 записей. Полями принято называть столбцы списка, а записями – строки.

– список обязательно должен содержать строку заголовков;

– в каждом столбце должна содержаться однотипная информация. Например, не следует смешивать в одном столбце даты и обычный текст;

– в списке не должно быть пустых строк;

– рекомендуется помещать список на отдельный лист. Но если все же на лист нужно поместить еще и другую информацию, следите, чтобы список от нее отделялся хотя бы одной пустой строкой и одним пустым столбцом. В противном случае вы рискуете приобрести, например, сотрудника с фамилией «Итого».

Для удобства работы с большими таблицами, воспользуйтесь командой Окно – Разделить . После того как на экране появятся разделительные линии, буксируйте их мышью таким образом, чтобы горизонтальная линия оказалась точно под строкой заголовков (от вертикальной линии можно отказаться, оттащив ее за пределы рабочего окна). Команда Окно – Закрепить области зафиксирует деление, и заголовки будут видны при прокручивании списка.

Excel обладает мощными средствами для работы со списками. Это:

– пополнение списка с помощью формы;

– фильтрация списка;

– сортировка списка;

– подведение промежуточных итогов;

– создание итоговой сводной таблицы на основе данных списка.

Для того чтобы воспользоваться любым из этих инструментов, нужно установить курсор на одну из ячеек списка.

При вводе данные можно добавлять непосредственно в ячейки, а можно воспользоваться специальной формой ввода (рис. 2.21).

Рис. 2.21. Форма ввода данных

Если вы выбрали первый способ, то используйте команду контекстного меню Выбрать из списка. Excel избавит вас от необходимости много раз набирать один и тот же текст.

Если вы решили прибегнуть к помощи формы ввода, поместите курсор в любое место списка и выберите команду Данные – Форма . На экране появится диалоговое окно, в котором будет отображено каждое поле списка. При этом поля, содержащие формулы, хотя и отображаются в форме ввода, их значения изменить нельзя.

Индикатор в правом верхнем углу формы показывает номер выбранной записи и общее число записей в форме.

Чтобы ввести новую запись, щелкните по кнопке Добавить . Форма очистится, и вы сможете ввести нужную информацию в соответствующие поля. После этого снова щелкните по кнопке Добавить , а если не хотите больше добавлять записи – по кнопке Закрыть .

Вновь введенные данные появятся в конце списка. Формулы, содержавшиеся в ячейках списка, автоматически будут распространены и на новую запись

Форму ввода можно использовать не только для ввода данных. Она позволяет просматривать существующие записи, редактировать их, удалять и выборочно отображать данные по определенному критерию.

Фильтрация списков

В Excel существует два типа фильтров: Автофильтр и Расширенный фильтр .

Перед тем как использовать Автофильтр , выделите любую ячейку списка. Затем выберите команду Данные – Фильтр – Автофильтр . При включении Автофильтра возле имен полей списка появятся кнопки со стрелками.

При щелчке по любой из этих кнопок раскрывается меню (рис. 2.22), содержащее команды и список значений данного поля. С помощью этого меню можно отобрать все записи с заданным значением поля.

Рис. 2.22. Вид меню, содержащего команды и список значений поля

Обратите внимание на цвет стрелок на кнопках Автофильтра : если Автофильтр включен, кнопки окрашиваются в синий цвет.

Чтобы отключить ранее заданный фильтр, в раскрывающемся меню кнопок Автофильтра следует выбрать команду Все.

Если задан сложный критерий, то придется отменять составляющие условия отбора по очереди. Иногда бывает проще отказаться от Автофильтра , выбрав команду Данные – Фильтр – Автофильтр , а потом установить Автофильтр снова.

Кроме команды Все , в раскрывающемся меню кнопок Автофильтра есть еще одна команда Первые 10 ..., которая используется для полей числового типа или дат. Эта команда покажет «горячую десятку» вашего списка.

Пусть необходимо узнать расходы за последние три дня. Щелкните по кнопке Автофильтра в столбце Дата , выберите в раскрываемся меню команду Первые 10 ..., в диалоговом окне сделайте установки, как на рис. 2.23.

Рис. 2.23. Диалоговое окно установки расходов за последние 3 дня

В окне Наложение условия по списку можно установить любое количество наибольших (или наименьших) элементов, которое хотите отобразить. Если вы хотите оставить процент записей (например, 10% наименьших значений), в третьем окне вместо Элементов списка установите % от количества элементов . При создании сложного условия отбора команда Первые 10 ... всегда применяется ко всему списку.

Иногда стандартных условий Автофильтра оказывается недостаточно. Для создания собственного Автофильтра необходимо:

– для выбранного поля (например, Менеджер ) из раскрывающегося меню кнопки Автофильтра выбрать команду (Условие …);

– в диалоговом окне Пользовательский автофильтр (рис. 2.24) задать условия отбора значений списка.

Рис. 2.24. Окно Пользовательский автофильтр

Если вы применяете Пользовательский автофильтр к текстовому полю, в качестве логической функции, связывающей условия, всегда выбирайте ИЛИ.

Для полей числового типа или дат используются следующие правила:

– И , когда интересует область между двумя числами или датами;

– ИЛИ , если интересует область вне интервала, заданного двумя числами или датами.

Расширенный фильтр

Часто для отбора нужной информации из списка бывает вполне достаточно Автофильтра или пользовательского фильтра. Однако для решения сложной задачи приходится прибегать к помощи расширенной фильтрации. Расширенный фильтр гораздо гибче Автофильтра , но чтобы воспользоваться им, придется выполнить подготовительные действия.

С помощью Расширенного фильтра (рис. 2.25) можно:

– определить более сложный критерий фильтрации;

– помещать результат отбора данных на другое место и даже на новый лист рабочей книги;

– устанавливать вычисляемый критерий отбора.

Рис. 2.25. Окно Расширенный фильтр

Чтобы воспользоваться Расширенным фильтром , необходимо задать диапазон критериев.

Диапазон критериев – область рабочего листа, в которой формируется условие (условия) отбора. Диапазон критериев должен состоять, по крайней мере, из двух строк, первая из которых содержит все или некоторые названия полей списка.

Удобнее всего отвести для диапазона критериев область над списком. Названия полей, не используемых при фильтрации, можно не помещать в диапазон критериев. Но если вы предполагаете, что в дальнейшем в зависимости от обстоятельств вам может понадобиться и другая информация из списка, скопируйте строку, содержащую названия полей списка, целиком.

Условия отбора следует вносить в пустые ячейки диапазона критериев. Условия отбора, расположенные в ячейках одной строки, соединяются оператором И . Условия, расположенные на разных строках, соединяются оператором ИЛИ . Диапазон критериев может состоять из любого количества строк.

Область ячеек, содержащих критерии, должна отделяться от списка, по крайней мере, одной пустой строкой.

Для того чтобы отключить Расширенный фильтр , используют команду Данные – Фильтр – Отобразить все.

При использовании вычисляемого критерия отбор производится «по несуществующему полю». При создании формул вычисляемых критериев всегда ссылайтесь на первую строку списка, а не на строку заголовков. Если в формулу будут подставляться значения вне списка, используют абсолютные ссылки.

Если отфильтрованный список должен быть помещен на другой лист рабочей книги, сначала переходят на этот лист и только потом обращаются к команде Данные – Фильтр – Расширенный фильтр.

При выполнении сложных аналитических задач по статистике (к примеру, корреляционного и дисперсионного анализа, расчетов по алгоритму Фурье, создания прогностической модели) пользователи часто интересуются, как добавить анализ данных в Excel. Обозначенный пакет функций предоставляет разносторонний аналитический инструментарий, полезный в ряде профессиональных сфер. Но он не относится к инструментам, включенным в Эксель по умолчанию и отображающимся на ленте. Выясним, как включить анализ данных в Excel 2007, 2010, 2013.

Для Excel 2010, 2013

Рассмотрим анализ данных в Excel: как включить и чем будет отличаться процедура активации для других версий. В большинстве вариантов программы процедура выполняется одинаково. Поэтому последовательность действий, изложенная в разделе, подходит для большинства версий, в том числе для выпусков 2013 и 2016 годов.

Включение блока инструментов

Рассматриваемый пакет относится к категории надстроек, то есть сложных аналитических дополнений. Соответственно, для включения пакета переходим в меню надстроек. Эта процедура выполняется следующим образом:

зайдите во вкладку «Файл», расположенную в верхней части ленты интерфейса;
с левой стороны открывающегося меню найдите раздел «Параметры Эксель» и кликните по нему;
просмотрите левую часть окошка, откройте категорию надстроек (вторая снизу в списке), выберите соответствующий пункт;
в выпавшем диалоговом меню найдите пункт «Управление», кликните по нему мышью;
клик вызовет на экран диалоговое окно, выберите раздел надстроек, если выставлено значение, отличное от «Надстройки Excel», поменяйте его на обозначенное;
нажмите на экранную кнопку «Перейти» в разделе надстроек. В правой части выпадет список надстроек, которые устанавливает программа.

Активация

Рассмотрим, как активировать аналитические функции, предоставляемые надстройкой пакета:

В перечне надстроек, выпавшем после последовательного выполнения предыдущих операций, пользователю надлежит поставить знак птички напротив раздела «Пакет анализа».
Выбрав активацию пакета, необходимо нажать клавишу «Ок», расположенную в верхней правой части диалогового окна.
После нажатия кнопки пакет появляется на ленте функций. Для получения доступа к нему в интерфейсе программы выбирается вкладка «Данные». В правой части меню «Раздел анализа». Там пользователь найдет иконку опции «Анализ данных».

Запуск функций группы «Анализ данных»

Аналитический пакет оперирует большим набором инструментов, оптимизирующих решение статистических задач. Некоторые из числа:

операции с выборками;
построение гистограммы – разновидности столбчатой диаграммы, демонстрирующей разброс разных значений некоторого параметра в виде столбцов, площади которых соотносятся друг с другом так же, как удельные веса разных групп в рассмотренной выборе;
генерация случайных чисел;
порядковое и процентное ранжирование;
вариации регрессионного, дисперсионного, корреляционного, ковариационного анализа;
анализ по алгоритму Фурье;
экспоненциальное сглаживание – метод математических преобразований, преследующих цель выявления некоторого тренда или тенденции во временном ряду. Метод применяется для построения прогнозов.

Чтобы применить ту или иную опцию, действуют по нижеприведенному алгоритму:

Нажать на кнопку анализа на ленте.
Кликнуть по названию необходимой пользователю функции.
Нажать клавишу «Ок», находящуюся рядом с правым верхним углом окошка.
В диалоговом окне указать массивы данных, используемые для решения текущей задачи.

Функции, входящие в пакет, рассчитаны на использование чисел только с одного листа Эксель. Если нужные статистические значения помещены на нескольких листах, потребуется предварительно создать сводную таблицу, скопировав туда требуемые параметры.

Для Excel 2007

Алгоритм, как включить анализ данных в Excel 2007, отличается от остальных тем, что в самом начале (для выхода на параметры Excel) вместо кнопки «Файл» пользователь нажимает четырехцветный символ Microsoft Office. В остальном же последовательность операций идентична приведенной для других версий.