Книга: Статистика и котики

Приложение 2. Работа в статистических пакетах

Приложение 2.

Работа в статистических пакетах

На сегодняшний день существует огромное количество программных продуктов, которые позволяют работать если не со всеми, то во всяком случае с большинством методов, о которых рассказывается в книге. В первом приближении их можно поделить на два класса: те, в которых все команды задаются с помощью текстового ввода (например R и Python), и те, где конкретный метод выбирается с помощью меню. Поскольку рядовой пользователь достаточно редко имеет дело с командной строкой, мы остановимся только на втором классе программ. Самыми популярными из них можно считать следующие.

1. IBM SPSS — мощный пакет, способный справиться с абсолютным большинством статистических задач. Является платным, однако существует и бесплатная 14-дневная версия.

2. StatSoft Statistica — главный конкурент SPSS на отечественном рынке. Также является коммерческим продуктом.

3. R-commander — графический интерфейс для языка программирования R. Как и сам R, распространяется бесплатно.

4. PSPP — бесплатный аналог SPSS со схожим интерфейсом.

5. Microsoft Excel с надстройкой «Анализ данных». Как ни странно, позволяет делать довольно много интересных вещей. Но его интерфейс не является типичным для статистических программ.

Здесь мы рассмотрим, как работать с SPSS. Однако многие вещи, о которых пойдет речь ниже, подходят и для других статистических пакетов. В частности, для любой статистической программы с меню характерна вот такая последовательность работы:

1. Вбить данные в таблицу;

2. Найти нужный метод;

3. Выбрать переменные для анализа;

4. Отметить необходимые опции;

5. Нажать «ОК»;

6. Проинтерпретировать результаты.

При этом первый, пятый и шестой шаги практически полностью идентичны. В частности, когда вы вбиваете данные в таблицу, абсолютное большинство пакетов следуют следующему правилу:

«По строкам — объекты, по столбцам — переменные».

При этом если у вас присутствуют несвязанные выборки, то этот факт кодируется отдельной переменной, которая обозначает принадлежность объекта к той или иной группе (например, 0 — котик и 1 — кошечка). В свою очередь каждая связанная выборка обозначается отдельной переменной (например, «Размер до» и «Размер после»).


Остальные шаги отличаются некоторыми нюансами, которые зависят как от пакета, так и от метода. В частности, в SPSS выбор переменных осуществляется с помощью переноса их в отдельные поля, а, допустим, в Statistica — простым выделением мыши.

Итак, ниже будут приведены алгоритмы работы в программе IBM SPSS Statistics 24 (пробная русская версия с официального сайта). Они будут состоять из четырех разделов:

1. КАК НАЙТИ, в котором указывается путь к конкретному методу. Он всегда начинается с верхнего меню (там, где «Файл», «Изменить» и т. д.);

2. ЧТО ВВОДИТЬ — что необходимо сделать для проведения анализа.

3. ДОПОЛНИТЕЛЬНЫЕ ОПЦИИ, которые позволяют приспособить метод под вашу конкретную задачу.

4. КУДА СМОТРЕТЬ — указание на таблицы и ячейки, в которых содержатся основные результаты анализа.

ОПИСАТЕЛЬНАЯ СТАТИСТИКА И ДИАГРАММЫ

Как найти: Анализ —> Описательные статистики —> Частоты…

Что вводить:Выделите переменные, которые вы хотите проанализировать, и с помощью стрелочки перенесите их в поле «переменные».

Дополнительные опции:

Статистики… — позволяет выбрать конкретные меры центральной тенденции и меры изменчивости.

Диаграммы… — позволяет выбрать диаграммы (круговую или столбчатую).

Формат… — позволяет отрегулировать, в каком виде будет выдаваться результат. Например, можно вывести результаты по каждой переменной по отдельности, а можно — вместе.

Куда смотреть: в таблицы с описательными статистиками и на диаграммы.

T-КРИТЕРИЙ СТЬЮДЕНТА ДЛЯ НЕСВЯЗАННЫХ ВЫБОРОК

Как найти: Анализ —> Сравнение средних —> T-критерий для независимых выборок.

Что вводить:

1. Переместите переменные, по которым хотите найти различия, в поле «Проверяемые переменные».

2. Переместите переменную, которая делит ваши объекты на группы (т. е. На несвязанные выборки), в поле «Группировать по».

3. Задайте группы, либо указав конкретные значения (например 0 и 1), либо обозначив некоторое пороговое, ниже которого будет одна группа, а выше — другая.

Дополнительные опции: ничего интересного.

Куда смотреть: смотрим в таблицу «Критерий для независимых выборок». Слева будет два важных столбца, обозначающих критерий равенства дисперсий Ливиня, который определяет, равны ли между собой дисперсии ваших выборок.

Если значимость больше 0,05, то они равны и вам дальше нужно будет смотреть в первую строчку («Предполагаются равные дисперсии»). Если меньше 0,05 — то во вторую («Не предполагаются равные дисперсии»).

Следующие столбцы — сам t-критерий Стьюдента. Если его значимость меньше 0,05 (столбец «Знач. Двухсторонняя»), то средние значения ваших выборок различаются. Если же больше 0,05, то таких различий обнаружено не было.

Если вы хотите узнать, у какой группы соответствующий показатель больше, смотрите в таблицу «Статистика группы» (столбец «Средние»).

ОДНОФАКТОРНЫЙ ДИСПЕРСИОННЫЙ АНАЛИЗ

Как найти:Анализ —> Общая линейная модель —> ОЛМ-одномерная.

Что вводить:

1. Переместите переменную, по которой хотите найти различия, в поле «Зависимая переменная».

2. Переместите переменные, которые делят ваши объекты на группы (т. е. на несвязанные выборки), в поле «Фиксированные факторы».

Дополнительные опции:

Апостериорные — позволяет вычислить различные post-hoc-критерии.

Параметры — разные дополнительные критерии. Как правило, нас интересуют описательные статистики. Также весьма полезным может быть график средних.

Куда смотреть: нас интересуют два последних столбца таблицы «Критерии межгрупповых эффектов» — «F» и «Значимость». Эти параметры есть при каждом факторе. Если «Значимость» меньше 0,05 — фактор влияет на переменную.

Если вы включили post-hoc-критерии, то найти их можно в таблице «Множественные сравнения». Средние показатели по каждой группе вы сможете найти в таблице «Описательные статистики».

МНОГОФАКТОРНЫЙ ДИСПЕРСИОННЫЙ АНАЛИЗ

Как найти:Анализ —> Сравнение средних —> Однофакторный дисперсионный анализ.

Что вводить:

1. Переместите переменные, по которым хотите найти различия, в поле «Список зависимых переменных».

2. Переместите переменную, которая делит ваши объекты на группы (т. е. на несвязанные выборки), в поле «Фактор».

Дополнительные опции:

Апостериорные — позволяет вычислить различные post-hoc-критерии.

Параметры — разные дополнительные критерии. Как правило, нас интересуют описательные статистики. Также весьма полезным может быть график средних.

Куда смотреть: смотрим на два последних столбца таблицы «ANOVA» — «F» и «Значимость». Если «Значимость» меньше 0,05 — фактор влияет на переменную.

Если вы включили post-hoc-критерии, то найти их можно в таблице «Множественные сравнения». Средние показатели по каждой группе вы сможете найти в таблице «Описательные статистики».

U-КРИТЕРИЙ МАННА-УИТНИ

Как найти:Анализ —> Непараметрические критерии —> Устаревшие диалоговые окна -> Для двух независимых выборок.

Что вводить:

1. Переместите переменные, по которым хотите найти различия, в поле «Список проверяемых переменных».

2. Переместите переменную, которая делит ваши объекты на группы (т. е. на несвязанные выборки), в поле «Группировать по».

3. Задайте группы, указав конкретные значения (например 0 и 1).

Дополнительные опции: если хотите, можете посмотреть различия по другим критериям.

Куда смотреть: смотрим в таблицу «Статистические критерии». Сам критерий U Манна-Уитни находится в одноименной строчке. P-уровень значимости можно найти в строчке «Асимптотическая значимость (2-сторонняя)». Если он меньше 0,05, ваши выборки значимо различаются. Если же больше 0,05, то таких различий обнаружено не было.

H-КРИТЕРИЙ КРАСКЕЛЛА-УОЛЛЕСА

Как найти:Анализ —> Непараметрические критерии —> Устаревшие диалоговые окна -> Для K независимых выборок.

Что вводить:

1. Переместите переменные, по которым хотите найти различия, в поле «Список проверяемых переменных».

2. Переместите переменную, которая делит ваши объекты на группы (т. е. на несвязанные выборки), в поле «Группировать по».

3. Задайте группы, указав диапазон их значений. Например от 1 до 3 в случае, если у вас 3 группы.

Дополнительные опции: ничего интересного.

Куда смотреть: смотрим в таблицу «Статистические критерии». Абсолютное значение критерия скрывается в строчке «Хи-квадрат». Если «Асимптотическая значимость меньше 0,05», то влияние фактора можно считать значимым.

T-КРИТЕРИЙ СТЬЮДЕНТА ДЛЯ СВЯЗАННЫХ ВЫБОРОК

Как найти:Анализ —> Сравнение средних —> T-критерий для парных выборок.

Что вводить: переместите пары переменных, обозначающих связанные выборки в поле «Парные переменные».

Дополнительные опции: ничего интересного.

Куда смотреть: смотрим в таблицу «Критерий парных выборок» на последние столбцы. «T» — значения критерия, а «Знач. (двухсторонняя)» показывает p-уровень значимости. Если он меньше 0,05 — различия имеются.

Если вы хотите узнать, у какой группы соответствующий показатель больше, смотрите в таблицу «Статистика парных выборок» (столбец «Среднее»).

ДИСПЕРСИОННЫЙ АНАЛИЗ ДЛЯ ПОВТОРНЫХ ИЗМЕРЕНИЙ

Как найти:Анализ —> Общая линейная модель —> ОЛМ-повторные измерения.

Что вводить:

1. Задайте имя внутригруппового фактора, по которому разделяются ваши связанные выборки, число уровней (кол-во связанных выборок) и нажмите кнопку «Добавить».

2. Переместите переменные, обозначающие ваши связанные выборки, в поле «Внутригрупповые переменные».

Дополнительные опции: если у вас имеются несвязанные выборки, то вы можете включить их в анализ, добавив соответствующую переменную в межгрупповые факторы.

В разделе «Графики» вы можете настроить выдачу графиков средних по каждому фактору.

Куда смотреть: смотрим в таблицу «Критерии внутригрупповых эффектов» (блок с названием внутригруппового фактора). Там — четыре критерия, у которых чаще всего одинаковые значения (столбец F). Если «Значимость» при них меньше 0,05, то связанные выборки различаются между собой.

T-КРИТЕРИЙ ВИЛКОКСОНА

Как найти:Анализ —> Непараметрические критерии —> Устаревшие диалоговые окна —> Для двух связанных выборок.

Что вводить: переместите пары переменных, обозначающих связанные выборки, в поле «Тестовыепары».

Дополнительные опции: если хотите, можете посмотреть различия по другим критериям. Например, по критерию знаков.

Куда смотреть: смотрим в таблицу «Статистические критерии». T-критерия Вилкоксона вы в ней не найдете — вместо него так называемая Z-статистика, рассчитанная на основе этого критерия. Ее вполне можно вставлять в вашу работу.

P-уровень значимости можно найти в строчке «Асимптотическая значимость (2-сторонняя)». Если он меньше 0,05, ваши выборки значимо различаются. Если же больше 0,05, то таких различий обнаружено не было.

КРИТЕРИЙ ФРИДМАНА

Как найти: Анализ —> Непараметрические критерии —> Устаревшие диалоговые окна —> Для K связанных выборок.

Что вводить: переместите переменные, обозначающие связанные выборки, в поле «Проверяемые переменные».

Дополнительные опции: ничего интересного.

Куда смотреть: смотрим в таблицу «Статистические критерии». Абсолютное значение критерия скрывается в строчке «Хи-квадрат». Если «Асимптотическая значимость меньше 0,05», то влияние фактора можно считать значимым.

КОЭФФИЦИЕНТЫ КОРРЕЛЯЦИИ ПИРСОНА И СПИРМЕНА

Как найти: Анализ —> Корреляции —> Парные.

Что вводить:

1. Переместите переменные, между которыми вы хотите найти взаимосвязи, в поле «Переменные».

2. Выберите нужный коэффициент корреляции.

Дополнительные опции: ничего интересного.

Куда смотреть: программа выдаст вам корреляционную матрицу (таблица «Корреляции» или «Непараметрические корреляции»). Чтобы посмотреть в ней коэффициент корреляций между переменными А и Б, нужно найти строчку с переменной А и столбик с переменной Б и посмотреть, где они пересекаются.

Сверху будет коэффициент корреляции, а чуть ниже — уровень значимости (двухсторонний). Если он ниже 0,05, то связь между переменными действительно присутствует.

ЛИНЕЙНАЯ РЕГРЕССИЯ

Как найти: Анализ —> Регрессия —> Линейная…

Что вводить:

1. Переместите целевую переменную в поле «Зависимая переменная».

2. Переместите переменные-факторы в «Независимые переменные».

Дополнительные опции: на главном окне вы можете выбрать метод линейной регрессии. Как правило, «Ввод» и «Пошагово».

Нажав на кнопку «Статистики», вы сможете выбрать некоторые дополнительные коэффициенты, которые выдаст вам программа.

Куда смотреть: смотрим в таблицу «Коэффициенты». Там нас будут интересовать два столбца — «B» и «Значимость». В первом из них — регрессионные коэффициенты. Во втором — p-уровень значимости. Если он меньше 0,05, то данный фактор является значимым.

Вторая интересующая нас таблица — сводка для модели. Смотрим столбец «Скорректированный R-квадрат». В нем — коэффициент детерминации, который скажет, какой процент ваших данных объясняет модель. R-квадрат, равный 0,92, обозначает, что 92% ваших данных объясняется вашей моделью.

ЛОГИСТИЧЕСКАЯ РЕГРЕССИЯ

Как найти: Анализ —> Регрессия —> Логистическая…

Что вводить:

1. Переместите целевую переменную в поле «Зависимая переменная».

2. Переместите переменные-факторы в «Ковариаты».

Дополнительные опции: на главном окне вы можете выбрать метод логистической регрессии. По умолчанию установлен «Ввод» (или «Enter»).

Нажав на кнопку «Параметры», вы сможете выбрать некоторые дополнительные статистики и графики. Также я очень рекомендую поставить галочку в графе «На последнем шаге».

Куда смотреть: пролистываем вывод вниз (до Блок 1) и смотрим в таблицу «Переменные в уравнении». Интересуют нас два столбца: «B» и «Значимость». Первый содержит регрессионные коэффициенты. Второй — p-уровень значимости. Если он меньше 0,05, то данный фактор является значимым.

Вторая таблица — «Сводка для модели». Смотрим столбец «R-квадрат Нэйджелкерка». Этот коэффициент показывает, сколько процентов ваших данных объясняет полученная модель. R-квадрат, равный 0,92, обозначает, что 92% ваших данных объясняется вашей моделью.

И последнее — «Таблица классификации». Она позволяет сравнить, насколько результаты, предсказываемые моделью, совпадают с реальными.

ДИСКРИМИНАНТНЫЙ АНАЛИЗ

Как найти: Анализ —> Классификация —> Дискриминантный анализ.

Что вводить:

1. Переместите переменную, делящую ваши объекты на группы, в поле «Группировать по». Далее — задайте диапазон, в котором находятся ваши группы (допустим от 1 до 3, если группы обозначаются как 1, 2 и 3).

2. Переместите остальные переменные в поле «Независимые».

3. Нажмите кнопку «Статистики» и отметьте «Однофакторныйдисперсионный анализ».

4. Нажмите кнопку «Классифицировать» и отметьте «Итоговая таблица».

Дополнительные опции: на главном окне вы можете выбрать метод дискриминантного анализа («Принудительное включение» или «Шаговый отбор»).

В окне «Статистики» вы также можете выбрать «Средние», что даст описательную статистику по каждой из групп.

Куда смотреть: в таблице «Критерии равенства групповых средних» можно посмотреть, какие переменные значимо разделяют ваши объекты на группы (столбцы «F» и «Значимость»). Если значимость меньше 0,05, то разделяет.

Значения коэффициентов стандартизованной канонической дискриминантной функции можно найти в одноименной таблице (если это действительно необходимо).

Что касается меры качества, то таковой может служить таблица «Результаты классификации». В ячейках [0,0] и [1,1] находятся правильно классифицированные объекты, а в остальных — ошибочно определенные.

ИЕРАРХИЧЕСКАЯ КЛАСТЕРИЗАЦИЯ

Как найти: Анализ —> Классификация —> Иерархическая кластеризация…

Что вводить:

1.Переместите признаки, по которым ваши объекты будут распределяться на группы, в поле «Переменные».

2. В разделе «Графики» отметьте галочкой «Дендрограмма».

Дополнительные опции: нажав кнопку «Статистики», вы можете потребовать у компьютера вывести принадлежность объектов к кластерам на том или ином этапе кластеризации. Кроме того, у него можно затребовать матрицу расстояний между объектами (она же — «Матрица близостей»).

В разделе «Метод» вы можете выбрать способ выделения кластеров, а также меру расстояния.

Куда смотреть: на дендрограмме показана принадлежность объектов к тому или иному классу на всех этапах кластеризации.

Если же вы отметили соответствующую галочку, то вы можете посмотреть принадлежность объектов к кластеру на определенном этапе кластеризации в таблице «Принадлежность к кластерам».

К-СРЕДНИХ

Как найти: Анализ —> Классификация —> Кластеризация К-средними.

Что вводить:

1. Переместите признаки, по которым ваши объекты будут распределяться на группы, в поле «Переменные».

2. Выберите число кластеров.

3. В разделе «Параметры» отметьте «Конечный кластер для каждого наблюдения».

Дополнительные опции: ничего интересного.

Куда смотреть: из таблицы «Принадлежность к кластерам» можно увидеть, какой объект к какому кластеру принадлежит.

А в таблице «Конечные центры кластеров» расположены координаты каждого центроида.

ФАКТОРНЫЙ АНАЛИЗ

Как найти: Анализ —> Снижение размерности —> Факторный анализ.

Что вводить:

1. Переместите переменные, на основе которых будут выделяться факторы, в поле «Переменные».

2. Нажмите на кнопку «Вращение» и выберите метод вращения (чаше всего «варимакс»).

Дополнительные опции: в разделе «Извлечение» можно выбрать метод извлечения, вывести график собственных значений или настроить количество факторов, которые выделятся по итогу.

Куда смотреть: результаты факторного анализа находятся в «Повернутой матрице компонентов». Там — коэффициенты корреляции между факторами и отдельными переменными.

Собственные значения факторов можно посмотреть в таблице «Объясненная совокупная дисперсия».

Оглавление книги

Оглавление статьи/книги

Генерация: 0.037. Запросов К БД/Cache: 0 / 0
поделиться
Вверх Вниз