Skip to main content

Что такое категориальная переменная?

Категориальная переменная, которая также упоминается как номинальная переменная, является типом переменной, которая может иметь две или более групп или категорий, которые могут быть назначены. Нет категорий для категорий, которым может быть назначена переменная. Другими словами, категории не могут быть упорядочены от наивысшего к низшему. Примером категориальной переменной является раса, которая имеет много разных категорий, но нет упорядочения по ним.

Один из способов определить тип переменной - количественный или качественный. Количественная переменная может быть измерена и имеет конкретное числовое значение. Примеры количественных переменных включают рост, вес, возраст, зарплату, температуру и т. Д. Любые переменные, которые не являются количественными, являются качественными или категориальными. Эти типы переменных не имеют числового значения, когда они измеряются или наблюдаются, и включают такие вещи, как цвет волос, цвет глаз, пол, город рождения и т. Д.

Категориальные переменные похожи на порядковые переменные, поскольку обе они имеют конкретные категории, которые их описывают. Разница между категориальной переменной и порядковой переменной заключается в том, что последняя имеет внутренний порядок. Например, опрос может попросить респондентов оценить утверждения как плохие, хорошие и отличные. Это категориальные переменные, но существует очевидный порядок, поэтому они на самом деле являются порядковыми переменными.

Таблицы данных обычно используются для анализа данных, сгруппированных по категориям. С помощью двухсторонней таблицы данных можно измерить и сравнить две категориальные переменные. Например, цвет волос и пол могут быть измерены для группы лиц. Категориальными переменными, которые будут наблюдаться и регистрироваться, будет то, является ли человек мужчиной или женщиной и какого цвета его волосы. В таблице количество наблюдений для каждой группы по двум переменным будет вводиться в строках и столбцах на основе собранных данных.

Гистограммы часто используются в качестве графического метода анализа данных категориальных переменных. Наблюдаемые данные могут быть введены в виде необработанных чисел или в процентах, которые являются предпочтительными. На линейчатой ​​диаграмме отображается сумма для каждой группы.

В приведенном выше примере гистограмма может представлять количество мужчин или женщин или количество людей в каждой категории цвета волос. Сегментированная гистограмма может предоставить метод отображения чисел, полученных во время наблюдений, вместо прямой суммы для каждой группы. Используя те же данные о цвете волос и поле, сегментированная гистограмма может показать, сколько мужчин и женщин каждого цвета волос наблюдалось.