Skip to main content

Что такое процесс интеллектуального анализа данных?

Процесс интеллектуального анализа данных - это инструмент для выявления статистически значимых шаблонов в большом количестве данных. Обычно он включает пять основных этапов, которые включают подготовку, исследование данных, построение модели, развертывание и проверку. Каждый шаг в этом процессе включает в себя различный набор методов, но большинство использует некоторую форму статистического анализа.

Прежде, чем процесс извлечения данных может начаться, исследователи, как правило, устанавливают цели исследования. Этот этап подготовки обычно определяет, какие типы данных необходимо изучить, какие методы анализа данных следует использовать и в какой форме будут получены результаты. Этот начальный шаг в процессе может иметь решающее значение для сбора полезной информации.

Следующим шагом в процессе извлечения данных является исследование. Этот шаг обычно включает сбор необходимых данных из хранилища информации или объекта сбора. Затем специалисты по майнингу обычно готовят наборы необработанных данных для анализа. Этот этап обычно состоит из сбора, очистки, организации и проверки всех данных на наличие ошибок.

Эти подготовленные данные обычно затем входят в третий этап процесса интеллектуального анализа данных - построение модели. Чтобы достичь этого, исследователи обычно берут небольшие тестовые образцы данных и применяют к ним различные методы анализа данных. Этап моделирования часто используется для определения наилучшего метода статистического анализа, необходимого для достижения желаемых результатов.

Существует четыре основных метода, которые можно применять в процессе интеллектуального анализа данных. Первый - это классификация, которая объединяет данные в заранее определенные группы или категории. Во втором методе, называемом кластеризацией, исследователи позволяют компьютеру организовывать данные в группы по своему выбору. Третий метод анализа данных ищет связи между переменными. Четвертый тип обычно ищет последовательные образцы в данных, которые могут использоваться, чтобы предсказать будущие тенденции.

Последний шаг в процессе интеллектуального анализа данных - развертывание. Для этого методы, выбранные в модели, применяются к большему набору данных, а результаты анализируются. Отчет, полученный на этом этапе, обычно показывает шаблоны, найденные во всем процессе, включая любые классификации, кластеры, ассоциации или последовательные шаблоны, существующие в наборе данных.

Обзор часто является важным последним шагом. Эта фаза процесса обычно включает повторение моделей интеллектуального анализа данных с новым набором данных, чтобы убедиться, что основной набор представлял всю совокупность данных. Результаты не могут предсказать тенденции в большей популяции, если выборка данных не точно представляет ее.