Skip to main content

Что такое добыча статистических данных?

Сбор статистических данных, также известный как знание или обнаружение данных, является компьютеризированным методом сбора и анализа информации. Инструмент интеллектуального анализа данных собирает данные и классифицирует информацию, чтобы обнаружить закономерности или корреляции, которые можно использовать в важных приложениях, таких как медицина, компьютерное программирование, продвижение бизнеса и роботизированный дизайн. Методы сбора статистических данных используют сложную математику и сложные статистические процессы для создания анализа.

Интеллектуальный анализ данных состоит из пяти основных этапов. Первое приложение для сбора данных собирает статистические данные и помещает информацию в программу типа хранилища. Далее данные на складе организуются и создается система управления. Следующий шаг создает способ доступа к управляемым данным. Затем на четвертом этапе разрабатывается программное обеспечение для анализа данных, также известное как регрессия интеллектуального анализа данных, в то время как последний этап облегчает практическое использование или интерпретацию статистических данных.

Как правило, методы интеллектуального анализа данных объединяют аналитические и транзакционные системы данных Аналитическое программное обеспечение сортирует оба типа систем данных, используя открытые пользовательские вопросы. Открытые вопросы дают бесчисленные ответы, поэтому программисты не влияют на результаты сортировки. Программисты создают списки вопросов, чтобы помочь в категоризации информации, используя общую направленность.

Затем сортировка основана на разработке классов и кластеров данных, обнаруженных в данных ассоциациях и попытках определить шаблоны и тренды на основе ассоциаций. Например, Google собирает информацию о покупательских привычках пользователей, чтобы помочь в размещении рекламы в Интернете. Открытые вопросы, используемые для сортировки данных о покупателе, фокусируются на предпочтениях покупателей или привычках просмотра интернет-пользователей.

Компьютерные ученые и программисты сосредотачиваются на анализе собранных статистических данных. Создание деревьев решений, искусственных нейронных сетей, метода ближайшего соседа, индукции правил, визуализации данных и генетических алгоритмов - все это использует статистически добытые данные. Эти системы классификации помогают интерпретировать ассоциации, обнаруженные программами аналитических данных. Статистический анализ данных включает в себя небольшие проекты, которые могут быть выполнены в небольшом масштабе на домашнем компьютере, но большинство наборов ассоциаций интеллектуального анализа данных настолько велики, а регрессия интеллектуального анализа данных настолько сложна, что для них требуется суперкомпьютер или сеть высокоскоростных компьютеров.

Сбор статистических данных собирает три основных типа данных, в том числе эксплуатационные данные, неоперационные данные и метаданные. В магазине одежды оперативные данные - это основные данные, используемые для ведения бизнеса, такие как учет, продажи и управление запасами. Неоперационные данные, которые косвенно связаны с бизнесом, включают оценки будущих продаж и общую информацию о национальном рынке одежды. Метаданные касаются самих данных. Программа, использующая метаданные, может сортировать покупателей магазина по классификациям на основе пола или географического местоположения покупателей одежды или любимого цвета покупателей, если эти данные были собраны.

Приложение для интеллектуального анализа данных может быть чрезвычайно сложным, а инструмент для статистического анализа данных может иметь широкое практическое применение. Изучение вспышек заболеваний является одним из примеров. В 2000 году в проекте по сбору данных был проведен анализ вспышки криптоспоридиума в Онтарио, Канада, чтобы определить причины увеличения числа случаев заболевания. Результаты сбора данных помогли связать вспышку бактерий с местными водными условиями и отсутствием надлежащей муниципальной очистки воды. Поле под названием «бионаблюдение» использует добычу эпидемиологических данных для выявления вспышек одного заболевания.

Компьютерные программисты и дизайнеры также используют изучение вероятностей и статистический анализ данных для разработки машин и компьютерных программ. Поисковая система Google для Интернета была разработана с использованием статистического анализа данных. Google продолжает собирать и использовать интеллектуальный анализ данных для создания обновлений программ и приложений.