Skip to main content

Что такое майнинг структуры?

Анализ структуры - это тип анализа данных, при котором сканируется полуструктурированный источник данных, а элементы его структуры обнаруживаются и выделяются. Полуструктурированный источник данных - это тот, который не использует традиционную структуру базы данных таблиц, но имеет семантический элемент, который разделяет информацию через теги и маркеры. Анализ структуры может использоваться для поиска баз данных, веб-сайтов и многих других видов компьютерной информации для обнаружения элементов структуры. Это помогает пользователям понять, как части взаимодействуют друг с другом или как найти информацию по определенным тегам. Этот майнинг также можно использовать для прогнозирования того, что это за предмет, на основе правил, написанных пользователем.

Существует много различных типов интеллектуального анализа данных, и большинство из них касается майнинга традиционно структурированного источника. Это включает любой источник, который использует таблицы и узлы, типичные для большинства баз данных. В структурном анализе используются только полуструктурированные данные. В этом случае данные поступают с веб-сайтов или простых баз данных, структура которых, но не соответствует традиционным правилам баз данных. Данные должны иметь теги или маркеры, которые устанавливают каждый элемент отдельно для правильной добычи.

Считывая полуструктурированный набор данных, анализ структуры может обнаружить, как структура взаимодействует. Например, каждый веб-сайт имеет навигационную модель, и именно эта модель определяет, как страницы взаимодействуют. Изучив структуру, пользователь может узнать, как работает эта навигация, что может помочь в создании аналогичной схемы навигации.

Структурный анализ также может использоваться для поиска предметов путем записи правил в программу анализа. Например, если имеется набор данных о книгах, пользователь может написать правило, согласно которому любые книги без индекса должны возвращаться как вымысел, а книги с индексом должны возвращаться как не беллетристика. У большинства художественных книг нет индекса, поэтому это правило будет с высокой точностью предсказывать, что это за данные. Это помогает пользователям при поиске полуструктурированного набора, который имеет организационный метод, но не тот, который соответствует тому, что ищет пользователь.

После выяснения структуры полуструктурированной единицы пользователь обычно сравнивает ее с другой полуструктурированной единицей. Если у пользователя есть бизнес-сайт, он или она может найти другой бизнес-сайт для навигации и ссылок и посмотреть, как его или ее сайт похож. Сравнивая добытую информацию, пользователь может найти способы повысить эффективность структуры.