Co to jest górnictwo strukturalne?
Eksploracja struktury jest rodzajem eksploracji danych, w której skanowane jest częściowo ustrukturyzowane źródło danych, a elementy jego struktury są wykrywane i wyróżniane. Częściowo ustrukturyzowane źródło danych to takie, które nie korzysta z tradycyjnej struktury bazy danych tabel, ale ma element semantyczny, który oddziela informacje za pomocą znaczników i znaczników. Eksploracja struktury może być wykorzystywana do wydobywania baz danych, stron internetowych i wielu innych form informacji komputerowej w celu odkrycia elementów struktury. Pomaga użytkownikom zrozumieć, w jaki sposób elementy oddziałują na siebie, lub znaleźć informacje pod określonymi tagami. To wyszukiwanie może być również wykorzystane do przewidywania, czym jest element, na podstawie reguł napisanych przez użytkownika.
Istnieje wiele różnych rodzajów eksploracji danych, a większość dotyczy eksploracji tradycyjnie ustrukturyzowanego źródła. Obejmuje to dowolne źródło korzystające z tabel i węzłów typowych dla większości baz danych. W eksploracji struktury wykorzystywane są tylko częściowo ustrukturyzowane dane. W tym przypadku dane pochodzą ze stron internetowych lub prostych baz danych, które mają strukturę, ale nie taką, która jest zgodna z tradycyjnymi regułami baz danych. Dane wymagają znaczników lub znaczników, które wyróżniają każdy element, aby był odpowiednio wydobywany.
Czytając częściowo ustrukturyzowany zestaw danych, eksploracja struktury jest w stanie odkryć, w jaki sposób struktura oddziałuje. Na przykład każda witryna ma model nawigacyjny i to on określa sposób interakcji stron. Poprzez eksplorację struktury użytkownik może dowiedzieć się, jak działa ta nawigacja, co może pomóc w stworzeniu podobnego schematu nawigacji.
Wyszukiwanie struktur może być również wykorzystywane do znajdowania przedmiotów poprzez zapisywanie reguł w programie wyszukiwania. Na przykład, jeśli istnieje zestaw danych książki, użytkownik może napisać regułę, że wszystkie książki bez indeksu powinny zwracać się jako fikcja, a te z indeksem powinny zwracać się jako non-fiction. Większość książek fabularnych nie ma indeksu, więc ta reguła będzie z dużą dokładnością przewidywać, jakie są dane. Pomaga to użytkownikom patrzeć na częściowo ustrukturyzowany zestaw, który ma metodę organizacyjną, ale nie taką, która pasuje do tego, czego szuka użytkownik.
Po ustaleniu struktury jednostki półstrukturalnej użytkownik zazwyczaj porównuje ją z inną jednostką częściowo ustrukturyzowaną. Jeśli użytkownik ma witrynę firmy, może wydobyć inną witrynę firmy w celu nawigacji i linków oraz zobaczyć, jak jego strona internetowa jest podobna. Porównując wydobyte informacje, użytkownik może znaleźć sposoby na zwiększenie wydajności konstrukcji.