Co je strukturní těžba?

Těžba struktur je typ dolování dat, ve kterém je skenován polostrukturovaný zdroj dat a jsou objeveny a zvýrazněny prvky jeho struktury. Polostrukturovaný zdroj dat je takový, který nepoužívá tradiční databázovou strukturu tabulek, ale má sémantický prvek, který odděluje informace prostřednictvím značek a značek. Těžba struktury může být použita k těžbě databází, webových stránek a mnoha dalších forem počítačových informací k objevování prvků struktury. Pomáhá uživatelům pochopit, jak kusy vzájemně reagují, nebo jak najít informace pod určitými značkami. Tuto těžbu lze také použít k predikci toho, co je položka, na základě pravidel napsaných uživatelem.

Existuje mnoho různých typů těžby dat a většina se zabývá těžbou tradičně strukturovaného zdroje. To zahrnuje jakýkoli zdroj, který používá tabulky a uzly typické pro většinu databází. Při těžbě struktur se používají pouze polostrukturovaná data. V tomto případě jsou data z webových stránek nebo jednoduchých databází, které mají strukturu, ale nikoli strukturu, která odpovídá tradičním databázovým pravidlům. Data potřebují značky nebo značky, které oddělují každou položku od sebe, aby byly správně vytěženy.

Čtením polostrukturované datové sady dokáže dolování struktury zjistit, jak struktura interaguje. Například každý web má navigační model a právě tento model určuje, jak stránky interagují. Dolování struktury může uživatel zjistit, jak tato navigace funguje, což může pomoci při vytváření podobného navigačního schématu.

Těžba struktury lze také použít k nalezení položek zápisem pravidel do těžebního programu. Například, pokud existuje sada dat knihy, uživatel může napsat pravidlo, že všechny knihy bez indexu by se měly vrátit jako fikce a knihy s indexem by se měly vrátit jako fikce. Většina beletristických knih nemá index, takže toto pravidlo bude s vysokou přesností předpovídat, jaká data jsou. To pomáhá uživatelům při pohledu na polostrukturovanou množinu, která má organizační metodu, ale ne tu, která vyhovuje tomu, co uživatel hledá.

Po vymezení struktury polostrukturované jednotky ji uživatel obvykle porovná s jinou polostrukturovanou jednotkou. Pokud má uživatel obchodní web, může si pro navigaci a odkazy vyhledat další obchodní web a zjistit, jak je jeho web podobný. Porovnáním těžených informací může uživatel najít způsoby, jak zvýšit účinnost struktury.

JINÉ JAZYKY

Pomohl vám tento článek? Děkuji za zpětnou vazbu Děkuji za zpětnou vazbu

Jak můžeme pomoci? Jak můžeme pomoci?