Hva er tekstgruvedrift?
Tekstbryting er prosessen med å bruke datateknologi for å sile gjennom tekstdokumenter for forskning og analyse. Det blir ofte sett på som veldig lik prosessen kjent som data mining, men den er avhengig av spesiell programmering for å se i ukategorisert tekst og finne mening eller mønstre i stedet for å analysere forhåndskategorisert databaseinformasjon. Tekstbryting har mange bruksområder innen områder som vitenskap, markedsføring og dataorganisasjon.
Kompleksiteten i å organisere ord til språk er altfor ekstrem for datamaskiner å håndtere, men forskere har jobbet hardt for å forbedre denne typen programmering. Det er utviklet mange metoder som lar forskere identifisere fraser og oppdage fakta om tekst. Dette er vanligvis ikke det samme som å dechiffrere betydningen, men det gir mulighet for snarveier som oppnår mange av de samme målene. Tekstbryting utnytter noen av disse teknikkene, og etter hvert som denne teknologien forbedres, forventes det generelt at også tekstbryting vil forbedre seg.
Eksperter bruker analyse av tekstinformasjon først og fremst for å undersøke skriftlige dokumenter. Store mengder skriftlige data kan være vanskelig å analysere på grunn av den enorme tiden det krever. Datamaskiner kan gå gjennom denne teksten mye raskere, men de kan ikke forstå den. Teknisk gruvedriftsteknikker lar datamaskiner finne nyttige trender i tekst, presentere dataene på en måte som kan avsløre nye fakta eller tillate eksperter å gjøre funn.
Et eksempel på bruk av denne teknologien vil være markedsundersøkelser. Eksperter kan analysere søkeresultatene på et produktnavn og få programmet til å lete etter setninger som uttrykker brukerstemning. På denne måten kan de finne ut hvordan folk virkelig føler om produktet sitt på en veldig detaljert måte. De kan også ganske enkelt se etter produktet sitt og se hvilke setninger som dukket opp oftest, og dette kan hjelpe dem med å utvikle nye ideer om hvordan de kan glede kundene sine.
En annen bruk for gruvedrift er å analysere vitenskapelige artikler om lignende emner på jakt etter nye trender eller avtaler. Dette har gjort det mulig for noen forskere å gjøre forutsigbare antagelser som har vist seg nyttige innen felt som proteinanalyse. Noen eksperter tror at slike applikasjoner etter hvert kan gi uventede funn.
En prosess som heter data mining er faktisk ganske lik utvinning av tekst, men det er generelt mindre komplisert å gjøre fordi den er avhengig av tekst som allerede er formatert i kategorier. For eksempel kan programvaren gå gjennom all informasjonen for jobbsøkere i en database, på jakt etter trender. Tekstbryting er vanskeligere for datamaskiner fordi ren tekst er vanskeligere å analysere enn data med kategorier.