Vad är textbrytning?
Textbrytning är processen att använda datateknik för att söka igenom textdokument för forskning och analys. Det betraktas ofta mycket lik den process som kallas data mining, men det förlitar sig på speciell programmering att titta i okategoriserad text och hitta mening eller mönster istället för att analysera förekategoriserad databasinformation. Textbrytning har många tillämpningar inom områden som vetenskap, marknadsföring och dataorganisation.
Komplexiteten i att organisera ord i språk är mycket för extremt för datorer att hantera, men forskare har arbetat hårt för att förbättra denna typ av programmering. Många metoder har utvecklats som låter forskare identifiera fraser och upptäcka fakta om text. Detta är i allmänhet inte detsamma som att helt dechiffrera meningen, men det möjliggör genvägar som uppnår många av samma mål. Textbrytning drar nytta av några av dessa tekniker, och när denna teknik förbättras förväntas textbrytning i allmänhet förbättras somväl.
Experter använder textinformationsanalys främst för att undersöka skriftliga dokument. Stora mängder skriftliga data kan vara svåra att analysera på grund av den enorma mängden tid som krävs. Datorer kan gå igenom denna text mycket snabbare, men de kan inte förstå den. Textbrytningstekniker gör det möjligt för datorer att hitta användbara trender i text, presentera uppgifterna på ett sätt som kan avslöja nya fakta eller låta experter göra upptäckter.
Ett exempel på en användning för denna teknik skulle vara marknadsundersökningar. Experter kunde analysera sökresultaten på ett produktnamn och låta programmet leta efter fraser som uttrycker användarens känsla. På detta sätt kan de ta reda på hur människor verkligen känner för sin produkt på ett mycket detaljerat sätt. De kunde också helt enkelt leta efter sin produkt och se vilka fraser som dyker upp oftast, och detta kan hjälpa dem att utveckla nya idéer om hur man kan behaga deras anpassadeers.
En annan användning för gruvtext är att analysera vetenskapliga artiklar om liknande ämnen som letar efter nya trender eller avtal. Detta har gjort det möjligt för vissa forskare att göra prediktiva antaganden som har visat sig vara användbara inom områden som proteinanalys. Vissa experter tror att dessa typer av tillämpningar så småningom kan ge oväntade upptäckter.
En process som kallas data mining är faktiskt ganska lik gruvdrift av text, men det är i allmänhet mindre komplex att göra eftersom den förlitar sig på text som redan har formaterats i kategorier. Till exempel kan programvaran gå igenom all information för jobbsökande i en databas och leta efter trender. Textbrytning är svårare för datorer att göra eftersom ren text är svårare att analysera än data med kategorier.