Vad är textbrytning?
Textbrytning är processen för att använda datorteknologi för att söka igenom textdokument för forskning och analys. Det anses ofta vara mycket likt den process som kallas data mining, men den förlitar sig på speciell programmering för att titta i okategoriserad text och hitta mening eller mönster istället för att analysera förkategoriserad databasinformation. Textbrytning har många applikationer inom områden som vetenskap, marknadsföring och dataorganisation.
Komplexiteten i att organisera ord till språk är mycket för extrem för datorer att hantera, men forskare har arbetat hårt för att förbättra den här typen av programmering. Många metoder har utvecklats som låter forskare identifiera fraser och upptäcka fakta om text. Detta är i allmänhet inte detsamma som att helt avkoda betydelsen, men det möjliggör genvägar som uppnår många av samma mål. Textbrytning utnyttjar vissa av dessa tekniker, och eftersom denna teknik förbättras förväntas textbrytning i allmänhet också förbättras.
Experter använder analys av textinformation främst för att undersöka skriftliga dokument. Stora mängder skrivna data kan vara svåra att analysera på grund av den enorma tid som krävs. Datorer kan gå igenom den här texten mycket snabbare, men de kan inte förstå den. Tekstbrytningstekniker gör det möjligt för datorer att hitta användbara trender i text, presentera data på ett sätt som kan avslöja nya fakta eller låta experter göra upptäckter.
Ett exempel på användning för denna teknik skulle vara marknadsundersökningar. Experter kan analysera sökresultaten på ett produktnamn och låta programmet leta efter fraser som uttrycker användarens känsla. På detta sätt kan de få reda på hur människor verkligen känner för sin produkt på ett mycket detaljerat sätt. De kunde också helt enkelt leta efter sin produkt och se vilka fraser som dyker upp oftast, och det kan hjälpa dem att utveckla nya idéer om hur de kan glädja sina kunder.
En annan användning för gruvtekst är att analysera vetenskapliga artiklar om liknande ämnen som letar efter nya trender eller avtal. Detta har gjort det möjligt för vissa forskare att göra förutsägbara antaganden som har visat sig vara användbara inom områden som proteinanalys. Vissa experter tror att dessa typer av applikationer så småningom kan ge oväntade upptäckter.
En process som kallas data mining är faktiskt ganska lik gruvdrift av text, men det är i allmänhet mindre komplicerad att göra eftersom den förlitar sig på text som redan har formaterats i kategorier. Till exempel kan programvaran gå igenom all information för arbetssökande i en databas och leta efter trender. Textbrytning är svårare för datorer eftersom ren text är svårare att analysera än data med kategorier.