Hva er lydgruvedrift?

Audio mining brukes vanligvis i programvare for talegjenkjenning og musikkanalyse. Denne teknologien gir brukeren muligheten til å søke gjennom tale- eller musikklyd som er analysert for spesifikke egenskaper. Når det brukes i talegjenkjenningsteknologi, identifiserer lydbryting talte ord i lyden og plasserer dem i en søkbar fil. Denne funksjonen kan være nyttig for studenter eller de i forretningsverdenen som deltar på mange møter fordi den lar brukeren lettere bla gjennom aktuell informasjon fra talepresentasjoner. Denne typen analyse kan også brukes i musikk for å bestemme egenskaper som bps per minutt (BPM), musikalsk nøkkel og musikalsk struktur, informasjon som brukes til å klassifisere musikk.

I talegjenkjenning, der teknologien oftest brukes, brukes lydgruvedrift for å lage en akustisk modell. En akustisk modell programmerer programvare for talegjenkjenning for å gjenkjenne talemønstre som ord. Denne teknologien er utviklet ved lydbryting av en innspilling av en muntlig frase, som sammenlignes med tekst som samsvarer med den talte frasen. Datamaskinen bruker informasjonen til å gjenkjenne ord når brukeren lager lignende lyder som i den akustiske modellen. En akustisk modell brukes i kombinasjon med en fil som forteller talegjenkjenningsprogrammet hvilket språk man skal tolke og hvilke mønstre av ord som sannsynligvis vil bli snakket i visse setninger og situasjoner.

Musikere og musikklyttere kan begge dra nytte av lydbryting i musikk. Noen ganger bruker musikkprogramvare som kategoriserer musikk etter sjanger lydbryting for å organisere musikken. Prosessen identifiserer og grupperer musikkfiler med lydlikheter som ofte forekommer i musikalske sjangre. Selv om denne teknologien kan gjøre organisering av musikk og finne ny musikk enklere, kan den gjøre feil ved å klassifisere sanger som har samme målte egenskaper, men som har en generell lyd. Programvare for lydanalyse kan være nyttig for musikere, spesielt komponister, fordi det lar komponisten hoppe til bestemte deler av sangstrukturen, inkludert musikalske nøkkelendringer og ord i tekstene.

Produsenten av talegjenkjenningsprogrammet Dragon® selger et program som heter AudioMining® som transkriberer lydfiler og markerer filene slik at de kan søkes etter tekst. Dragon er en produsent av datalinguistikk-programmer, den tekniske betegnelsen for programvaren som er designet for å tolke tale. Når lyd brukes, er det et generelt begrep som refererer til å analysere en lydfil for et bestemt sett med lydegenskaper. Andre produsenter av audio mining-programvare inkluderer Nuance® og Nexidia®.

Hva er lydgruvedrift?

Hjalp denne artikkelen deg?