Hva er leksikalsk analyse?

Leksikalsk analyse er prosessen med å ta en streng med tegn - eller, enklere, tekst - og konvertere den til meningsfulle grupper kalt tokens. Denne metodikken har bruksområder i en rekke bruksområder, fra tolking av dataspråk til analyse av bøker. Leksikalsk analyse er ikke synonymt med parsing; snarere er det første trinn i den totale parsingsprosessen, og den lager råstoff for senere bruk.

Byggesteinene til symboler, også kalt lexemes, kan genereres på mange måter, avhengig av grammatikken som kreves for leksikalsk analyse. Et vanlig eksempel på dette er å dele opp setninger med ord; Dette gjøres ofte ved å dele setninger rundt mellomrom. Hver kontinuerlig streng med tegn som genereres uten mellomrom, er et leksem. Tekststrenger kan deles på en eller mange typer figurer, og skaper flere versjoner av lexemer med ulik kompleksitet. Tokens genereres etter at hvert leksem er evaluert og parret med den tilsvarende verdien; per definisjon refererer tokens til denne sammenkoblingen, ikke bare lexeme.

Leksikalsk analyse, noe motintuitivt, striper en tekststreng av konteksten. Formålet er bare å generere byggesteiner for videre studier, ikke for å avgjøre om disse delene er gyldige eller ugyldige. Ved tolkning av dataspråk blir validering gjort ved syntaksanalyse, og validering av tekst kan gjøres når det gjelder kontekst eller innhold. Hvis en inngangsstreng er fullstendig delt inn i passende leksemer og hver av disse leksemene har en passende verdi, anses analysen som vellykket.

Uten kontekst eller evnen til å utføre validering, kan ikke leksikalsk analyse brukes pålitelig for å finne feil i input. En leksikalsk grammatikk kan ha feilverdier tilordnet spesifikke leksemer, og slik analyse kan også oppdage ulovlige eller misdannede symboler. Selv om det å finne et ulovlig eller misdannet token signaliserer ugyldig input, har det ingen betydning for om de andre symbolene er gyldige, og det er derfor ikke en valideringstype.

Selv om leksikalsk analyse er en integrert del av mange algoritmer, må den ofte brukes sammen med andre metoder for å skape meningsfulle resultater. Hvis du for eksempel deler en tekststreng i ord for å bestemme frekvenser, brukes det lexeme-oppretting, men lexeme-opprettelse alene kan ikke overvåke antall ganger et bestemt lexeme vises i input. Leksikalsk analyse kan være nyttig på egen hånd hvis leksemene i seg selv er av oppmerksomhet, men store mengder innspill kan gjøre analyse av rå lexemer vanskelig på grunn av datamengden.

ANDRE SPRÅK

Hjalp denne artikkelen deg? Takk for tilbakemeldingen Takk for tilbakemeldingen

Hvordan kan vi hjelpe? Hvordan kan vi hjelpe?