Cos'è l'analisi lessicale?

L'analisi lessicale è il processo di assunzione di personaggi - o, più semplicemente, testo - e di convertirla in gruppi significativi chiamati token. Questa metodologia ha usi in un'ampia varietà di applicazioni, dall'interpretazione dei linguaggi informatici all'analisi dei libri. L'analisi lessicale non è sinonimo di analisi; Piuttosto, è il primo passo del processo di analisi totale e crea materia prima per un uso successivo.

I blocchi di costruzione di token, chiamati anche lexemi, possono essere generati in molti modi, a seconda della grammatica richiesta per l'analisi lessicale. Un esempio comune di ciò è dividere le frasi di parole; Questo viene spesso fatto dividendo frasi negli spazi. Ogni stringa continua di caratteri generati senza spazi è un lessema. Le stringhe di testo possono essere divise su uno o molti tipi di caratteri, creando più versioni di lexemi con varia complessità. I token vengono generati dopo che ogni lesseme è stato valutato e abbinato al suo valore corrispondente; diDefinizione, i token si riferiscono a questo accoppiamento, non solo al lexeme.

Analisi lessicale, in qualche modo contro-intuitivamente, stringe una stringa di testo del suo contesto. Il suo scopo è solo quello di generare blocchi per ulteriori studi, non determinare se tali pezzi sono validi o non validi. Nel caso dell'interpretazione del linguaggio del computer, la convalida viene effettuata mediante analisi di sintassi e la convalida del testo può essere eseguita in termini di contesto o contenuto. Se una stringa di input è completamente divisa in lexemi appropriati e ciascuno di questi lexemi ha un valore adeguato, l'analisi è considerata efficace.

Senza contesto o capacità di eseguire la convalida, l'analisi lessicale non può essere utilizzata in modo affidabile per trovare errori nell'input. Una grammatica lessicale potrebbe avere valori di errore assegnati a lexemi specifici e tale analisi può anche rilevare token illegali o malformati. Sebbene trovare un token illegale o malformatoAll'input non valido, non ha alcuna influenza sul fatto che gli altri token siano validi e quindi non è strettamente un tipo di convalida.

Sebbene l'analisi lessicale sia parte integrante di molti algoritmi, deve spesso essere utilizzata insieme ad altre metodologie per creare risultati significativi. Ad esempio, dividere una stringa di testo in parole per determinare le frequenze utilizza la creazione del lesseme, ma la creazione lesseme da sola non può monitorare il numero di volte in cui un particolare lesseme appare in input. L'analisi lessicale potrebbe essere utile da sola se i lexemi stessi sono degni di nota, ma grandi quantità di input potrebbero rendere difficile l'analisi dei lexemi grezzi a causa del volume dei dati.

ALTRE LINGUE

Questo articolo è stato utile? Grazie per il feedback Grazie per il feedback

Come possiamo aiutare? Come possiamo aiutare?