¿Qué es el análisis léxico?

El análisis léxico es el proceso de tomar una cadena de caracteres, o, más simplemente, texto, y convertirlo en grupos significativos llamados tokens. Esta metodología tiene usos en una amplia variedad de aplicaciones, desde la interpretación de lenguajes de computadora hasta el análisis de libros. El análisis léxico no es sinónimo de análisis; Más bien, es el primer paso del proceso de análisis total, y crea materia prima para su uso posterior.

Los bloques de construcción de tokens, también llamados lexemas, pueden generarse de muchas maneras, dependiendo de la gramática requerida para el análisis léxico. Un ejemplo común de esto es dividir oraciones con palabras; Esto se hace con frecuencia dividiendo oraciones alrededor de los espacios. Cada cadena continua de caracteres generados sin espacios es un lexeme. Las cadenas de texto se pueden dividir en uno o muchos tipos de caracteres, creando múltiples versiones de lexemas con una complejidad variable. Los tokens se generan después de que cada lexema haya sido evaluado y emparejado con su valor correspondiente; porDefinición, los tokens se refieren a este emparejamiento, no solo al lexeme.

El análisis léxico, algo contradictorio, elimina una cadena de texto de su contexto. Su propósito es solo generar bloques de construcción para su posterior estudio, no determinar si esas piezas son válidas o no válidas. En el caso de la interpretación del lenguaje informático, la validación se realiza mediante análisis de sintaxis, y la validación del texto se puede hacer en términos de contexto o contenido. Si una cadena de entrada se divide completamente en lexemas apropiados y cada uno de esos Lexemes tiene un valor apropiado, el análisis se considera exitoso.

Sin contexto o la capacidad de realizar la validación, el análisis léxico no puede usarse de manera confiable para encontrar errores en la entrada. Una gramática léxica puede tener valores de error asignados a lexemas específicos, y dicho análisis también puede detectar tokens ilegales o malformados. Aunque encontrar un token ilegal o malformado firmaEn entrada no válida, no tiene relación con si los otros tokens son válidos, por lo que no es estrictamente un tipo de validación.

Aunque el análisis léxico es una parte integral de muchos algoritmos, a menudo debe usarse junto con otras metodologías para crear resultados significativos. Por ejemplo, dividir una cadena de texto en palabras para determinar las frecuencias hace uso de la creación de lexeme, pero la creación de lexeme por sí sola no puede monitorear el número de veces que aparece un lexeme particular en la entrada. El análisis léxico puede ser útil por sí solo si los lexemas son notables, pero las grandes cantidades de entrada pueden dificultar el análisis de los lexemas crudos debido al volumen de datos.

.

OTROS IDIOMAS