Was ist Lexikalische Analyse?

Lexikalische Analyse ist der Prozess, bei dem eine Zeichenfolge - oder einfacher gesagt, Text - in sinnvolle Gruppen umgewandelt wird, die als Token bezeichnet werden. Diese Methode wird in einer Vielzahl von Anwendungen eingesetzt, von der Interpretation von Computersprachen bis zur Analyse von Büchern. Lexikalische Analyse ist nicht gleichbedeutend mit Parsen. Es ist vielmehr der erste Schritt des gesamten Parsing-Prozesses und es wird Rohmaterial für die spätere Verwendung erzeugt.

Die Bausteine ​​von Tokens, auch Lexeme genannt, können in Abhängigkeit von der für die lexikalische Analyse erforderlichen Grammatik auf verschiedene Arten generiert werden. Ein häufiges Beispiel hierfür ist das Teilen von Sätzen durch Wörter. Dies geschieht häufig durch Aufteilen von Sätzen um Leerzeichen. Jede fortlaufende Zeichenfolge, die ohne Leerzeichen generiert wird, ist ein Lexem. Textzeichenfolgen können auf eine oder mehrere Arten von Zeichen aufgeteilt werden, wodurch mehrere Versionen von Lexemen mit unterschiedlicher Komplexität erstellt werden. Token werden generiert, nachdem jedes Lexem ausgewertet und mit seinem entsprechenden Wert gepaart wurde. per definitionem beziehen sich Tokens auf diese Paarung, nicht nur auf das Lexem.

Die lexikalische Analyse entzieht eine Textzeichenfolge ihrem Kontext. Sie dient nur dazu, Bausteine ​​für das weitere Studium zu generieren und nicht um festzustellen, ob diese Teile gültig oder ungültig sind. Bei der Interpretation von Computersprachen erfolgt die Validierung durch Syntaxanalyse, und die Validierung von Text kann in Bezug auf Kontext oder Inhalt erfolgen. Wenn eine Eingabezeichenfolge vollständig in geeignete Lexeme unterteilt ist und jedes dieser Lexeme einen geeigneten Wert hat, wird die Analyse als erfolgreich angesehen.

Ohne Kontext oder die Fähigkeit zur Validierung kann die lexikalische Analyse nicht zuverlässig zum Auffinden von Eingabefehlern verwendet werden. Eine lexikalische Grammatik kann Fehlerwerte aufweisen, die bestimmten Lexemen zugewiesen sind, und eine solche Analyse kann auch illegale oder fehlerhafte Token erkennen. Das Auffinden eines illegalen oder falsch formatierten Tokens signalisiert zwar eine ungültige Eingabe, hat jedoch keinen Einfluss darauf, ob die anderen Tokens gültig sind, und ist daher keine reine Art der Validierung.

Obwohl die lexikalische Analyse ein wesentlicher Bestandteil vieler Algorithmen ist, muss sie häufig in Verbindung mit anderen Methoden verwendet werden, um aussagekräftige Ergebnisse zu erzielen. Wenn Sie beispielsweise eine Textzeichenfolge in Wörter aufteilen, um Häufigkeiten zu bestimmen, wird die Lexem-Erstellung verwendet. Die Lexem-Erstellung allein kann jedoch nicht überwachen, wie oft ein bestimmtes Lexem in der Eingabe erscheint. Die lexikalische Analyse kann für sich genommen nützlich sein, wenn die Lexeme selbst von Bedeutung sind, aber große Mengen an Eingaben können die Analyse von unformatierten Lexemen aufgrund des Datenvolumens schwierig machen.

ANDERE SPRACHEN

War dieser Artikel hilfreich? Danke für die Rückmeldung Danke für die Rückmeldung

Wie können wir helfen? Wie können wir helfen?