Co to jest analiza leksykalna?
Analiza leksykalna to proces przyjmowania serii znaków - lub, bardziej, tekstu - i przekształcania go w znaczące grupy zwane tokenami. Metodologia ta ma zastosowanie w wielu różnych aplikacjach, od interpretacji języków komputerowych po analizę książek. Analiza leksykalna nie jest synonimem analizowania; Jest to raczej pierwszy krok całkowitego procesu analizowania i tworzy surowiec do późniejszego użycia.
Bloki składowe tokenów, zwanych również leksemami, można generować na wiele sposobów, w zależności od gramatyki wymaganej do analizy leksykalnej. Wspólnym przykładem tego jest podział zdań według słów; Często odbywa się to poprzez podzielenie zdań wokół przestrzeni. Każdy ciągły ciąg znaków generowanych bez spacji jest leksemem. Sznurki tekstowe można podzielić na jeden lub na wielu typach znaków, tworząc wiele wersji Lexemes o różnej złożoności. Tokeny są generowane po ocenie i sparowaniu każdego lexeme z odpowiednią wartością; przezDefinicja, tokeny odnoszą się do tej parowania, nie tylko leksykalnej analizy
, nieco przeciwnie, nakłada ciąg tekstowy. Jego celem jest jedynie generowanie bloków konstrukcyjnych do dalszych badań, a nie ustalenie, czy te elementy są ważne czy nieprawidłowe. W przypadku interpretacji języka komputerowego walidacja odbywa się według analizy składni, a sprawdzanie poprawności tekstu można wykonać pod względem kontekstu lub treści. Jeśli ciąg wejściowy jest całkowicie podzielony na odpowiednie lexeme, a każdy z tych lexemów ma odpowiednią wartość, analiza jest uważana za skuteczną.
Bez kontekstu lub możliwości przeprowadzania walidacji analizy leksykalnej nie można niezawodnie wykorzystać do znalezienia błędów w wejściu. Gramatyka leksykalna może mieć wartości błędów przypisane do określonych leksemów, a taka analiza może również wykryć nielegalne lub zniekształcone tokeny. Chociaż znalezienie nielegalnego lub zniekształconego tokena podpisujeAl Nieprawidłowe dane wejściowe, nie ma wpływu na to, czy inne tokeny są prawidłowe, więc nie jest to ściśle rodzaj sprawdzania poprawności.
Chociaż analiza leksykalna jest integralną częścią wielu algorytmów, często należy ją stosować w połączeniu z innymi metodologią, aby stworzyć znaczące wyniki. Na przykład podział ciąg tekstu na słowa w celu określenia częstotliwości wykorzystuje tworzenie Lexeme, ale samo tworzenie Lexeme nie może monitorować liczby razy, gdy konkretny Lexeme pojawia się na wejściu. Analiza leksykalna może być przydatna, jeśli same lexeme są zauważalne, ale duże ilości danych wejściowych mogą utrudnić analizę surowych lexemów z powodu objętości danych.