語彙分析とは何ですか?
語彙分析とは、一連の文字列(より簡単にテキスト)を取得し、それをトークンと呼ばれる意味のあるグループに変換するプロセスです。この方法論には、コンピューター言語の解釈から書籍の分析まで、さまざまなアプリケーションで使用されています。語彙分析は、解析と同義ではありません。むしろ、それは総解析プロセスの最初のステップであり、後で使用するための原材料を作成します。
語彙分析に必要な文法に応じて、レクセムとも呼ばれるトークンのビルディングブロックは、多くの方法で生成できます。この一般的な例は、言葉で文章を分割することです。これは、スペースの周りに文を分割することによって頻繁に行われます。スペースなしで生成された各連続的な文字列は語彙用です。テキスト文字列は、1つまたは多くの種類の文字で分割でき、複雑さが異なるレクセムの複数のバージョンを作成できます。トークンは、各語彙体が評価され、対応する値とペアになった後に生成されます。による定義では、トークンは語彙素だけでなく、このペアリングを指します。
語彙分析は、やや直感的には、そのコンテキストのテキスト文字列をストリップします。その目的は、それらのピースが有効か無効かを判断するのではなく、さらなる研究のためにビルディングブロックを生成することだけです。コンピューター言語の解釈の場合、検証は構文分析によって行われ、テキストの検証はコンテキストまたはコンテンツの観点から実行できます。入力文字列が適切なlexemesに完全に分割され、それらのそれぞれが適切な値を持っている場合、分析は成功していると見なされます。
コンテキストまたは検証を実行する機能がないと、語彙分析を確実に使用して入力のエラーを見つけることはできません。語彙文法には、特定の語彙素に割り当てられたエラー値がある場合があり、そのような分析は違法または不正なトークンを検出することもできます。違法または奇形のトークンを見つけることが署名しますが入力が無効になっているため、他のトークンが有効であるかどうかに関係がないため、厳密には検証のタイプではありません。
語彙分析は多くのアルゴリズムの不可欠な部分ですが、意味のある結果を作成するには、他の方法論と併用することがよくあります。たとえば、テキスト文字列を単語に分割して周波数を決定すると、語レクサムの作成が使用されますが、語レクサメの作成だけでは、特定の語彙素が入力に表示される回数を監視できません。語彙分析は、語彙体自体が注目すべき場合、それ自体が有用かもしれませんが、大量の入力は、データの量のために生の語彙素の分析を困難にするかもしれません。