어휘 분석이란 무엇입니까?
어휘 분석은 일련의 문자 (또는 간단히 텍스트)를 가져 와서이를 토큰이라는 의미있는 그룹으로 변환하는 프로세스입니다. 이 방법론은 컴퓨터 언어 해석에서 책 분석에 이르기까지 다양한 응용 분야에서 사용됩니다. 어휘 분석은 구문 분석과 동의어가 아닙니다. 오히려 전체 구문 분석 프로세스의 첫 번째 단계이며 나중에 사용할 수 있도록 원료를 만듭니다.
어휘 분석에 필요한 문법에 따라 룩 셈스라고도하는 토큰의 빌딩 블록을 여러 가지 방법으로 생성 할 수 있습니다. 이것의 일반적인 예는 문장을 단어로 나누는 것입니다. 이것은 종종 문장을 공백 주위에 분할하여 수행됩니다. 공백없이 생성 된 각 연속 문자열은 렉 사임입니다. 텍스트 문자열은 하나 또는 여러 유형의 문자로 분할 될 수 있으므로 다양한 복잡도의 여러 버전의 어휘를 생성 할 수 있습니다. 토큰은 각 렉서스가 평가되고 해당 값과 쌍을 이룬 후에 생성됩니다. 정의에 따르면 토큰은 넥서스가 아니라이 쌍을 참조합니다.
어휘 분석은 다소 직관적으로 문맥의 텍스트 문자열을 제거합니다. 그 목적은 추후 연구를 위해 빌딩 블록을 생성하는 것이지, 그 조각이 유효한지 아닌지를 결정하는 것이 아닙니다. 컴퓨터 언어 해석의 경우, 구문 분석을 통해 유효성 검사가 수행되며 컨텍스트 또는 컨텐츠 측면에서 텍스트 유효성 검사가 수행 될 수 있습니다. 입력 문자열이 적절한 쉼표로 완전히 나뉘어 있고 각 런에 적절한 값이 있으면 분석이 성공한 것으로 간주됩니다.
컨텍스트 나 유효성 검사 기능이 없으면 어휘 분석을 사용하여 입력 오류를 찾을 수 없습니다. 어휘 문법에는 특정 렉 토스에 지정된 오류 값이있을 수 있으며 이러한 분석은 불법 또는 잘못된 토큰을 감지 할 수도 있습니다. 유효하지 않거나 잘못된 토큰을 찾는 것이 유효하지 않은 입력 신호를 나타내지 만 다른 토큰이 유효한지 여부와 관련이 없으므로 엄격하게 검증 유형이 아닙니다.
어휘 분석은 많은 알고리즘의 필수 요소이지만 의미있는 결과를 생성하기 위해 다른 방법론과 함께 사용해야하는 경우가 많습니다. 예를 들어, 빈도를 결정하기 위해 텍스트 문자열을 단어로 분할하면 lexeme 작성이 사용되지만 lexeme 작성만으로는 특정 lexeme이 입력에 나타나는 횟수를 모니터 할 수 없습니다. 어휘 자체가 중요하다면 어휘 분석은 그 자체로 유용 할 수 있지만, 많은 양의 입력으로 인해 데이터 양으로 인해 원시 어선 분석이 어려울 수 있습니다.