텍스트 코퍼스 란?

텍스트 코퍼스는 코퍼스 언어학 연구의 기초가되는 말이나 글로 된 텍스트 모음입니다. 이처럼 큰 텍스트 뱅크를 저장하면 연구원은 모든 언어의 다양한 측면을 분석 할 수 있습니다. 텍스트 모음은 일단 자료가 수집되면 형태, 구문, 어휘 및 실용을 포함한 다양한 언어 관련 문제를 조사하는 데 사용될 수 있기 때문에 연구를 수행하는 효율적인 방법입니다. 언어 연구를 수행하는 오래된 방법과 달리, 텍스트 코퍼스 (text corpus)를 통해 연구자들은 가상의 실제 사용 방식이 아니라 실제 상황에서 사용되는 방식에 따라 언어를 살펴볼 수 있습니다. 언어 학자들은 일반적으로 제한된 재정 자원으로 제한된 기간 내에 스스로 수집 할 수있는 데이터로 자신을 제한해야 할 때보 다 훨씬 더 큰 데이터 샘플에 액세스 할 수 있습니다.

Corpora는 일반적으로 컴퓨터에 저장되므로 연구를 용이하게하기 위해 컴퓨터 소프트웨어 프로그램을 만들 수 있습니다. 텍스트 모음을 사용하는 한 가지 일반적인 방법은 텍스트의 총 단어 수를 세고 특정 단어가 나타난 횟수를 세고 순위를 매기는 것입니다. 총 단어 수와 특정 단어 사이에 생성되는 비율을 Zipf의 법칙이라고합니다. 이 비율은 언어의 단어 빈도를 설명하는 데 도움이됩니다. Zipf의 법칙을 이해하면 컴퓨터 프로그래머는 주어진 언어의 요구를 충족시키는 컴퓨터 소프트웨어를 설계 할 수 있습니다. 특정 단어와 문구가 입력으로 사용되는 빈도를 세고 예측할 수 있습니다.

텍스트 코퍼스를 사용하는 또 다른 방법은 연구자가 연구하고자하는 특정 요소에 태그를 지정하는 것입니다. 이 방법을 사용하는 예는 수동 텍스트가 다른 텍스트 장르에 몇 번 나타나는지 계산하는 것입니다. 태깅은 일상 생활에서 사람들을 돕는 컴퓨터 프로그램을 만드는 데 유용했습니다. 품사 태깅은 음성 인식 소프트웨어 개발에 매우 중요합니다. 예를 들어 영어에서는 같은 단어에 여러 부분이있을 수 있습니다. 다음 절 단어는 종종 어떤 말이 사용되고 있는지를 나타 내기 위해 다르게 강조됩니다. 명사“객체”는 첫 번째 음절에 스트레스를 주지만 동사“객체”는 두 번째 음절에 스트레스를줍니다. 명사 형태의 "객체"에 태그를 지정하면 컴퓨터 프로그램이 사람이 "객체"를 말할 때이를 올바르게 읽고 인식하는 데 도움이됩니다.

텍스트 코포라는 인간 언어학과 계산 언어에 모두 유용합니다. 그들은 사람들이 사용하는 언어를 더 잘 이해하고 컴퓨터 사용 언어를 개발하는 데 도움이되는 연구를 수행 할 수 있습니다. 소비자가 사무실, 가정 및 차량의 컴퓨터를 구두로 제어 할 수 있도록 음성 인식 기술이 크게 향상되었습니다. 지속적인 발전은 인간이 서로 자연스럽게 컴퓨터와 통신 할 수있게합니다.

텍스트 코퍼스 란?

이 문서가 도움이 되었나요?