テキストコーパスとは何ですか?
テキストコーパスは、コーパス言語学の研究の基礎である、話された、または書かれたテキストのコレクションです。 これらの大規模なテキストバンクを保存することで、研究者はあらゆる言語のさまざまな側面を分析することができます。 テキストコーパスは、材料が収集されると、形態、構文、語彙、プラグマティクスなどのさまざまな言語関連の問題を調査するために使用できるため、研究を実施するための効率的な方法です。 言語研究を行う古い方法とは異なり、テキストコーパスは、研究者が仮説的に使用する方法ではなく、文脈で実際にどのように使用されるかに応じて言語を見ることができます。 言語学者は通常、限られた財源で限られた期間で自分自身を収集できるデータに制限しなければならなかったときよりもはるかに大きなデータサンプルにアクセスできます。
コーパスは通常、コンピューターに保存されるため、研究を容易にするためにコンピューターソフトウェアプログラムを作成できます。 テキストコープを使用する1つの一般的な方法sは、テキスト内の単語の総数をカウントし、特定の単語が表示される回数をカウントしてランク付けすることです。 合計単語の数と特定の単語の数との間に作成される比率は、ZIPFの法則として知られています。 この比率は、言語の単語頻度を説明するのに役立ちます。 ZIPFの法律を理解することで、コンピュータープログラマーが特定の言語の要求を満たすコンピューターソフトウェアを設計するのに役立ちます。 特定の単語やフレーズが入力として使用される頻度を数えて予測できます。
テキストコーパスを使用する別の方法は、研究者が勉強したい特定の要素にタグを付けることです。 これがどのように使用されるかの例は、異なるテキストジャンルにパッシブ音声が何回表示されるかを数えることです。 タグ付けは、日常生活の中で人々を支援するコンピュータープログラムを作成するのにも役立ちます。 音声認識ソフトウェア開発には、音声タグ付けが重要です。 enたとえば、グリッシュは、同じ単語がスピーチの一部を1つ以上持っている可能性があります。 多音節の単語は、スピーチのどの部分が使用されているかを示すために、しばしば異なることを強調します。 名詞の「オブジェクト」は、最初の音節にストレスをもたらしますが、動詞「オブジェクト」は2番目の音節に強調されます。 「オブジェクト」の名詞形式にタグを付けるのは、コンピュータープログラムの両方が正しく読み取られ、「オブジェクト」が人間が言ったときにそれを認識するのに役立ちます。
テキストコーパスは、人間の言語学と計算言語学の両方に役立ちます。 彼らは、人間が使用する言語を人々がよりよく理解するのに役立つ研究を実施することを可能にします。 音声認識技術で大きな飛躍が行われ、消費者がオフィス、家、車両のコンピューターを口頭で制御できるようになりました。 継続的な進歩により、人間は互いに自然にコンピューターと通信することができます。