筑波大学
日本語 English

柳田優子のホームページ

苔

日本語歴史コーパス(CHJ)

8月4日にテキサス大学で開催されたICHL23のワークショップ(Alignment Typology in Diachronic Perspective, Genitive/active to nominative case in Japanese: the role of complex experiencer constructions)で発表しました。今回の発表では,国立国語研究所で公開されている「日本語歴史コーパス(CHJ)」を使用し,源氏物語(11世紀),虎明本狂言(1642)のテキストから主語「が」の変化を調査しました。CHJが公開されて,統語論を専門にしている私たちでも,仮説や理論を検証することが可能になり,このコーパスの存在は「画期的」だと思います。ただ,データを完全に抽出するのは困難です。CHJは形態素情報が付加されていますが,統語情報はないので,たとえば,名詞(主語)「が」と動詞の関係を調べようとしたとき,名詞「が」が動詞に隣接していれば,データが取れますが,離れているとデータは取れません。非対格主語「が」の場合は動詞に隣接している場合が多いですが,他動詞の主語「が」は目的語や副詞が動詞との間に入る場合が多いので,他動詞,非能格,非対格動詞と主語「ガ」の分布をどう調べようか試行錯誤した結果,本研究では,以下のように調べました。まず,キーを「動詞」にします。そして,前方共起条件10語以内に語彙素「が」を指定します。虎明本狂言では6826例も出てきてしまいます。このときに,名詞「が」と「動詞」の頻度が出てくればよいですが,色々な「が」が出てきてしまい,一つ一つ見ていくには膨大な時間がかかりますので,まず,6826例から頻度の高い動詞を並べ替えて取り出します。その動詞群に対して,名詞「が」以外を削除していきます。名詞「が」が主語であることを確認して,残った動詞群を他動詞,非能格動詞,非対格動詞にひとつひとつ分けていきます。エクセルを使うと簡単にデータが並べられます。最後に,取り出した動詞の全体の頻度を調べます。このテキスト全体の動詞の3つのタイプの頻度を知るためです。この方法でやると,手作業は多いですが,1ヶ月くらいでデータは取り出せます。ただ,問題は頻度の高い動詞の中に「言う」など「と」節を取る動詞があります。この場合,前後の文脈がわからないと,「名詞が」が「言う」の主語なのか,従属節内の動詞の主語なのか,わかりません。そこで,「と」節をとる「言う」などの動詞はすべて排除しました。完全なデータは取り出せませんが,それぞれの動詞に対して条件は同じなので,おそらく,統計的には,かなり正確な頻度であると思います。このような作業でデータを取ることは,コーパスがなければ不可能なので,この歴史コーパスの存在は,研究ツールとして画期的で,日本語歴史研究に生成統語論や言語類型論の専門の人が入ってきてくれるのではと期待しています。

 

トップへ戻るボタン