收縮
logo
當前位置:首 頁 > 修士論文 > 查看文章

概要
近年日中における貿易と文化交流に伴って中國語を學習する人が増加しているま
た中國語で文書を書く機會も増加しているが中國語が母國語でない人にとって日中
辭書だけをもとに自然な中國語を作成することは困難であるしたがって中國語が母國
語でない人を対象とした自然的な中國語を効率よく作成するためのツールが求められて
いる中國語作文支援には大きく分けて日中対訳コーパスを用いる方法と中國単言語
コーパスを用いる方法があり雙方に異なる利點がある前者は新聞記事や小説など既存
の翻訳資源を利用した分野を特定したコーパスを用いるので當該分野においての訳文は
高い精度を保つしかし中國語は非常に複雑なので人手でより大規模の対訳コーパス
の構築をしなければならず時間やコストがかかる欠點がある後者は大規模なテキス
トを確保することで汎用性が確保することができるため様々な分野の文章に対して適
用することができるしかし単言語コーパスはあらゆる分野の文章を含むので訳文
の精度は低くなる
本研究ではウェブ検索エンジン内のテキストデータを大規模な中國語単言語コーパス
として用いることにより表現の一般性を検討する機能やコーパスから効率的に訳語の
用法を提示する機能を実現するシステムの提案と構築を行うさらに提案システムは
単言語コーパスの低い精度を高めるためにワイルドカード検索を用いてフレーズの候補
を列挙する機能検索結果のスニペットを利用して候補フレーズを含む例文の提示する
機能を実現した上記のような機能を利用することによりあらゆる分野の精度が高い中
國語作文作業を効率よく行うができると考えられる評価の結果中國語作文支援を行
う本手法の有効性を示すことができた
2
目次
第章 はじめに………………………………………………………………………………….. 4
第2 章 関連研究………………………………………………………………………………….. 6
2.1 中國語単言語コーパスを用いる方法……………………………………………………………… 6
2.1.1 北京大學漢語語言學研究中心CCL[1]…………………………………………………. 6
2.1.2 國家語委現代漢語コーパス[2]……………………………………………………………….. 7
2.1.3 Kiwi[3] ………………………………………………………………………………………………. 9
2.2 対訳コーパスを用いる方法………………………………………………………………………….. 9
2.2.1 日中対訳コーパス[5] ………………………………………………………………………….. 10
2.3 関連研究のまとめ……………………………………………………………………………………… 10
第3 章 検索エンジンを利用した中國語作文の検討………………………………… 12
3.1 中國語の特徴及び中國作文するときの問題點……………………………………………….. 12
3.2 フレーズ検索を用いた汎用性の調査……………………………………………………………. 13
3.3 ワイルドカード検索を使った語彙組み合わせの検討……………………………………… 14
3.4 検索結果要約テキストからの用例の參照……………………………………………………… 15
3.5 検索エンジンを利用した中國語作文の検討のまとめ……………………………………… 16
第4 章 検索エンジンを使った中國語作文支援システムの構築………………… 17
4.1 ワイルドカード検索を利用した語彙組み合わせの検討………………………………….. 17
4.1.1 ワイルドカード検索によるフレーズの抽出……………………………………………. 18
4.1.2 ワイルドカード部分の接置詞チェック………………………………………………….. 18
4.1.3 結果文書數提示による汎用性の比較……………………………………………………… 19
第5 章 システムの評価………………………………………………………………………. 20
5.1 評価方法………………………………………………………………………………………………….. 20
5.2 ワイルドカード検索を利用した表現の一般性の検討……………………………………… 20
5.3 既存のツールとの比較………………………………………………………………………………. 21
第6 章 おわりに………………………………………………………………………………… 22
參考文獻…………………………………………………………………………………………….. 23
3
第章 はじめに
近年日本企業の中國への事業展開や國際文化交流の促進により母國語を中國語と
しない日本人が中國語へ接觸する機會が増加している日本語と中國語は漢字を利用する
言語ではあるが両者の文法構造は明らかに違うしたがって日本人にとって日中辭
書だけをもとに自然な中國語を作成することは困難であるそこで効率的に自然な中國
語を作成するためのツールが求められている
中國語を作成するためのツールには日本文を入力として辭書マッチングや統計的なア
プローチを用いて自動的に中國語を生成する機械翻訳のアプローチとコーパスからの検
索によって人間の翻訳作業を支援するアプローチの通りがある
一つ目のアプローチである日中機械翻訳には文法規則に基づく手法統計的な手法
用例ベースの手法等があるがいずれも上記のニーズに応えられる精度を持っていない
主に同義語の選択の際に語の組み合わせ方を考慮しないことや格助詞の適切な使い方
などといったことが原因で直訳と呼ばれる訳文になってしまう上記のような問題を解
決し直訳でない自然な訳文を作成することができる機械翻訳を実現するには課題が多
く年月を要するそこで二つ目のアプローチであるコーパスに基づく翻訳支援に関する
研究が近年盛んに行われている[1][2][3][4]
コーパスベースによる中國語作文支援には大きく分けて単一言語コーパスを用いる方
法[1][2][3]と文対応付けがされた対訳コーパスを用いる方法[4]がある
中國語単言語コーパスを用いた研究例としてCCL[1]國家語委現代漢語語料庫[2]
Kiwi[3] などがありいずれもデータを大量に入手できるため一般に使用されている表
現かどうかを調べるのに適しているという國家語委現代漢語語料は7000萬語が登録さ
れており最大規模の中國語単言語コーパスであるしかし國家語委現代漢語語料には
語彙を検索してコーパス内での出力結果として例文を表示する形式をとっているため
ユーザーがコーパス内での出現回數や単語の用法などを直接參照できないまたKiwi で
はワイルドカード検索を用いて検索結果からフレーズの抽出を行っているがフレーズ
の一覧を表示するに留まり當該フレーズの具體的な用例などの選択基準を與えていない
一方文対応付けがされた対訳コーパスを用いた研究例として日中対訳コーパス中
日対訳語料庫[4]がある対訳コーパスを用いた手法は検索語に対応する訳語がどのよ
うに使用されているかを參照できる點や翻訳したい文と似た文を探して訳文作成の土
台として用いることができる點などがあるしかし人手による大規模な対訳コーパスの
構築が極めて困難であり半自動構築や自動構築の手法については実現していないまた
小説や詩歌などのテキストは文が非常に長く複雑な構成になっていることが多いので
4
そのまま表示したのでは検索語の訳語やその周辺を參照するために効率が悪いという問
題點がある
これらの問題に対し本研究では検索エンジン特有の機能を利用し適切な語彙選択を支
援する機能や文対応付けがされた対訳コーパスから効率的に訳語の用法を學習できる機
能を実現するシステムの提案・構築を行った具體的にはこれまでの中國単言語コーパ
スを用いた研究例ではユーザーが自身でフレーズの選択を判斷するための基準を與えてい
ないのに対しワイルドカード検索により検索結果から抽出したフレーズ候補について
検索エンジンでの出現回數を語彙選択の判斷基準として提示し適切な語彙選択を支援す
るまた機械的な対応付けがされた対訳コーパスからの検索時に検索語の訳語やその
周辺を參照するために効率が悪いという問題に対し検索語の訳語対応を自動的に取得し
訳語周辺の參照を効率的に行えるようにした以上の機能を実裝した中國語作文支援シス
テムを利用することにより効率的な中國語文書の作成が行えると考えられる
本論文は本章を含めて6 章から構成される以下第2 章では中國作文支援に関する
関連研究を述べる第3 章では本システムで利用している手作業により検索エンジンを利
用した中國語作文の検討方法について述べる第4 章では提案システムの概要と各機能
の詳細について述べる第5 章で本システムの評価考察を行う第6 章で本論文のまと
めとして今後の課題を述べる
5
第2章 関連研究
本章では中國語作文支援に関連する研究について述べる中國語作文支援のアプロー
チとして大きく分けてつのアプローチがある
単言語コーパスを用いる方法
文対応が付けられた対訳コーパスを用いる方法
単言語コーパスは大量のデータを入手できるため実際の利用例を參照したり一般
に使用されている表現かどうか調べるといった目的に利用できるしかし中國語の習熟
度が高い利用者でなければ中國語だけの例文を見てもすぐに意味を理解することができ
ないという欠點がある
対訳コーパスを用いる方法は日本語と中國語の例文を同時に參照することにより例
文中にわからない単語やフレーズがある場合もスムーズに意味を理解し利用方法を習得
できるという利點があるしかし中國語単言語コーパスに比較すると利用できるデー
タ量が圧倒的に少なく目的とする例文を発見できない場合があるという問題がある
以下本研究に関連する中國語単言語の大規模コーパスを用いる方法と機械的に対応
付けを行った対訳コーパスを用いた方法について述べ本研究の位置づけについて述べる
2.1 中國語単言語コーパスを用いる方法
中國語を母國語としない人にとって適切な語彙の組み合わせを選択し自然な中國語
作文を作成することは困難である適切な語彙の組み合わせを選択するための用例データ
ベースとして検索エンジン内の膨大なテキストデータや大量に収集した中國語文テキス
トを用いている関連研究について述べる
2.1.1 北京大學漢語語言學研究中心CCL[1]
CCLは北京大學漢語語言學研究中心が開発したコーパスである内容は新聞記事文學
芝居テレビ・映畫腳本ネット文學などのテキストを基にして規模が2008年1月11日現
在は現代漢語2億字・古代漢語8千萬字である漢字単語を入力として検索結果を効
果的に絞り込むいくつかの特別構文を用意されている文獻[1]で取り上げられている例を
以下に示す
例1「吃虧」が含まれているすべての文章を検索する場合は
吃虧
例2「吃」と「虧」が同時に含まれてまた「吃」が前に「虧」が後ろに両者の間
が一つ字の間隔を取るようにする場合は
吃+1虧
6
例3古代「明」の漢語コーパスから「所以」が含まれている文章を検索する場合は
所以 path:13明
そのうちに「13明」は中國古代明代を示す構文であるまた先頭に「path:」を指定しなけ
ればいけない
CCLでは検索キーワードの特別構文を使いより理想的な結果を得ることができるが
特別構文が複雑であるまた検索結果畫面をそのまま表示するため実際に格助詞の使
用頻度や汎用性を參照するのに非常に効率が悪いといる欠點がある

……………………………………………………….

……………………………………………………………………………………………..

由于篇幅所限,此處不能完全刊載論文全部内容,如需完整論文内容,請到本站下載頻道去下載全篇論文的完整文檔!

 日語論文免費下載>>>

這家夥很懶,什麼都沒寫!

—— 日語論文

admin
你可能也喜歡Related Posts
衆說紛纭Comments
大眼 可愛 大笑 壞笑 害羞 發怒 折磨 快哭了 大哭 白眼 暈 流汗 困 腼腆 驚訝 憨笑 色 得意 骷髅 囧 睡覺 眨眼 親親 疑問 閉嘴 難過 淡定 抗議 鄙視 豬頭
小提示:直接粘貼圖片到輸入框試試
努力發送中...
  • 評論最多
  • 最新評論
  • 随機文章
footer logo
未經許可請勿自行使用、轉載、修改、複制、發行、出售、發表或以其它方式利用本網站之内容
Copyright © Kaoku Studio All Rights Reserved. 版權所有:日語論文網
  • 備案号:京ICP備10000918号