ROCLING2013
I attended the "The 25th Conference in Computational Linguistics and Speech Processing (ROCLING2013)" held in Taiwan.
The title of presentation is "Selecting Proper Lexical Paraphrase for Children".
I would like to write up an outline of the study. LINK : paper, outline, slides, video
Lexical Simplification
We paraphrase difficult words used by adults into simple words for the elementary school students.
We experiment involving newspaper articles.
Word of about 200,000 types each year to appear in the newspaper articles.
Meanwhile, Word of about 30,000 types only to registered in the elementary school Japanese dictionary.
Even with a dictionary, elementary school students to understand the newspaper is difficult.
Elementary school students do not necessarily understand all of its 30,000 words of course.
The vocabulary of elementary school students mastered, Basic Vocabulary to Learn of about 5,000 words are defined.
Our study converted to its 5,000 words from 200,000 words that appear in the newspaper.
Proposed Method (Coming soon)
難しい単語から簡単な単語に変換するための手掛かりとして、国語辞典を使います。
難しい単語を国語辞典で調べると、定義文に色々と解説があります。
例えば、「教授」という語を調べると、「勉強を教える人」とか「大学の先生」とかって定義文が得られます。
この定義文の中から、「教授」と一番似ている単語を探して、「教授→先生」と言い換えます。
国語辞典では、基本的に定義文には見出しよりも簡単な語で説明がなされています。
そこで、難しい単語で国語辞典を調べて、定義文の中から言い換え先の語を探すことで、平易化しつつ言い換えることができます。
また、一番似ている単語を探す処理には、日本語WordNetという語と語の関係を定義したものを利用します。
日本語WordNetを使うと、「教授」と「勉強」がどのぐらい似ているか、「教授」と「先生」がどのぐらい似ているか、という意味の近さを数値で計ることができます。
国語辞典と日本語WordNetを組合せることで、「教授」という語の説明に必要な語の中から、「教授」と一番似ている語を見つけ、「教授→先生」と平易化しつつ言い換えることができます。
Result of Experiment (Coming soon)
新聞には20万種類の単語が使われると言いました。
また、小学国語辞典には3万語しか載っていないとも言いました。
そこで、大人向けの国語辞典など複数の国語辞典を組合せて実験を行いました。
3種類の国語辞典を使い、計27万種類をカバーできるようにして実験を行いました。
小学国語辞典を使って言い換えを行った場合は、ほとんど一回の言い換えで小学生が使いこなせる5千語へ変換することができますが、大人向けの国語辞典を使った言い換えでは、一度の変換で小学生が使いこなせる語に変換できるとは限りません。
変換を繰り返すほど単語の意味が少しずつ離れてしまうのですが、小学生が使いこなせる5千語に変換できるまで言い換えを繰り返し行なったところ、難しい単語の約7割については、上手く簡単な単語に変換することができました。