マイコミジャーナル

知りたい!を刺激する総合専門サイト


  1. ネット

  2. ニュース

Sematics、数学的アプローチによる日本語解析エンジン「Perceptrons」開発

2006/06/16

大塚実

言語解析の専門ソフトハウスSematicsは15日、統計的確率論などの数学的アプローチによる日本語解析エンジン「Perceptrons Engine(パーセプトロン・エンジン)」を開発したと発表した。従来のような巨大な辞書を持たないので、軽量で高速な処理が可能とされ、今後ライセンス提供を行っていく考え。

Sematics代表取締役会長の吹谷和雄氏

従来技術との違い。辞書を持たないのが特徴

Sematicsは、数学者である代表取締役会長の吹谷和雄氏が設立した企業。2004年12月に設立されたばかりの若い企業だが、「本格的に研究を始めたのは15年前から」(吹谷会長)ということで、3月に発売されたソースネクストの文書要約ソフト「ズバリ要約」には、同社の解析エンジン「Automaton Parser(オートマトン・パーサー)」が採用されたという実績もある。

同社の解析エンジンの特徴は、辞書を持たないことにある。従来手法では、形態素・係り受け・シソーラスなど、様々な辞書をデータベースとして持ち、それをもとに解析を行っていた。辞書の作成には時間やコストがかかり、検索をするために処理時間も遅いという欠点があるが、同社は統計的確率論にもとづく手法を開発。辞書を持たないので、処理速度が高速、そしてメモリやディスク容量が軽いという特徴もある。

前述のAutomaton Parserは、形態素への分割と品詞の付与を行う「形態素解析」と、形態素を文節へ統合し文節の係り受け関係を解析する「構文解析」までを行っていた。「世界でも最速と自負している」(吹谷会長)という処理速度が特徴で、1センテンスを1,000分の2秒程度で解析できるとされている。

Automaton Parserでの解析処理。構文解析までを行う

こちらは新エンジン「Perceptrons Engine」の処理

しかし、そういった表層的な解析だけでは精度に課題が残っており、新しいPerceptrons Engineでは、形態素解析と構文解析に加え、「文脈解析」と「意味解析」を行うようになった。これにより、代名詞処理(「あれ」「それ」などが指す内容の特定)や、ゼロ代名詞処理(省略された代名詞の補間)などまで、より精度良く解析できるようになったという。

Sematicsは、同社が解析エンジン部分のみを提供し、ベンダーがアプリケーションを開発するビジネスモデルを想定している。用途としては、多言語変換や、法律相談・医療相談システム、データマイニング・テキストマイニングなどが考えられ、同社は2008年には120億円の売り上げを目指すという。

事例1。質問を自然な文章形式で入力できる

事例2のマイニング。顧客満足度を向上させる

関連サイト


画像で見るニュース(ネット)

特別企画

注目情報


特設サイトの必見情報



注目サイト