Sematics、数学的アプローチによる日本語解析エンジン「Perceptrons」開発
2006/06/16
言語解析の専門ソフトハウスSematicsは15日、統計的確率論などの数学的アプローチによる日本語解析エンジン「Perceptrons Engine(パーセプトロン・エンジン)」を開発したと発表した。従来のような巨大な辞書を持たないので、軽量で高速な処理が可能とされ、今後ライセンス提供を行っていく考え。
Sematicsは、数学者である代表取締役会長の吹谷和雄氏が設立した企業。2004年12月に設立されたばかりの若い企業だが、「本格的に研究を始めたのは15年前から」(吹谷会長)ということで、3月に発売されたソースネクストの文書要約ソフト「ズバリ要約」には、同社の解析エンジン「Automaton Parser(オートマトン・パーサー)」が採用されたという実績もある。
同社の解析エンジンの特徴は、辞書を持たないことにある。従来手法では、形態素・係り受け・シソーラスなど、様々な辞書をデータベースとして持ち、それをもとに解析を行っていた。辞書の作成には時間やコストがかかり、検索をするために処理時間も遅いという欠点があるが、同社は統計的確率論にもとづく手法を開発。辞書を持たないので、処理速度が高速、そしてメモリやディスク容量が軽いという特徴もある。
前述のAutomaton Parserは、形態素への分割と品詞の付与を行う「形態素解析」と、形態素を文節へ統合し文節の係り受け関係を解析する「構文解析」までを行っていた。「世界でも最速と自負している」(吹谷会長)という処理速度が特徴で、1センテンスを1,000分の2秒程度で解析できるとされている。
しかし、そういった表層的な解析だけでは精度に課題が残っており、新しいPerceptrons Engineでは、形態素解析と構文解析に加え、「文脈解析」と「意味解析」を行うようになった。これにより、代名詞処理(「あれ」「それ」などが指す内容の特定)や、ゼロ代名詞処理(省略された代名詞の補間)などまで、より精度良く解析できるようになったという。
Sematicsは、同社が解析エンジン部分のみを提供し、ベンダーがアプリケーションを開発するビジネスモデルを想定している。用途としては、多言語変換や、法律相談・医療相談システム、データマイニング・テキストマイニングなどが考えられ、同社は2008年には120億円の売り上げを目指すという。
関連記事
- ソースネクスト、文書要約ソフト「ズバリ要約」を発表[2006/2/9]
関連サイト
ヘッドライン
- 【週末に読む】ネットチャンネル"おすすめ読み物系" - 3月12日〜3月19日[10:00 3/20]ネットの今
- ATOKからも移行しやすく──Google 日本語入力、辞書インポート機能強化[07:00 3/20]Webサービス
- 【レポート】表彰台には届かなかったけど、注目度は金メダル級 - Googleが見た2月[07:00 3/20]ネットの今
- 【コラム】理系のための恋愛論 第354回 恋愛上級女子を見抜くポイント[22:00 3/19]ネットの今
- 【レポート】ちょっと世界一周してくる──ニコ動に刻まれた「旅」の記録[19:00 3/19]ネットの今
- ミニブログ使用中は1割程度、半数は内容を認知 - 電通総研調べ[07:00 3/19]ネットの今
- iPhoneで手軽に投稿! pick用クライアント『pick App』 - ネイバージャパン[17:17 3/18]Webサービス
- 米Amazon、Mac用電子ブックソフト『Kindle for Mac』無償公開[15:22 3/18]ECサイト
- 【レポート】もっとも身近なクラウドサービス『Google Apps』を使ったサーバ活用術[07:00 3/18]ホスティング
- キヤノン、新gTLD「.canon」取得へ - グローバル展開に有効活用[07:00 3/17]ネットマーケティング












