Java用のHTMLパーサ・ライブラリ「HTMLParser 1.5」リリース
2005/06/15
HTMLParserプロジェクトは14日(現地時間)、Java用のHTMLパーサ・ライブラリであるHTMLParserのバージョン1.5を公開した。HTMLParserは、Javaを用いてHTMLの構文解析プログラムを作成するためのライブラリで、高速でシンプルな実装を提供する。
今回公開されたバージョン1.5では、1.4から以下の点が変更された。
- SAXパーサの追加
- HTTP接続のためのhttpパッケージの追加
- CDATAを取り出すためのparseCDATAメソッドをLexerクラスへ追加
- Translateクラスをhtmllexer.jarから分離
- Windows用バッチファイルの修正
- build.xmlファイルの修正
- LinkProcessorを非推奨にし、Pageクラスへ移行
- lexer.nodesパッケージを廃止し、ノード関連の実装クラスはnodesパッケージへ追加
- tags.Tagクラスを廃止してTagNodeクラスへ統合
- Objectタグを表すObjectTagクラスの追加
- CSS2セレクタのためのCssSelectorNodeFilterの追加
- 正規表現をサポートするRegexFilterの追加
- Linkタグ対応のLinkRegexFilterおよびLinkStringFilterの追加
- フィルタビルドツール(filterbuilder.jar)の追加
- 各種バグの修正
HTMLParserでは、HTMLパーサとしての機能はhtmllexer.jarとhtmlparser.jarの2つのライブラリで提供される。htmllexer.jarではHTMLページをタグで分解して順次アクセスする方法が用意されており、htmlparser.jarではそれに加えてタグノードの入れ子情報なども利用することができるようになっている。また、今回新たに追加されたfilterbuilder.jarは、ノードフィルタを自作するためのGUIプログラムを提供する。
プログラマは、htmllexer.jarやhtmlparser.jarをクラスパスに含めることで自作のHTMLパーサを容易に作成することができるようになる。また、LexerクラスやParserクラスはそれ自身でmainメソッドを持つため、そのまま簡易なHTMLパーサとして利用することもできる。HTMLParserのリリースにはそのためのシェルスクリプトやWindows用のバッチファイルも含まれている。
関連記事
- Javaのコアクラスを扱うユーティリティ群 - Commons Lang 2.1公開[2005/6/14]
- JAXBの使い勝手を向上させる: JAXB Workshop1.1公開[2005/6/14]
- JavaアプリケーションのログをRSSで配信 - Log4rss[2005/6/13]
- Yet Another Java Profiler - Javaプログラムの動きを可視化[2005/6/13]
- 新しいSOAP実装の実現 - Apache Axis2-M2公開[2005/6/9]
- JavaのGUIをXMLから生成する gui4j 1.1公開[2005/6/9]
- WebObjects 5.3リリース - EOModelerがXcodeに統合、HTML 4.0.1をサポート[2005/6/7]
- JSFでAjaxを簡単に実現 - AjaxFaces 1.0公開[2005/6/7]
関連サイト
ヘッドライン
- Opera 10.5、ACID3に100/100パス[16:26 2/10]JavaScript / CSS / HTML
- FirePHPでPHPプログラミングを便利にする方法[14:03 2/10]プログラミング
- Active Directory誕生10周年記念セミナーが2月27日に開催[12:26 2/10]システム管理
- NEC、サイオスら、自動バックアップバック「TWIN NAS 2TB パック」発表[11:45 2/10]システム管理
- グレープシティ、"Excel機能"を提供する.NETコンポーネントの新版発表[11:22 2/10]プログラミング
- トレンドマイクロ、USBメモリ型ウイルス検索製品「Portable Security」発表[10:42 2/10]セキュリティ
- 【コラム】FileMaker×PHPで作る、簡単・便利なWebアプリ 第49回 結果セットの取扱いに特化したクラス、FileMaker_ResultSet(2)[10:18 2/10]プログラミング
- CSS/HTMLリファレンスマニュアル、最新ブラウザ互換情報[09:00 2/10]JavaScript / CSS / HTML
- 【レビュー】BOOK REVIEW - 現場に振り回されるだけのSE人生がイヤならチカラをつけよう[09:00 2/10]SE力
- 【レポート】暗号2010年問題に向け「いつまでに何をすべきか」 - ベリサインが説明[08:00 2/10]セキュリティ








