【ハウツー】
.NET向けHTMLパーサー「Html Agility Pack」で簡単スクレイピング
1 Html Agility Packとは
2009/12/15
はじめに
アプリケーション開発をしていると、他のWebサイトの情報を活用したくなる場合があります。そのサイトがWebサービスを提供していれば問題ありませんが、大抵のWebサイトはHTMLを公開しているだけです。正規表現などを使ってHTMLを解析することも可能ですが、思いのほか手間がかかってしまいがちです。
そこで、本稿ではHtml Agility Packと呼ばれるHTMLパーサーを紹介します。Html Agility Packを利用することで、C#やVB.NETからHTML内の情報を簡単に取り出すことができます。
Html Agility Packの概要
Html Agility Pack(以下、HAP)は、CodePlexで開発されている.NET2.0以上向けのオープンソースライブラリです。HAPはHTMLをDOMに展開して、XPathによる抽出やXSLTによる変換を行うことができます。
入手するには、CodelPlexのページからダウンロードできます。ライセンスはMs-PLで、執筆時点での最新バージョンは1.40 Beta2です。ダウンロードページにはDLL本体である「HtmlAgilityPack.X.X.X.binaries.zip」の他に、ソースコード、APIドキュメント、テストツールが公開されています。
サンプルプログラム
それでは、サンプルを見ていきましょう。
![]() |
マイコミジャーナルのランキング |
マイコミジャーナルの右側にはアクセスランキングが表示されています。例として、この情報を抽出してみましょう。
Windowsフォームのボタンをクリックすると、WebサイトにアクセスしてランキングのタイトルとURLを取得します。
ヘッドライン
- IPA、OSS情報データベース「OSS iPedia」を刷新[18:55 3/19]プログラミング
- 東北大、鉄系高温超伝導体におけるディラック電子的振る舞いの観測に成功[18:05 3/19]エレクトロニクス
- 東芝、新潟県柏崎市で新型2次電池量産工場の建設を開始[17:58 3/19]エレクトロニクス
- Symbian、GCCでコンパイラ対応プロジェクト「Software Freedom Fighters」[17:49 3/19]プログラミング
- 伊藤忠商事、戸田工業と共同で北米にリチウムイオン電池正極材工場を建設[17:27 3/19]エレクトロニクス
- 昭和電工、樹脂複合材用カーボンナノチューブの量産を開始[17:04 3/19]エレクトロニクス
- 東北大、巨大超弾性歪みを有する高強度な鉄合金を開発[16:18 3/19]サイエンス
- STMicro、CryptoFirewallセキュリティ機能内蔵のSTB用SoCを開発[16:04 3/19]エレクトロニクス
- SEMI、2009年の半導体材料出荷額を発表 - 総額は前年比18.5%減の346億ドル[15:53 3/19]エレクトロニクス
- 住友大阪セメント、リチウムイオン電池向け高エネルギー密度の正極材を開発[15:37 3/19]エレクトロニクス






