コマンドラインからスクレイピングする方法
Wikipediaの「猫の品種の一覧」ページから「猫の品種」HTMLテーブルをスクレイピングして取得、CSV変換して必要なデータをフィルタする例。
Wikipediaの「猫の品種の一覧」ページから「猫の品種」HTMLテーブルをスクレイピングして取得、CSV変換して必要なデータをフィルタする例。
Web::Scraper に付属の scraperコマンドでスクレイピング。
ページ情報取得
指定した URL からタイトルとURLリンクを抽出し、CSV形式で出力するperlスクリプトです。
scraperコマンド、矢印キーで履歴検索可に。
$ sudo apt-get install libterm-readline-gnu-perl
タイトルとリンクを取得する例
my $scraper = scraper { process '//td/small/a', 'result[]' => { 'title' => 'TEXT', 'link' => '@href' }; };
入れ子にして使用。正規表現による抽出、後処理。