コマンドラインからスクレイピングする方法
Wikipediaの「猫の品種の一覧」ページから「猫の品種」HTMLテーブルをスクレイピングして取得、CSV変換して必要なデータをフィルタする例。 Read more about コマンドラインからスクレイピングする方法
Wikipediaの「猫の品種の一覧」ページから「猫の品種」HTMLテーブルをスクレイピングして取得、CSV変換して必要なデータをフィルタする例。 Read more about コマンドラインからスクレイピングする方法
$ cat table.html
<table>
<tr>
<th>都道府県</th>
<th>テレビ局のYouTube公式チャンネル</th>
</tr>
<tr>
<td>北海道</td>
<td>HTB北海道テレビ</td>
</tr>
<tr> Read more about HTMLテーブルをスクレイプしてCSVに出力する汎用rubyスクリプト
Web::Scraper に付属の scraperコマンドでスクレイピング。
ページ情報取得
$ scraper 'https://ja.wikipedia.org/wiki/%E5%86%85%E9%96%A3%E7%B7%8F%E7%90%86%E5%A4%A7%E8%87%A3%E3%81%AE%E4%B8%80%E8%A6%A7'
スクレイピング Read more about perlでWikipediaの内閣総理大臣の一覧をスクレイピングする方法
指定した URL からタイトルとURLリンクを抽出し、CSV形式で出力するperlスクリプトです。 Read more about scraperを使用して、タイトルとURLを抽出してCSV出力する汎用perlスクリプト
scraperコマンド、矢印キーで履歴検索可に。
$ sudo apt-get install libterm-readline-gnu-perl
タイトルとリンクを取得する例
my $scraper = scraper { process '//td/small/a', 'result[]' => { 'title' => 'TEXT', 'link' => '@href' }; };
入れ子にして使用。正規表現による抽出、後処理。 Read more about Web::Scraper 使用例