全角英数字を半角に置換
perl oneliner
$ echo "2014年10月11日14時57分 I am feeling honored that" | perl -C -Mutf8 -pe 'tr/0-9a-zA-Z/0-9a-zA-Z/' 2014年10月11日14時57分 I am feeling honored that
perl oneliner
$ echo "2014年10月11日14時57分 I am feeling honored that" | perl -C -Mutf8 -pe 'tr/0-9a-zA-Z/0-9a-zA-Z/' 2014年10月11日14時57分 I am feeling honored that
改行のみの空行と、空白文字列と改行のみで構成される空白行をまとめて削除する方法です。
Web::Scraper に付属の scraperコマンドでスクレイピング。
ページ情報取得
$ scraper 'https://ja.wikipedia.org/wiki/%E5%86%85%E9%96%A3%E7%B7%8F%E7%90%86%E5%A4%A7%E8%87%A3%E3%81%AE%E4%B8%80%E8%A6%A7'
スクレイピング Read more about perlでWikipediaの内閣総理大臣の一覧をスクレイピングする方法
名前をキーに、複数行のCSVデータを一行にまとめます。
入力ファイル
$ cat input.csv 上根来水源の森,水源の森百選 上山公園,全国森林浴の森百選 上山公園,日本の都市公園100選 上山公園,日本の歴史公園100選 城崎温泉,日本百名湯 城山公園,全国森林浴の森百選 城山公園,日本のさくら名所100選 城山公園,日本の都市公園100選 城山公園,日本の夕陽百選 城山公園,日本の歴史公園100選 城山公園,夜景100選 城山展望台,夜景100選
1フィールド目をキーにCSVを名寄せするperlスクリプト Read more about CSVを名寄せして一行にまとめるperlスクリプト / perl script to aggregate csv records
$ curl http://lynx.browser.org/ | perl -C -Mutf8 -pe 's/<.+?>//g'
$ curl http://lynx.browser.org/ | sed -e 's/<[^>]*>//g'
Read more about コマンドラインでHTMLタグを削除
指定した URL からタイトルとURLリンクを抽出し、CSV形式で出力するperlスクリプトです。 Read more about scraperを使用して、タイトルとURLを抽出してCSV出力する汎用perlスクリプト
建物名などに「都道府県区市町村」の文字が含まれる可能性もあるので、minimal match .*? を使用 Read more about perl one liner で住所文字列から都道府県、市区町村抽出
scraperコマンド、矢印キーで履歴検索可に。
$ sudo apt-get install libterm-readline-gnu-perl
タイトルとリンクを取得する例
my $scraper = scraper { process '//td/small/a', 'result[]' => { 'title' => 'TEXT', 'link' => '@href' }; };
入れ子にして使用。正規表現による抽出、後処理。 Read more about Web::Scraper 使用例
use Encode;
use JSON;
my $data_to_json = {
name => $name,
address => \@address,
phone => \@phone
};
print encode_json($data_to_json) . "\n"; Read more about PerlでJSON形式データ作成・出力
$ cat parsecsv.pl
#!/usr/bin/perl
use strict;
use Encode;
use Text::CSV_XS;
use utf8;
my @rows;
my $csv = Text::CSV_XS->new ({ binary => 1 }) or
die "Cannot use CSV: ".Text::CSV_XS->error_diag ();
open my $fh, "<:encoding(utf8)", "input.csv" or die "input.csv: $!"; Read more about PerlでCSV形式データ作成・出力