html-xml-utils

コマンドラインでHTMLをCSV変換する方法

dtとddタグで作成された表形式のデータを、コマンドラインツールでCSV変換します。
$ curl -s http://doramahjong.com/tournament/ | hxnormalize -x | hxselect -s '\n' -c "table.catagoryTable" "dl" | lynx -stdin --dump  | sed -e 's/^\s\+//' | awk 'BEGIN { FS="\n"; RS="" } { print $1 "," $2 "," $3 }'
風花雪月杯,2016年11月22日 18:00:00,107