wgetでWEBサイトをミラーリングコピーする方法

Nid: 109

wget のミラーリング機能を使用して、サイトをオフラインで閲覧するためのコピーを作成する方法です。

$ wget --mirror --convert-links --adjust-extension --page-requisites --no-parent -e robots=off -w2 --random-wait http://example.org
$ wget -m -k -E -p -np http://example.org

wget コマンドオプションの説明

  • -m / --mirror: 再帰的にダウンロード
  • -k / --convert-links: オフラインで閲覧できるように相対リンクに変換
  • -E / --adjust-extension: 適切なファイル拡張子を付加
  • -p / --page-requisites: 表示に必要なCSSスタイルシートや画像もダウンロード
  • -np / --no-parent: リンク階層を上がらない
  • -e robots=off: robots.txt を無視する
  • -w N: ダウンロードごとにN秒待つ
  • --random-wait: -wで指定した数の0.5〜1.5倍の時間待つ