閉じる
  1. iPhoneやiPadで誤ってアプリケーションを購入した場合の返金方法…
閉じる
閉じる
  1. Illustratorで文字を一部拡大縮小出来る「文字タッチツール」が…
  2. MAC VMware のショートカット:コピー&ペースト編
  3. MACのVMwareでエラー。vmmonが読み込まれていることを確認し…
  4. macがしゃべり出す「VoiceOver」を切る!うるせぇよ
  5. MAMP Proでアップデートが失敗する場合の対処法
  6. mac で Microsoft Office 365 や for ma…
  7. PhotoshopCCで画像を自由に変形させる(看板やPC画面に埋め込…
  8. vimでペースト・貼り付けたら余計なインデントが混ざる(解決)
  9. ヤフーショップが個人出店者をヤフオクへ強制移店させるそうだ(期限は来年…
  10. トラックパッドのピンチイン、アウトで拡大縮小出来ない場合の対処法
閉じる

ALPHACAST|アルファキャスト

サイトをまるごとダウンロードする方法(wgetコマンド編)

wgetのコマンド紹介

サイトをローカルにダウンロードする方法(wgetコマンド編)

コマンドラインからサイトをまるごとダウンロードする方法です。

使用するコマンド:wget

意外と知られていませんが、UNIX系OS(Ubuntu, CentOS、Linux)にはサイトをまるごとダウンロード出来るwgetコマンドが用意されています。

今回はwgetコマンドを使った簡単な実例と、実用的なオプションをご紹介します。

前準備(wgetコマンドの存在を確認)

コマンドラインから以下を実行してみて下さい。

$ wget -V

バージョン情報が表示されたらコマンドは準備済みです。
例:$ GNU Wget 1.19.4 built on darwin17.3.0.
もし

$ command not found

と表示されたらコマンドがインストールされていません。
以下のコマンドでインストールを行いましょう。

 

はじめてのwget

wgetコマンドは、HTTPアクセスをしてコンテンツをファイルに保存するコマンドです。
再帰的にたくさんのファイルをダウンロードすることができるのでバックアップにも便利です。

実践:yahooのトップ画面をダウンロードしてみよう

Yahooのトップページをダウンロードして見ましょう。
コマンドは以下です。

$ wget yahoo.co.jp

実践:実行結果

あっさりとヤフーのトップページがindex.htmlファイルとして実行フォルダに取得、保存できました。
ブラウザに無理矢理表示してみましょう。
wgetの取得結果

無事ダウンロード出来ましたね。
ところで、本家のYahooトップページと比べると画像やリンクなど全体の情報が少ないですね。
この点は深く今回は説明いたしませんが、サイトにアクセスしたエージェント(OSやブラウザなど)がwgetコマンドだったため、と頭の片隅に置いておいて下さい。iPhoneでYahooにアクセスしたらTOP画面がPCとは異なりますよね?それと似たようなことが起こっています。

wgetコマンドオプション

wgetは強力なオプションを備えています。
上手に活用する事で、欲しいサイトの情報を効率的にダウンロードする事が出来ます。
以下に私がオススメする代表的なオプションをご紹介します。

wgetの秘めたる力を引き出すオプションたち

-r 再帰的なダウンロードを実行。ドメイン名のディレクトリを作成してダウンロードしたファイルを保存する
-l数字 リンクをたどる最大回数を指定。-l1 は指定したURLとそのリンク先をダウンロード。-r も合わせて必要
-w数字 ダウンロードの間隔を秒数で指定
-p そのHTMLページに含まれる画像やCSS、JavaScriptなどもダウンロードする。 その1ページだけでよければ、-r を付けなくてもよい
-k リンクや画像への参照などを、ローカルでも開けるように絶対パスから相対パスに書き換える
-A 拡張子 ダウンロードするファイルの拡張子を指定。コンマ区切りで複数指定できる。 再帰的にリンクをたどるためにHTMLにもアクセスをするがファイルで保存するのは指定の拡張子のみになる。 例: -A jpg,png,gif

 

オプションを指定した実践例

サイトが参照されている画像ファイルやその他ファイル(css、jsなど)もまとめてダウンロードする方法

ウェブページのHTMLと参照されている画像ファイルやCSS、JSなどもまとめてダウンロードするには
オプション -p を使います。参照されている画像やCSSやJSも合わせてまるごとダウンロードしてくれます。

$ wget -p http://www.hogehoge.com/

サイトを丸ごとダウンロードする方法

サイトのリンクを自動的にたどって、リンク先もどんどんダウンロードするには
オプション -r を指定します。また、リンクをたどる深さ(深度)を オプション -l で指定します。
深度がわからないサイトを無限にダウンロードするのは無謀ですし、サイト管理者、閲覧者に迷惑が掛かります。
深度の指定は必ず行うことと、無理の無い設定を心がけて下さい。

以下はリンク3回までたどり、ダウンロードする。
リンクを3回踏むということは第4階層のページまでダウンロードする事になります。

$ wget -r -l3 http://www.hogehoge.com/

ダウンロード時のモラル

サイトのダウンロードには大きな負荷がかかります。
サイト運営者や閲覧者にご迷惑が掛からないよう以下のオプションは絶対に付けて下さい。

絶対につけよう! -w オプション!!!

-w オプションは、再帰的なダウンロードの途中一度一度にインターバルを設けるオプションです。
-w1 は一秒、-w2 は2秒のインターバルを設けてダウンロードされます。

模範的コマンド実行例

$ wget -r -l3 -w2 http://www.hogehoge.com/

ダウンロード速度は遅くなりますが、回線もサーバリソースもみんなの共有物です。
是非譲り合いの精神で素敵なwgetライフをお送り下さい。

最後までご覧頂きありがとうございました。

特定サイトに集中的にアクセスすると不正アクセスとみなされ、アカウントロックやIP遮断、場合により営業妨害などで訴訟を起こされる可能性もあります。アカウントロックやIP遮断でも復活はおそらく望めません。細心の注意のもと行って下さい。

 

愛のおひねり




育毛剤

関連記事

  1. MACからiTermを使ってエックスサーバにSSH接続する方法

  2. vimでペースト・貼り付けたら余計なインデントが混ざる(解決)

    vimでペースト・貼り付けたら余計なインデントが混ざる(解決)

おすすめ記事

  1. iPhoneやiPadで誤ってアプリケーションを購入した場合の返金方法

コメント

  1. この記事へのコメントはありません。

  1. この記事へのトラックバックはありません。

日本語が含まれない投稿は無視されますのでご注意ください。(スパム対策)

人気の記事

  1. IllustratorCC 2019で文字タッチツールが見当たらないから調査・解決した
    Illustratorで文字を一部拡大縮小出来る「文字タッチツール」がないIllustrator…
  2. MAC VMwareのショートカット:コピー&ペーストはVMwareでバーチャルOS「Windo…
  3. MACのVMwareでエラー。vmmonが読み込まれていることを確認してください
    MACのVMwareでエラー発生:「vmmonが読み込まれていることを確認してください」、、だと?…
  4. VoiceOverを切る手順
    macがしゃべり出す「VoiceOver」を切る!スタバで作業する私にとって、突然macが大声で…
  5. MAPM Proでアップデートが失敗する場合の対処法アプリ起動時に、5.1から5.3へのアップデ…
  6. macのofficeでエラー発生
    mac で Microsoft Office 365 や for mac インストール時にエラーコー…

漠速!WordPress特化型サーバ登場

愛のおひねり

子供の頃、ファミコンより「MSX」に飛びついたマイノリティー。

当時、雑誌に掲載されていたソース(BASIC言語)を打ち込み無料でゲームを楽しみ悦に浸る。

某大手電機メーカーの情報システム部門勤務を経て独立。

現在はIT広告媒体全般を請け負う便利屋。

趣味:
ビリヤード、フルート、カラオケ、Amazonプライムビデオ観賞