sh1’s diary

プログラミング、読んだ本、資格試験、ゲームとか私を記録するところ

失われたウェブサイトのデータを Internet Archive からまとめてダウンロードする

2000 年ごろは、今のような SNS にぶら下がっていない個人運営の“ホームページ”がたくさんあり、すばらしいコンテンツ(小説やイラストなど)を公開していた当時のサイトもまたたくさんありました。それも今は昔、数多くのサイトが消滅してしまい、Google 検索をしても「404 Not Found」と表示されるか、検索すらできなくなってきています。懐かしくも寂しい話です。

そういった今はもう失われたサイトでも Internet Archive 1 で検索すれば、かつてのサイトの姿を見返すことができて大変便利……なのですが、表示のレスポンスはどうしても低速になりがちです。

f:id:shikaku_sh:20200826113450p:plain:w600
思い出の地

そんなわけで Internet Archive に残っているデータを、Wayback Machine Downloader という Ruby の gem (ライブラリ) を使って、ローカル環境にたくさんのファイルをまとめて保存して、サクサク閲覧しようという内容の記事です。

小説のように、たくさんの HTML ページに分かれていたりするなら、おススメ。


環境構築

Windows らしい GUI アプリケーションがあれば手っ取り早いのですが、そういうわけにもいかないみたいなので、ちょうどいいプログラムを実行するための環境構築をします。

2020 年 8 月次点では Ruby+Devkit 2.6.6-1 (x64) をインストールしました。

f:id:shikaku_sh:20200826112356p:plain:w500
これにしました

Ruby をインストールできたら、Visual Studio Code のターミナルを開いて (ctrl+shift+@)、シェルは Windows Power Shell で ruby 環境ができているか確認します。

ruby --version

f:id:shikaku_sh:20200826112509p:plain:w600
ruby の確認

こんな感じでなんらかのバージョンが表示されたら、環境構築は成功です。


Wayback Machine Downloader

さっそく、Internet Archive に残っているデータをダウンロードするライブラリをインストールします。

gem install wayback_machine_downloader

これにて準備完了です。


使い方

インストールに成功したら、Wayback Machine Downloader の使い方に従って、コマンドを実行します。基本的には以下のコマンドでよさそうです。

wayback_machine_downloader [URL]

f:id:shikaku_sh:20200826112910p:plain:w600
こんな感じ

URL はダウンロードしたいサイトの元々存在した URL です。もしも、時間指定やタイムスタンプが必要ならオプションを記述します。(詳細は GitHub の README.md 参照)

URL の最後が sample.html のようにすると、そのファイルだけしかダウンロードされません。まとめて処理するなら、URL を(上画像のように)ディレクトリーで指定するようにしましょう。含まれるファイルをまとめてダウンロードできました。(600個くらいまで確認しています)


備考

f:id:shikaku_sh:20200826113817p:plain:w500
サイトのデータをまとめることができた

失わているサイトのデータを無許可に公開し直したり、だれかに再配布するのはやめておきましょう。故人であってもフリー素材じゃない。

著作物であるのはかわりないし、財産権と人格権の話は当然あるけど、そもそも著作権、財産権、人格権とか言い出す前のやつかと。個人で楽しむまででいいじゃないかと思います。


参考

徹底解説Visual Studio Code

徹底解説Visual Studio Code

  • 作者:本間咲来
  • 発売日: 2019/09/27
  • メディア: 単行本

プログラミング言語 Ruby

プログラミング言語 Ruby


  1. Internet Archive とは、世界中のサイトのアーカイブ閲覧サービスです。ある時点でのサイトのコピー(複製)を保存して、オンライン上で公開しています。