sh1’s diary

プログラミング、読んだ本、資格試験、ゲームとか私を記録するところ

失われたウェブサイトのデータを Internet Archive からまとめてダウンロードする

PC

環境構築
Wayback Machine Downloader
- 使い方
備考
参考

2000 年ごろは、今のような SNS にぶら下がっていない個人運営の“ホームページ”がたくさんあり、すばらしいコンテンツ（小説やイラストなど）を公開していた当時のサイトもまたたくさんありました。それも今は昔、数多くのサイトが消滅してしまい、Google 検索をしても「404 Not Found」と表示されるか、検索すらできなくなってきています。懐かしくも寂しい話です。

そういった今はもう失われたサイトでも Internet Archive ¹ で検索すれば、かつてのサイトの姿を見返すことができて大変便利……なのですが、表示のレスポンスはどうしても低速になりがちです。

f:id:shikaku_sh:20200826113450p:plain:w600 — 思い出の地

そんなわけで Internet Archive に残っているデータを、Wayback Machine Downloader という Ruby の gem (ライブラリ) を使って、ローカル環境にたくさんのファイルをまとめて保存して、サクサク閲覧しようという内容の記事です。

小説のように、たくさんの HTML ページに分かれていたりするなら、おススメ。

環境構築

Windows らしい GUI アプリケーションがあれば手っ取り早いのですが、そういうわけにもいかないみたいなので、ちょうどいいプログラムを実行するための環境構築をします。

Windows 10
Visual Studio Code
Ruby (gem version:2.2.1)

2020 年 8 月次点では Ruby+Devkit 2.6.6-1 (x64) をインストールしました。

f:id:shikaku_sh:20200826112356p:plain:w500 — これにしました

Ruby をインストールできたら、Visual Studio Code のターミナルを開いて (ctrl+shift+@)、シェルは Windows Power Shell で ruby 環境ができているか確認します。

ruby --version

f:id:shikaku_sh:20200826112509p:plain:w600 — ruby の確認

こんな感じでなんらかのバージョンが表示されたら、環境構築は成功です。

Wayback Machine Downloader

さっそく、Internet Archive に残っているデータをダウンロードするライブラリをインストールします。

GitHub - Wayback Machine Downloader

gem install wayback_machine_downloader

これにて準備完了です。

使い方

インストールに成功したら、Wayback Machine Downloader の使い方に従って、コマンドを実行します。基本的には以下のコマンドでよさそうです。

wayback_machine_downloader [URL]

f:id:shikaku_sh:20200826112910p:plain:w600 — こんな感じ

URL はダウンロードしたいサイトの元々存在した URL です。もしも、時間指定やタイムスタンプが必要ならオプションを記述します。（詳細は GitHub の README.md 参照）

URL の最後が sample.html のようにすると、そのファイルだけしかダウンロードされません。まとめて処理するなら、URL を（上画像のように）ディレクトリーで指定するようにしましょう。含まれるファイルをまとめてダウンロードできました。（６００個くらいまで確認しています）

備考

f:id:shikaku_sh:20200826113817p:plain:w500 — サイトのデータをまとめることができた

失わているサイトのデータを無許可に公開し直したり、だれかに再配布するのはやめておきましょう。故人であってもフリー素材じゃない。

著作物であるのはかわりないし、財産権と人格権の話は当然あるけど、そもそも著作権、財産権、人格権とか言い出す前のやつかと。個人で楽しむまででいいじゃないかと思います。

参考

VSCodeでRubyを気軽に実行する環境を作る

徹底解説Visual Studio Code

徹底解説Visual Studio Code

作者:本間咲来
発売日: 2019/09/27
メディア: 単行本

Visual Studio Code実践ガイド —— 最新コードエディタを使い倒すテクニック

Visual Studio Code実践ガイド —— 最新コードエディタを使い倒すテクニック

作者:森下篤
発売日: 2020/02/21
メディア: Kindle版

プログラミング言語 Ruby

プログラミング言語 Ruby

作者:まつもとゆきひろ,David Flanagan
発売日: 2009/01/26
メディア: 大型本

Internet Archive とは、世界中のサイトのアーカイブ閲覧サービスです。ある時点でのサイトのコピー（複製）を保存して、オンライン上で公開しています。↩