2019年1月25日金曜日

【備忘録】archive.org のアーカイブサイトを httrack ツールでダウンロードする方法

研究所の一番最初に作成されたウェブサイトってどういうものだったかなと興味本位っで
を過去に何度かみていたのですが、このデータってダウンロードできないのかな、もし上記アーカイブプロジェクトがなくなったときのことに備えてと思うようになりました。単純な方法ではできなかったので備忘録としてやり方を残しておきます。

STEP 1. httrack をインストールしよう


筆者は macOS 10.14 にインストールしたので、Homebrew というツールでインストールしました。このツールが入っているなら「ターミナル」(アプリケーション > ユーティリティフォルダ内)より

brew install httrack

でインストールできるでしょう。
ツールが入っていないなら、インストールしてから実行してみてください。

Windowsであるなら、https://www.httrack.com/ よりインストーラーをダウンロードできます。

STEP 2. クローンしてみよう


  • クローンしたいアーカイブ:https://web.archive.org/web/○○○○/サイトのURL
  • サイトのURL:http://[ドメイン]/
  • サイトのドメイン:[ドメイン]
  • 保存したい場所:ダウンロードフォルダの aaa フォルダ($HOME/Download/aaa)

とします。

1. 「ターミナル」(アプリケーション > ユーティリティフォルダ内)を起動します。

2. 次のコマンドを実行して、($HOME/Download/aaa)フォルダを作成します。
mkdir $HOME/Download/aaa

3. 作成したフォルダに移動します
cd $HOME/Download/aaa

4. クローンスクリプトを作成します。
touch mirror.sh
open -a textedit  mirror.sh
とすると、mirror.sh ファイルが作成され、それを テキストエディットが開いてくれます。
次のコードを入れましょう。
httrack\
    https://web.archive.org/web/○○○○/サイトのURL/\
    '-*'\
    '+*/[ドメイン]/*'\
    -N1005\
    --advanced-progressinfo\
    --can-go-up-and-down\
    --display\
    --keep-alive\
    --mirror\
    --robots=0\
    --user-agent='Mozilla/5.0 (X11;U; Linux i686; en-GB; rv:1.9.1) Gecko/20090624 Ubuntu/9.04 (jaunty) Firefox/3.5'\
    --verbose

上記をコピーして、mirror.sh のファイルにペーストし、赤文字の部分を変更しましょう。
そして保存してください。

このコードの大元は、GitHubの
に置いてあるものを参考にしました。

5. クローンスクリプトを実行します。
sh mirror.sh 
これで確認を聞いてくるので、そのまま Enterを押すとクローンが始まるはずです。

注意点


あくまで archive.org プロジェクトにアーカイブされたデータになります。
もし CMSシステムを使っていたとしても静的HTMLに変換されていますし、ディレクトリ構造が変更になっているかもしれません。そのため、ここのデータをバックアップだと思ってそのまま復元しても、その復元した状態では動くかも知れませんが、あとから編集できなかったり、いろいろトラブルが生じる可能性が高いです。
また archive.org でキャッシュするためのスクリプトが埋め込まれてもいます。
そのため、あくまでコンテンツとして取り出したいときにつかうのがよいと思います。
復旧するなら1つずつデータをコピー&ペーストして、復旧したシステムに落とし込む必要があると思ったほうがいいということです。

2019年1月25日 @kimipooh