Search This Blog

検討: 重複Fileの削除

Backupを最適化するため、重複削除について考えてみた。
本来ならば、Backup取得方法をそのようにすればいいのだろうけれど、その時々に考えもせずに保存されたものが現状では何なのかの判別もつかなくなっている状態だ。

一意のファイル群を残して、他は削除したい。
その際のファイルの情報は保持しておきたい。
何らかの理由からファイル名を変更していたけれど、全てに反映させられず中途半端になっているものなどがあり、やはり最終的には統一された状態としておきたい。

仕様

・hashを算出すること。また一意のhashリストを生成すること
・重複Fileのファイル名を保存すること

検討事項

  • HDD間における不要なWriteを避ける。
  • 一意集合がある場合には、それを比較元とし、それ以外に散らばる重複を全て削除する。
    1. まずはHDD内の重複を解消する。
    2. HDD間での重複比較を行い、特定のHDDへデータを寄せる(必要ならば集約する)。