クローラーを調べてみている

適当に今日ぶらぶらした感じ、そのうち続編があるかもしれないし無いかもしれない…。

  • HERITRIX https://webarchive.jira.com/wiki/display/Heritrix/Heritrix
    • Java
    • わしが昔使ってた奴、地道に改良されて良い感じになっているっぽい
    • Webから設定を変更したりいろんな箇所にフィルター設定したりできて超便利(過去の記憶より)
    • Springを使うようになってflexibilityがよくなったらしい(なにがよくなったのだろう?)
    • Scalabilityがよくなったっぽい、むかしはすぐにout of memoryでコケたがそんなことはないっぽい
    • 独自のARC形式に保存されるのは今も変わりないっぽい
    • (感想)慣れてるから使いやすいっていうのはあるけど、ここからindex作ってってやるのはやっぱり面倒くさい
  • Anemone http://anemone.rubyforge.org/
    • Ruby
    • spider frameworkってかいてある
    • イテレータ使ってクロールかけるとか素敵な感じはある
    • (感想)自分で作るにはこいつを使えばかなりさっくりと組めそう、大規模にしないならこれが一番楽か…


他にも素敵なものがあったら教えて下さい。
昔調べた時のリストとかどこに行ったっけな…ここに入っていない奴が今どうなったりしているんだろ。