クローラーを調べてみている
適当に今日ぶらぶらした感じ、そのうち続編があるかもしれないし無いかもしれない…。
- HERITRIX https://webarchive.jira.com/wiki/display/Heritrix/Heritrix
- Java
- わしが昔使ってた奴、地道に改良されて良い感じになっているっぽい
- Webから設定を変更したりいろんな箇所にフィルター設定したりできて超便利(過去の記憶より)
- Springを使うようになってflexibilityがよくなったらしい(なにがよくなったのだろう?)
- Scalabilityがよくなったっぽい、むかしはすぐにout of memoryでコケたがそんなことはないっぽい
- 独自のARC形式に保存されるのは今も変わりないっぽい
- (感想)慣れてるから使いやすいっていうのはあるけど、ここからindex作ってってやるのはやっぱり面倒くさい
- Apache Nutch http://nutch.apache.org/
-
-
- (後日追加)
- Tech. memo: NutchとMySQL
-
- joycrawler http://code.google.com/p/joycrawler/
- Hadoopで
- あんまり調べていない
- HyperEstraier http://fallabs.com/hyperestraier/
- NICT Webクローラー https://alaginrc.nict.go.jp/resources/nictmastar/software/crawler-info/crawleroutline.html
- Anemone http://anemone.rubyforge.org/
他にも素敵なものがあったら教えて下さい。
昔調べた時のリストとかどこに行ったっけな…ここに入っていない奴が今どうなったりしているんだろ。