世界の果てで屋根を打つ雨のリズムで寝る

クローラーを調べてみている

適当に今日ぶらぶらした感じ、そのうち続編があるかもしれないし無いかもしれない…。

HERITRIX https://webarchive.jira.com/wiki/display/Heritrix/Heritrix
- Java
- わしが昔使ってた奴、地道に改良されて良い感じになっているっぽい
- Webから設定を変更したりいろんな箇所にフィルター設定したりできて超便利（過去の記憶より）
- Springを使うようになってflexibilityがよくなったらしい（なにがよくなったのだろう？）
- Scalabilityがよくなったっぽい、むかしはすぐにout of memoryでコケたがそんなことはないっぽい
- 独自のARC形式に保存されるのは今も変わりないっぽい
- （感想）慣れてるから使いやすいっていうのはあるけど、ここからindex作ってってやるのはやっぱり面倒くさい

Apache Nutch http://nutch.apache.org/
- Java
- Hadoopで分散がんがんいけそう
- Solrで素敵な検索もいけそう（Senを使った形態素とn-gramどちらでもいける、素敵）
- コミュニティが活発っぽいし、今もガンガン開発されている
- （感想）素敵だがでかい、おれが用意できる環境でまともに動くのかという問題もある、とりあえず使ってみるか
- [参考リンクというなのおれが検索して引っかかったページのメモ]

- - （後日追加）
  - Tech. memo: NutchとMySQL

joycrawler http://code.google.com/p/joycrawler/
- Hadoopで
- あんまり調べていない

HyperEstraier http://fallabs.com/hyperestraier/
- C
- 全文検索システムにクローラーが付いている
- 概要に書いてある特徴が素敵すぎる
- クローラーの特徴はよく調べられていません…
- もう開発は終了している？
- （感想）素敵そうだがすでにCを扱うおれの能力などうんこのようなものなので使いこなせるか不安
- [参考リンクというなのおれが検索して引っかかったページのメモ]
  - http://kasshy.side6.jp/2009/10/20/hyperestraier%E3%81%AEweb%E3%82%AF%E3%83%AD%E3%83%BC%E3%83%A9%E3%81%AB%E3%81%A4%E3%81%84%E3%81%A6%E3%81%AE%E3%83%A1%E3%83%A2/

NICT Webクローラー https://alaginrc.nict.go.jp/resources/nictmastar/software/crawler-info/crawleroutline.html
- Python, perl?
- 日本語
- クローラーとしての基本的な部分はしっかりできてそう
- フィルター関連が弱いかなあ…
- え、使うためにはアラジン会員とかいうのに10万円払ってならないとイカンの！？なんか有名な人の名前が沢山書いてある…

Anemone http://anemone.rubyforge.org/
- Ruby
- spider frameworkってかいてある
- イテレータ使ってクロールかけるとか素敵な感じはある
- （感想）自分で作るにはこいつを使えばかなりさっくりと組めそう、大規模にしないならこれが一番楽か…

他にも素敵なものがあったら教えて下さい。
昔調べた時のリストとかどこに行ったっけな…ここに入っていない奴が今どうなったりしているんだろ。