クローラーを調べてみている

適当に今日ぶらぶらした感じ、そのうち続編があるかもしれないし無いかもしれない…。

  • HERITRIX https://webarchive.jira.com/wiki/display/Heritrix/Heritrix
    • Java
    • わしが昔使ってた奴、地道に改良されて良い感じになっているっぽい
    • Webから設定を変更したりいろんな箇所にフィルター設定したりできて超便利(過去の記憶より)
    • Springを使うようになってflexibilityがよくなったらしい(なにがよくなったのだろう?)
    • Scalabilityがよくなったっぽい、むかしはすぐにout of memoryでコケたがそんなことはないっぽい
    • 独自のARC形式に保存されるのは今も変わりないっぽい
    • (感想)慣れてるから使いやすいっていうのはあるけど、ここからindex作ってってやるのはやっぱり面倒くさい
  • Anemone http://anemone.rubyforge.org/
    • Ruby
    • spider frameworkってかいてある
    • イテレータ使ってクロールかけるとか素敵な感じはある
    • (感想)自分で作るにはこいつを使えばかなりさっくりと組めそう、大規模にしないならこれが一番楽か…


他にも素敵なものがあったら教えて下さい。
昔調べた時のリストとかどこに行ったっけな…ここに入っていない奴が今どうなったりしているんだろ。

東京都のテニスコートのキャンセルが出たらメール通知

を1月1,000円ぐらいでサービス提供したらみんなお金払ってくれるかなあ、ぽわわ、などと妄想した。
こりゃいけるかもしれんね月10,000円ぐらい稼げればいい鯖代稼ぎにもなるなどと考えていたらすでに無料で提供している人がいてビビった。有料にしたり定員設けたりして制限かけないと自分も空きをとれなくなってしまうじゃん。
なんと無欲な人なのか、なんかおれがお金大好きに見えてしまう。
つか、でもこれって、ひょっとしてモバイルサイトをアクセス過多にしている人なんじゃないかしら…。通報、しちゃおうかな…。そうすればおれのコードが唯一無二になったりしてお金を稼げたりするかな、とちょっとゲスいことを考えたが、通報できそうなところが電話しかなく電話かけるのに大変勇気が必要なおれはなにもしないのであった。