はてなのキーワード

http://d.hatena.ne.jp/hatenadiary/20040819
あー、結局「暑い」は消えるのか、残念。
日本語文書をコンピューターで扱う際に単語を取り出すっていうのは非常に難しいのだけれども、それを人力で何とかしましょうっていうのはとてもいいアイデアだと思うし、特に今年の夏の「暑い」についていえばこれをコンピューターで今年の夏を指す重要なキーワードであるという判断はなかなか難しそうなので、もったいないなあとか思った。
僕がはてなを使うようになってまずキーワード自動リンクうざいと思ったしそう書いたけれども、今はこれこそはてなっぽさでいろいろ楽しいことができそうな重要な機能だと思っている。
でもはてな評議会というのの結果を見ると、多くのはてなユーザにとってキーワードは「使える単語」を抜き出すためのものではなくて、勝手にリンクができてそこにちょっとした解説があるものなのだろうか。んーでも確かにキーワードリンクをたどって別の日記見に行くっていうことをするにははてなのインタフェースは使いにくいと思ってるし、おもしろい記事に簡単に出会えるブラウジング方法でもない。おとなりリンクも精度がいいとはとてもじゃないけれど思いない。これは結局人力によるキーワード設定があんまりよろしくないのか、それともはてなアルゴリズムがあまりにもイージー(に見える)ためだろうか。
もうユーザーが増えてしまってるから勝手に実験的なことはできないのかなあ。ユーザーと一緒に作るなんていわないで面白いと思ったことはがんがんやってかないと、はてなのキーワードというアイデアは生かされないで非常にもったいない。
単語の抽出の話に戻ると、文書の内容を表すための重要な特徴となる単語を取り出す手法としてはtf-idf(他の文章でどれだけその単語が出てて、自分の書いた文書でどれだけ出てるかっていう頻度を使ってスコア付けする手法)と最近良く見るようになった時系列を使ってある時期に突然使われるようになったものを取り出すっていう方法があると思う(他にもいかすものがあったら教えてください)。いずれにせよ重要さのスコアを決定する前に辞書を使って形態素解析をしなくてはならなくて、辞書を使う手法のために新しい単語に対応するのが困難だし、単語を切れるところまで切ってしまうものなので僕らが意図する単位で切ってくれない。はてなのキーワードは今挙げたような方法で取り出されるキーワードとかとかなり違った取り出され方に成功していると思うし、例えば本や映画のタイトルなんていうものはとても強いなあ。「暑い」なんていう単語は時系列を使えばうまくいけそうな気もするけれども、このような非常に良く使われ得る単語までチェックするとなるとコストが掛かりすぎて現実的じゃなく取り出せない気がする(つか、詳しいアルゴリズムとか良く知らん、できたらごめんなさい)。
つまり日本語をコンピューターに処理させるのはとっても難しくて、でもなんとか人間の感覚に近づけたくて、人間の知識を利用して意味に踏み込みたいのだけれども、それはとても難しくて、でもはてなはかなりのユーザを持ちながらも案外面白い感じなのでもったいないわけです。
勝手にはてなでクローラに走らせて単語リスト作って使わせてもらおうかなあ。つかそれ案外いいかもしれない。うひひ。