Webログファイルに見慣れない行が残っていたので、見てみると東芝のクローラーでした。
i60-36-84-94.s43.a014.ap.plala.or.jp - - [30/Oct/2012:00:25:24 +0900] "GET /robots.txt HTTP/1.0" 200 183 "-" "TosCrawler/Nutch-1.4 (http://www.toshiba.co.jp/rdc/about/crawl_info.htm; 'Rdc-crawler at ml dot toshiba dot co dot jp')"
「研究開発センターでは、自然言語処理技術の研究のために、Webページを収集しています。」と、ちゃんと目的を明記されているから、うちのデータを持て行ってくれても全く問題ありませんが、記録されていたアクセスポイントには笑っちゃいました。ぷらら の個人向け契約じゃない?
まあ、研究コストを明確にするには、いいことだと思いますが、逆引き設定をさせてくれるまともなプロバイダーを利用したら〜?ってネットワーク管理者としてちょっと同情しちゃいました。