2009年7月7日火曜日

7/7 ドコモのクローラー仕様変更

火曜日はいつもMTGが多い。
10:00 開発会社と週報MTG
13:30 別の開発会社と週報MTG
15:30 新規案件の企画MTG
16:30 担当しているキャラクターサイトの定例MTG
18:00 現在開発を進めている情報系サイトの開発MTG

その合間合間での仕事はなかなか進まないなぁ。

ドコモのクローラーの仕様が変わるそうで、情報収集時のメソッドが「HEADおよびGET」から「GET」となるそう。
CGIで画像ファイルや音ファイルなどを端末にレスポンスしていると、それらのデータをクロールされるので注意が必要。
robots.txtに適宜設定すれば問題なし。

巡回方法も変更され、これまではトップページを起点にメニュー単位で集中的に収集していたのが今後はページ単位で分散して収集するとのこと。
こうすることでページ元が収集に失敗してもリンク先のページの収集機会が増え、同時にアクセスが分散するのでサイトへの影響が軽微になる。
注意点としては、収集されたくないページはリンク元ページの設定だけではなく、該当ページのせっても必要となる。これもrobots.txtの設定を行うか、ページそのものを削除する、またはメタ情報に収集の制限を記述することで回避できる。

だそうな。

0 件のコメント: