2009年7月9日木曜日

7/9 ドコモ公式サイトのクローラ

先日に引き続き、ドコモのクローラーについて。
仕様変更について書いたけど、そもそもの仕様を整理します。

FOMA
UA: DoCoMo/2.0 i-robot(c10;TC)
UID: 01eezMoxyBJE

PDC
UA: DoCoMo/1.0/i-robot/c5/TC
UID: 00eezHXtPPJT

会員ページがクロールされないように上記UIDおよびUAの端末は考慮が必要となる。
また当たり前だけどFlashのページの情報はクロールしない。

robots.txt 設定例
User-agent: *
Disallow: /
User-agent: DoCoMo/2.0 i-robot(c10;TC)
Disallow:
User-agent: DoCoMo/1.0/i-robot/c5/TC
Disallow:

メタタグの設定例
<html>
<head>
<title>検索させたくないページ</title>
<meta name="robots" content="noindex,follow">
</head>

報収集対象となるファイルは原則以下の条件を全て満たしたファイルです。
1.i mode公式サイトのURL 範囲にある
2. メニュートップを始点として、リンクを辿ることで表示されるページ
3. HTML ファイルまたはXHTML ファイル(動的に生成されるHTML を含む)
収集の対象となるContent-Type
text/html
application/xhtml+xml

以下のファイルについてはクロール対象外のため、情報収集されません。
1. ページ内容がミラーページにあたる
2. クローラUA でのアクセスが拒否されている
3. ステータスコード「404」等のエラーとなる
4. robots.txt で情報収集範囲指定されている
5. i mode公式サイト範囲から外れている(リダイレクト途中含む)
6. 情報収集対象外のファイル種別である
7. ファイル内のメタタグで拒否設定されている

拡張子.asp .cgi .phpまたは拡張子なしでContent-typeがtext/htmlクロール されるが、
拡張子asf .mp4だったり、Content-typeがtext/plainだったりするとクロールはされない。

その他で気になったこと
●サーバ名とパスの区切りがスラッシュ以外のURL は収集できません。
http://server?p=123 といったサーバ名とパスの区切が/(スラッシュ)でないURL は、
クローラの制限により収集することができません。

0 件のコメント: