2009年7月16日木曜日

7/16 テスト項目書とFTPDの権限

昨日も今日も一日テスト項目書を作成する日々。
明日も書くし、明後日の休みも出勤して書く。
書いて書いて書きまくる。

かなり大変で、概ね始業時間から退勤時間までずっと席に座って作業する方だけど、今度ばかりはリフレッシュルームでコーヒー飲んだり、こんな風にブログ書きながらじゃないと精神的に持たない。

前回のキャラクターサイトのときはチェックシートを作れずモンキーチェックとなってしまったため不具合多数となったので今回はその反省を活かして。

proftpdではデフォルトでは転送されたファイルの権限は644、ディレクトリは744となるのかな。
その権限を変更するためには

proftpd.confの
# Umask 022 is a good standard umask to prevent new dirs and files
# from being group and world writable.
Umask 022

 ↓変更

# Umask 022 is a good standard umask to prevent new dirs and files
# from being group and world writable.
Umask 000

とするとファイルの権限は666、ディレクトリは777と権限が緩くなる。
もちろんデフォルトの権限の方が安全であるのは間違いない。
また、当然000のところを適宜変えると厳しきもできる。

2009年7月9日木曜日

7/9 ドコモ公式サイトのクローラ

先日に引き続き、ドコモのクローラーについて。
仕様変更について書いたけど、そもそもの仕様を整理します。

FOMA
UA: DoCoMo/2.0 i-robot(c10;TC)
UID: 01eezMoxyBJE

PDC
UA: DoCoMo/1.0/i-robot/c5/TC
UID: 00eezHXtPPJT

会員ページがクロールされないように上記UIDおよびUAの端末は考慮が必要となる。
また当たり前だけどFlashのページの情報はクロールしない。

robots.txt 設定例
User-agent: *
Disallow: /
User-agent: DoCoMo/2.0 i-robot(c10;TC)
Disallow:
User-agent: DoCoMo/1.0/i-robot/c5/TC
Disallow:

メタタグの設定例
<html>
<head>
<title>検索させたくないページ</title>
<meta name="robots" content="noindex,follow">
</head>

報収集対象となるファイルは原則以下の条件を全て満たしたファイルです。
1.i mode公式サイトのURL 範囲にある
2. メニュートップを始点として、リンクを辿ることで表示されるページ
3. HTML ファイルまたはXHTML ファイル(動的に生成されるHTML を含む)
収集の対象となるContent-Type
text/html
application/xhtml+xml

以下のファイルについてはクロール対象外のため、情報収集されません。
1. ページ内容がミラーページにあたる
2. クローラUA でのアクセスが拒否されている
3. ステータスコード「404」等のエラーとなる
4. robots.txt で情報収集範囲指定されている
5. i mode公式サイト範囲から外れている(リダイレクト途中含む)
6. 情報収集対象外のファイル種別である
7. ファイル内のメタタグで拒否設定されている

拡張子.asp .cgi .phpまたは拡張子なしでContent-typeがtext/htmlクロール されるが、
拡張子asf .mp4だったり、Content-typeがtext/plainだったりするとクロールはされない。

その他で気になったこと
●サーバ名とパスの区切りがスラッシュ以外のURL は収集できません。
http://server?p=123 といったサーバ名とパスの区切が/(スラッシュ)でないURL は、
クローラの制限により収集することができません。

2009年7月7日火曜日

7/7 ドコモのクローラー仕様変更

火曜日はいつもMTGが多い。
10:00 開発会社と週報MTG
13:30 別の開発会社と週報MTG
15:30 新規案件の企画MTG
16:30 担当しているキャラクターサイトの定例MTG
18:00 現在開発を進めている情報系サイトの開発MTG

その合間合間での仕事はなかなか進まないなぁ。

ドコモのクローラーの仕様が変わるそうで、情報収集時のメソッドが「HEADおよびGET」から「GET」となるそう。
CGIで画像ファイルや音ファイルなどを端末にレスポンスしていると、それらのデータをクロールされるので注意が必要。
robots.txtに適宜設定すれば問題なし。

巡回方法も変更され、これまではトップページを起点にメニュー単位で集中的に収集していたのが今後はページ単位で分散して収集するとのこと。
こうすることでページ元が収集に失敗してもリンク先のページの収集機会が増え、同時にアクセスが分散するのでサイトへの影響が軽微になる。
注意点としては、収集されたくないページはリンク元ページの設定だけではなく、該当ページのせっても必要となる。これもrobots.txtの設定を行うか、ページそのものを削除する、またはメタ情報に収集の制限を記述することで回避できる。

だそうな。