コグノスケ


link 未来から過去へ表示(*)  link 過去から未来へ表示

link もっと前
2007年10月14日 >>> 2007年10月14日
link もっと後

2007年10月14日

手でやるのは限界らしい

当サイトにあるカウンタにつけたユーザエージェント文字列の分析が破綻してきています。カウンタが分類しきれていない奴らを観察していると、正規表現(しかも現在は手で追加しなければならない)では表現しづらいものが増えているように思います。

特にIEのレンダリングエンジンを使っているブラウザが多くて、ユーザエージェント文字列の種類も多様です。

パーサ

手でやるのはもうマンドクサくて死にそうなので、ちゃんと文字列をパースして分類しようと思います。

User-Agentヘッダを表現するBNF(Backus-Naur Form)はRFC 2616 "Hypertext Transfer Protocol -- HTTP/1.1" あたりを見ると書いています。User-AgentヘッダのBNFを見る限りでは、パーサプログラムの主な分岐点は、先読みした1文字が「括弧か否か」ってくらい(※)です。

その程度であれば再帰下降パーサ(recursive descent parser)をガリガリと書けば良さそうです。昔授業で書いた気がするけど完全に忘れたな。一番簡単なパーサだろうし、たぶん書けるだろう…。

パーサに通すと、"Mozilla/5.0 (hogehoge)" のような文字列は、"Mozilla" というプロダクト名と "5.0" というプロダクトのバージョンのペア、そして括弧内のコメント文字列 "hogehoge" に分けられます。

バージョンやコメントは省略できます。以下その例です。
・プロダクトとコメントの間に空白なし "Mozilla/5.0(hego)"
・バージョンを省略 "Mozilla(hego)"
・コメントなし "Mozilla"
・プロダクト、コメントは何個でも書ける "Mozilla Firefox/abc(hoge)(hage) Gecko/def"

コメントの文字列の記法には決まりはないのですが、慣例としてセミコロンで区切った情報を記述することが多いようなので、セミコロンをデリミタにして分割します。

とまあ以上の話までは実装しましたが、これってパースする部分だけなので特に何かをしているわけではありません。肝心の分類方法をこれから考えないとねえ…。

(※)k文字だけ先読みするパーサをLL(k) パーサというらしい。今回書くパーサはLL(1) パーサですね。

編集者:すずき(2007/10/14 22:33)

コメント一覧

  • コメントはありません。
open/close この記事にコメントする



link もっと前
2007年10月14日 >>> 2007年10月14日
link もっと後

管理用メニュー

link 記事を新規作成

<2007>
<<<10>>>
-123456
78910111213
14151617181920
21222324252627
28293031---

最近のコメント5件

  • link 24年4月22日
    hdkさん (04/24 08:36)
    「うちのHHFZ4310は15年突破しまし...」
  • link 24年4月22日
    すずきさん (04/24 00:37)
    「ちゃんと数えてないですけど蛍光管が10年...」
  • link 24年4月22日
    hdkさん (04/23 20:52)
    「おお... うちのHHFZ4310より後...」
  • link 20年6月19日
    すずきさん (04/06 22:54)
    「ディレクトリを予め作成しておけば良いです...」
  • link 20年6月19日
    斎藤さん (04/06 16:25)
    「「Preferencesというメニューか...」

最近の記事3件

  • link 24年2月7日
    すずき (04/24 02:52)
    「[複数の音声ファイルのラウドネスを統一したい] PCやデジタル音楽プレーヤーで音楽を聞いていると、曲によって音量の大小が激しく...」
  • link 24年4月22日
    すずき (04/23 20:13)
    「[仕事部屋の照明が壊れた] いきなり仕事部屋のシーリングライトが消えました。蛍光管の寿命にしては去年(2022年10月19日の...」
  • link 24年4月17日
    すずき (04/18 22:44)
    「[VSCodeとMarkdownとPlantUMLのローカルサーバー] 目次: LinuxVSCodeのPlantUML Ex...」
link もっとみる

こんてんつ

open/close wiki
open/close Linux JM
open/close Java API

過去の日記

open/close 2002年
open/close 2003年
open/close 2004年
open/close 2005年
open/close 2006年
open/close 2007年
open/close 2008年
open/close 2009年
open/close 2010年
open/close 2011年
open/close 2012年
open/close 2013年
open/close 2014年
open/close 2015年
open/close 2016年
open/close 2017年
open/close 2018年
open/close 2019年
open/close 2020年
open/close 2021年
open/close 2022年
open/close 2023年
open/close 2024年
open/close 過去日記について

その他の情報

open/close アクセス統計
open/close サーバ一覧
open/close サイトの情報

合計:  counter total
本日:  counter today

link About www.katsuster.net
RDFファイル RSS 1.0

最終更新: 04/24 08:36