The Definitive Maybe

BIG BROTHER IS WATCHING YOUがツボ。何故か知らないが笑いがとまらん。

Why I Hate Personal Weblogs

章立てに笑った。

調査結果:ウェブログの3分の2は「三日坊主」

今更だけれど。この調査結果の読み方はこう。

または:

  • ウェブログを始めた人は、たったの3分の2しか脱落しない

これは驚くべきことである。

Simon Willison: Using XPath to mine XHTML

私はDOM Level3勧告待ち。ベンダ独自のAPIを覚えるのはMSXMLでうんざり。

HatenaDiaryReader.py

汎用性のありそうなものに絞ったら、たったのこれだけに。何だか虚しいのでメイン処理を入れておきました。はてなダイアリのCSVファイルのパスを引数として渡すと、('日付' '整形式チェックのエラー内容') が羅列されます。xml.dom.minidomのparseStringに渡して例外を拾っているだけなので、HTMLとしてのチェックはしていませんというか、検証するのが<div class="section" />をルート要素とする断片なので、面倒になってしまいました。

C:\Python23\Lib\site-packages\Jintrick>python HatenaDiaryReader.py C:\TEMP\jintrick.csv
('2003-10-09', 'mismatched tag: line 62, column 5')
('2003-10-05', 'mismatched tag: line 37, column 5')
('2003-09-29', 'not well-formed (invalid token): line 4, column 58')
..以下略

モジュールとして利用するものであって、こういう事をする為のものではないので、無駄な処理が沢山介在しています。というか誰かツッコミください。