■
- The Definitive Maybe
BIG BROTHER IS WATCHING YOU
がツボ。何故か知らないが笑いがとまらん。- Why I Hate Personal Weblogs
章立てに笑った。
- 調査結果:ウェブログの3分の2は「三日坊主」
今更だけれど。この調査結果の読み方はこう。
- ウェブログを始めた人の3分の1は長続きしている
または:
- ウェブログを始めた人は、たったの3分の2しか脱落しない
これは驚くべきことである。
- Simon Willison: Using XPath to mine XHTML
- HatenaDiaryReader.py
汎用性のありそうなものに絞ったら、たったのこれだけに。何だか虚しいのでメイン処理を入れておきました。はてなダイアリのCSVファイルのパスを引数として渡すと、('日付' '整形式チェックのエラー内容') が羅列されます。xml.dom.minidomのparseStringに渡して例外を拾っているだけなので、HTMLとしてのチェックはしていませんというか、検証するのが
<div class="section" />
をルート要素とする断片なので、面倒になってしまいました。C:\Python23\Lib\site-packages\Jintrick>python HatenaDiaryReader.py C:\TEMP\jintrick.csv ('2003-10-09', 'mismatched tag: line 62, column 5') ('2003-10-05', 'mismatched tag: line 37, column 5') ('2003-09-29', 'not well-formed (invalid token): line 4, column 58') ..以下略
モジュールとして利用するものであって、こういう事をする為のものではないので、無駄な処理が沢山介在しています。というか誰かツッコミください。