危険なタグの除去

IEのHTML解釈がどのぐらい緩いのか分からないので、注意しないとならんと思う。タグの閉じ忘れとか入れ子になったりでも表示されてしまうIEの度量の広さ?が脅威だ。適当に正規表現で削るだけで大丈夫なのだろうか?ちょっと怖いのでcreateElement()してinnerHtmlに突っ込んでからgetElementsByTagName()で拾ったエレメントをparentElementからremoveChild()するという手法を取ってみた。クソ遅い。参る。しかもなんでか知らんが全部除去できないはが残るわで意味が分からん。
あとはてなのrss2なのだけど、はてなの中の画像が相対パスになっているが、そういうものなの?BASEタグとかで逃げられたっけ?忘れた。
飽きてきたので帰る。ところでlivedoor Readerを手本に考えていたが、あっちはブラウザとしてスクリプトとかActiveXとか切れないのだから仕方ないが、fubは単純にフィルタかけるだけでもいいんじゃねえの?とか思った。頑張るところなのかなあ。ウチ帰って酒飲みながら考えよう。