2017年03月 / 01月≪ 12345678910111213141516171819202122232425262728293031≫03月

2010.05.07 (Fri)

[Python×BeautifulSoup]PythonでHTMLの解析メモ

最近、Pythonで遊んでます。
で、PythonのHTMLやXMLなどを解析するのに役立つ、BeautifulSoupというモジュールが有ります。
これを使えばタグの内容やタグの値が簡単に取得することができます。
但し、BeautifulSoupに通すと大文字だったタグが小文字になるので注意。

たとえば、


< TABLE width="100%" border="1" bordercolorlight="#cccccc" bordercolordark="#aaaaaa">
  < TR height="10">
   < TH bgcolor="#ffff7d">abc < /TH>
   < TH bgcolor="#ffff7d">ABC < /TH>
  < /TR>
< /TABLE>

のようなHTMLは

< table width="100%" border="1" bordercolorlight="#cccccc" bordercolordark="#aaaaaa">
  < tr height="10">
   < th bgcolor="#ffff7d" > abc < /th >
   < th bgcolor="#ffff7d" > ABC < /th >
  < /tr >
< /table >

のようになります。
※このBlogのシステム的な都合により、"<"の脇にスペースが入っています。


テーマ : プログラミング ジャンル : コンピュータ

04:04  |  Python  |  TB(0)  |  CM(0)  |  EDIT  |  Top↑

*Comment

コメントを投稿する

URL
COMMENT
PASS  編集・削除するのに必要
SECRET  管理者だけにコメントを表示  (非公開コメント投稿可能)
 

▲PageTop

*Trackback

この記事のトラックバックURL

→http://gasser.blog114.fc2.com/tb.php/423-10b9104b

この記事にトラックバックする(FC2ブログユーザー)

この記事へのトラックバック

▲PageTop

 | BLOGTOP |