2017年04月 / 03月≪ 123456789101112131415161718192021222324252627282930≫05月

2010.05.07 (Fri)

[Python] BeautifulSoupでHTML取り込み時の日本語文字化け

BeautifulSoupであるHTMLページを読み込んでいたのだが、どうもBeautifulSoupにかけた時点で日本語がおかしくなる。
他のページではちゃんと日本語が取りこめているのだが、どうもそのページはダメ。
ページの情報量は多くないから、正規表現使って直接情報抜き出そうと思います。


Python(2.5)を触っていて、悩まされる半分以上の問題がこういう日本語の問題。
Python3に完全に移行したらこういう問題なくなるのかなぁ。
というわけで、今作ろうと思っているものを作り終えたら、Python3がメジャーになるまであまり触らなくなると思う。
EclipseのPythonプラグインもなんだかエラー吐くし。
さっさと作ってJava使いになる勉強しよっと。


テーマ : プログラミング ジャンル : コンピュータ

04:39  |  Python  |  TB(0)  |  CM(0)  |  EDIT  |  Top↑

*Comment

コメントを投稿する

URL
COMMENT
PASS  編集・削除するのに必要
SECRET  管理者だけにコメントを表示  (非公開コメント投稿可能)
 

▲PageTop

*Trackback

この記事のトラックバックURL

→http://gasser.blog114.fc2.com/tb.php/424-3e347f21

この記事にトラックバックする(FC2ブログユーザー)

この記事へのトラックバック

▲PageTop

 | BLOGTOP |