※以下コードはpython ver3.0以降のコードになっています。ver2の場合はいろいろ書き換えが必要
beautiful soupというライブラリでスクレイピングを行う為、インストールを行う
1)beautifulsoupをインストールする
pip install beautifulsoup4
2)beautifulsoupを使ってwebページのタイトルを取得する
# coding: UTF-8 import urllib.request, urllib.error from bs4 import BeautifulSoup # アクセスするURLを指定する 例はソーシャルゲームインフォの一記事 url = "http://gamebiz.jp/?p=207940" # URLにアクセスする htmlが帰ってくる→<http.client.HTTPResponse object at 0x0000023BC7F91D30> html = urllib.request.urlopen(url) # htmlをBeautifulSoupで扱う soup = BeautifulSoup(html, "html.parser") # タイトル要素を取得する → <title>セガゲームス、『ぷよぷよ!!クエスト』で“ぷよフェスセレクトリトライガチャ”を開催 「大神官ヤナ」「ラフィソル」らが目玉カードとして再登場 | Social Game Info</title> title_tag = soup.title # 要素の文字列のみを取得する → 'セガゲームス、『ぷよぷよ!!クエスト』で“ぷよフェスセレクトリトライガチャ”を開催\u3000「大神官ヤナ」「ラフィソル」らが目玉カードとして再登場 | Social Game Info' title = title_tag.string
3)タイトル要素を出力
title_tag ><title>セガゲームス、『ぷよぷよ!!クエスト』で“ぷよフェスセレクトリトライガチャ”を開催 「大神官ヤナ」「ラフィソル」らが目玉カードとして再登場 | Social Game Info</title>
4)タイトル要素の文字列のみを出力
title >'セガゲームス、『ぷよぷよ!!クエスト』で“ぷよフェスセレクトリトライガチャ”を開催\u3000「大神官ヤナ」「ラフィソル」らが目玉カードとして再登場 | Social Game Info