PythonでWEBスクレイピングやってみた(タイトルのみ抽出)

2018-04-05 2024-02-19

※以下コードはpython ver3.0以降のコードになっています。ver2の場合はいろいろ書き換えが必要

beautiful soupというライブラリでスクレイピングを行う為、インストールを行う

1)beautifulsoupをインストールする

pip install beautifulsoup4

2)beautifulsoupを使ってwebページのタイトルを取得する

# coding: UTF-8
import urllib.request, urllib.error
from bs4 import BeautifulSoup
 
# アクセスするURLを指定する　例はソーシャルゲームインフォの一記事
url = "http://gamebiz.jp/?p=207940"
 
# URLにアクセスする htmlが帰ってくる→<http.client.HTTPResponse object at 0x0000023BC7F91D30>
html = urllib.request.urlopen(url)
 
# htmlをBeautifulSoupで扱う
soup = BeautifulSoup(html, "html.parser")
 
# タイトル要素を取得する → <title>セガゲームス、『ぷよぷよ!!クエスト』で“ぷよフェスセレクトリトライガチャ”を開催　「大神官ヤナ」「ラフィソル」らが目玉カードとして再登場 | Social Game Info</title>
title_tag = soup.title
 
# 要素の文字列のみを取得する → 'セガゲームス、『ぷよぷよ!!クエスト』で“ぷよフェスセレクトリトライガチャ”を開催\u3000「大神官ヤナ」「ラフィソル」らが目玉カードとして再登場 | Social Game Info'
title = title_tag.string

3)タイトル要素を出力

title_tag
><title>セガゲームス、『ぷよぷよ!!クエスト』で“ぷよフェスセレクトリトライガチャ”を開催　「大神官ヤナ」「ラフィソル」らが目玉カードとして再登場 | Social Game Info</title>

4)タイトル要素の文字列のみを出力

title
>'セガゲームス、『ぷよぷよ!!クエスト』で“ぷよフェスセレクトリトライガチャ”を開催\u3000「大神官ヤナ」「ラフィソル」らが目玉カードとして再登場 | Social Game Info