pythonでWEBスクレイピングやってみた(html取得）

2018-04-05 2021-10-31

ツイッターの文字、ＷＥＢサイトの情報、アップストアー等のレビュー文言を取得するのに

スクレイピングを行い、そのデータを基にしてテキストマイニングを行っていこうと思います。

スクレイピングでデータを取得する手順

## コマンドプロンプトを起動する（ファイル名を指定して実行→cmd 等）

# 1)pythonがインストールされている事を確認 
python -V
> Python 3.x.x

↓インストールされていない場合はこちらを参照しインストールする

http://www.aoki.ecei.tohoku.ac.jp/~ito/python_windows.html

# 2)requestsをインストールする
pip install requests

# 3)取得したいURLを指定してデータ取得

## pythonの入力モードを起動
python

## requests機能を呼び出し、指定したURLの情報を取得する
import requests
r = requests.get('{urlを指定}')
with open('test.html', 'w') as file:
       file.write(r.text)

これで実行したディレクトリ直下に、test.htmlという名前で指定したURL内のコードが取得される。