google colabに初期提供されている(2021/9/22時点)カルフォルニアハウジングのテストデータを使って、Pandas-Profilingでサクッとcolab上に可視化してみましたので参考コードを紹介します。
Pandas-Profilingの特徴と用途(AutoVizの類似機能)
・データの概要(分布や相関など)を一発で可視化する便利ツール
・簡易に探索的データ解析(EDA: Exploratory data analysis)を行うことで、データの理解を深めて分析の方向性をさぐることができる
・データの特徴を掴む為の調査コストを削減することができるようになった
サンプルコード
# インストール !pip install git+https://github.com/pandas-profiling/pandas-profiling.git # ライブラリのインポート import pandas as pd from pandas_profiling import ProfileReport from pandas_profiling.utils.cache import cache_file # colabにデフォルトで入っているデータを読み込む df = pd.read_csv("/content/sample_data/california_housing_test.csv",index_col=0) # Pandas-Profilingでレポートを生成 profile = ProfileReport(df) # レポートの表示 profile
出力結果
以下のように、データの概要、変数のサマリ・分布、項目の相互作用・相関関係・欠損値・サンプルなどが一気に出力されます。
AutoVizとPandas-Profilingを両方試してみました(AutoVizの記事はこちら)
・AutoVizはグラフで見せる形に特化しているので、慣れていないとわかりにくいかもしれない。
・Pandas-Profilingは数値やサンプルデータなども表示することでよりデータの理解を深めやすい気がする。
個人的にですが、Pandas-Profilingの方が実務で参照することが多い情報に近い為、自分は使いやすいと思いました。