どんなデータを どんな風に分析したいか。その時、どのチャートが効果的か。
Python組み込み関数、便利なライブラリを活用してデータセットを整え、効果的な可視化を行おう。

リンク


基本:まず可視化したいDataFrameを作成する
   プロット用関数を作って使いまわす

視点別

分布が見たい

ヒストグラム
(連続値:単一)
箱ひげ図
(連続値:複数)

比較したい

棒グラフ
(離散値)
積上げ棒グラフ
(離散値)

推移が見たい

相関が見たい

散布図
(連続値)
ヒートマップ
(離散値)

データ型別

連続値

ヒストグラム
(分布:単一)
箱ひげ図
(分布:複数)
散布図
(2項目の相関)

離散値

棒グラフ
(比較)
帯グラフ
(内訳)
積上げ棒グラフ
(比較&内訳)
ヒートマップ
(相関)

データ可視化に使うライブラリ

Python標準ライブラリ
 Collections Counter()メソッドは文章中から頻出文字を抽出してくれる強い味方

外部ライブラリ
 Pandas  行列データを扱う基本
 Matplotlib グラフ描画の基本
 Seaborn  Matplotlibラッパー より簡単により美しく
 Plotly   インタラクティブ iframeでHTML埋込可能
 Bokeh   モダン・インタラクティブ・動的なグラフ作成
 PyGWalker ノーコード GUI ドラッグ&ドロップ

お決まりのインポート句

import pandas as pd
pd.plotting.register_matplotlib_converters() # datetime型のデータを扱う場合
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns
import plotly.graph_objects as go
import plotly.express as px
from bokeh.plotting import figure, show
import pygwalker as pyg

データ可視化 学習のためのデータセット

Seaborn のサンプルデータセット:
seaborn.load_dataset(“tips”) でチップのデータセットを取得できます。

Iris データセット:
アヤメの花の3つの品種(Setosa、Versicolor、Virginica)の特徴量(がく片と花びらの長さ、幅)を含むデータセット。
数値データの可視化の学習に。

Titanic データセット:
タイタニック号の乗客の情報(年齢、性別、階級、生存結果など)を含むデータセット。
生存率や乗客属性の可視化の学習に。

Wine データセット:
ワインの特性(アルコール度数、酸度、フェノール濃度など)を含むデータセット。
クラス分類や特性の相関の可視化の学習に。

Breast Cancer Wisconsin データセット:
乳がんの診断に関連する特徴量(細胞の大きさ、一様性、境界の滑らかさなど)を含むデータセット。
クラス分類や特性の相関の可視化の学習に。

Boston Housing データセット:
ボストン市の住宅価格に関連する特徴量(犯罪率、部屋数、教育施設のアクセスなど)を含むデータセット。
回帰分析や価格予測の可視化の学習に。

California Housing データセット:
カリフォルニア州の住宅価格に関連する特徴量(人口、収入、部屋数など)を含むデータセット。
地理的な可視化や価格分布の解析の学習に。

Fashion MNIST データセット:
10種類のファッションアイテム(Tシャツ、靴、バッグなど)の画像データを含むデータセット。
画像処理や畳み込みニューラルネットワークの可視化の学習に。