どんなデータを どんな風に分析したいか。その時、どのチャートが効果的か。
Python組み込み関数、便利なライブラリを活用してデータセットを整え、効果的な可視化を行おう。
リンク
基本:まず可視化したいDataFrameを作成する
プロット用関数を作って使いまわす
視点別
データ型別
連続値
離散値
データ可視化に使うライブラリ
Python標準ライブラリ
Collections Counter()メソッドは文章中から頻出文字を抽出してくれる強い味方
外部ライブラリ
Pandas 行列データを扱う基本
Matplotlib グラフ描画の基本
Seaborn Matplotlibラッパー より簡単により美しく
Plotly インタラクティブ iframeでHTML埋込可能
Bokeh モダン・インタラクティブ・動的なグラフ作成
PyGWalker ノーコード GUI ドラッグ&ドロップ
お決まりのインポート句
import pandas as pd pd.plotting.register_matplotlib_converters() # datetime型のデータを扱う場合 import matplotlib.pyplot as plt %matplotlib inline import seaborn as sns import plotly.graph_objects as go import plotly.express as px from bokeh.plotting import figure, show import pygwalker as pyg
データ可視化 学習のためのデータセット
Seaborn のサンプルデータセット:
seaborn.load_dataset(“tips”) でチップのデータセットを取得できます。
Iris データセット:
アヤメの花の3つの品種(Setosa、Versicolor、Virginica)の特徴量(がく片と花びらの長さ、幅)を含むデータセット。
数値データの可視化の学習に。
Titanic データセット:
タイタニック号の乗客の情報(年齢、性別、階級、生存結果など)を含むデータセット。
生存率や乗客属性の可視化の学習に。
Wine データセット:
ワインの特性(アルコール度数、酸度、フェノール濃度など)を含むデータセット。
クラス分類や特性の相関の可視化の学習に。
Breast Cancer Wisconsin データセット:
乳がんの診断に関連する特徴量(細胞の大きさ、一様性、境界の滑らかさなど)を含むデータセット。
クラス分類や特性の相関の可視化の学習に。
Boston Housing データセット:
ボストン市の住宅価格に関連する特徴量(犯罪率、部屋数、教育施設のアクセスなど)を含むデータセット。
回帰分析や価格予測の可視化の学習に。
California Housing データセット:
カリフォルニア州の住宅価格に関連する特徴量(人口、収入、部屋数など)を含むデータセット。
地理的な可視化や価格分布の解析の学習に。
Fashion MNIST データセット:
10種類のファッションアイテム(Tシャツ、靴、バッグなど)の画像データを含むデータセット。
画像処理や畳み込みニューラルネットワークの可視化の学習に。