相関を見る
変数間の相関係数を見る Titanicデータセット使用
# 数値カラムだけで相関を見る df1 = df.select_dtypes([int,float]) df_corr1 = df1.corr() plt.figure() sns.heatmap(df_corr1, square=True, fmt=".1f", annot=True, cmap="YlGnBu") plt.title('correspondence') plt.show()
# カテゴリ値カラムを合わせて相関を見る df2 = df1 # 結合先を作成 # カテゴリ値をラベルエンコーディング from sklearn.preprocessing import LabelEncoder le = LabelEncoder() df_obj = df.select_dtypes(include=object) lst = df_obj.columns for e in lst: df2[e] = le.fit_transform(df_obj[e]) df_corr2 = df2.corr() plt.figure() sns.heatmap(df_corr2, square=True, fmt=".1f", annot=True, cmap="YlGnBu") plt.title('correspondence') plt.show()
回帰問題
x:離散値 y:連続値
Seaborn
sns.violinplot()
sns.violinplot(data=df, x="説明変数", y="目的変数")
x:連続値 y:連続値
Seaborn
sns.jointplot()
sns.jointplot(data=df, x="説明変数", y="目的変数")
分類問題
x:離散値 y:離散値
Seaborn
sns.countplot()
sns.countplot(data=df, x="説明変数", hue="目的変数") # x と hue はどちらを入れても描画可能
x:連続値 y:離散値
Seaborn
sns.FacetGrid()
g=sns.FacetGrid(data=df, hue="目的変数", size=5) g.map(sns.distplot, "説明変数") g.add_legend()