相関を見る

変数間の相関係数を見る Titanicデータセット使用

# 数値カラムだけで相関を見る
df1 = df.select_dtypes([int,float])
df_corr1 = df1.corr()
plt.figure()
sns.heatmap(df_corr1, square=True, fmt=".1f", annot=True, cmap="YlGnBu")
plt.title('correspondence')
plt.show()
# カテゴリ値カラムを合わせて相関を見る
df2 = df1 # 結合先を作成

# カテゴリ値をラベルエンコーディング
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
df_obj = df.select_dtypes(include=object)
lst = df_obj.columns
for e in lst:
    df2[e] = le.fit_transform(df_obj[e])

df_corr2 = df2.corr()
plt.figure()
sns.heatmap(df_corr2, square=True, fmt=".1f", annot=True, cmap="YlGnBu")
plt.title('correspondence')
plt.show()

回帰問題

x:離散値 y:連続値

Seaborn

sns.violinplot()

sns.violinplot(data=df, x="説明変数", y="目的変数")

x:連続値 y:連続値

Seaborn

sns.jointplot()

sns.jointplot(data=df, x="説明変数", y="目的変数")

分類問題

x:離散値 y:離散値

Seaborn

sns.countplot()

sns.countplot(data=df, x="説明変数", hue="目的変数") # x と hue はどちらを入れても描画可能

x:連続値 y:離散値

Seaborn

sns.FacetGrid()

g=sns.FacetGrid(data=df, hue="目的変数", size=5)
g.map(sns.distplot, "説明変数")
g.add_legend()