【Python】数据可视化之核密度
KDEPlot(Kernel Density Estimate Plot,核密度估计图)是seaborn库中一个用于数据可视化的函数,它基于核密度估计(KDE)这一非参数统计方法来估计数据的概率密度函数。KDEPlot能够直观地展示数据的分布特征,对于单变量和双变量数据均适用。
目录
基本思想
主要参数
沿轴绘制
平滑调整
多类绘制
堆叠分布
二元分布
基本思想
核密度估计(Kernel Density Estimation, KDE)是一种用于估计随机变量概率密度函数的非参数方法。在统计学和概率论中,当我们不知道数据背后的确切分布形式时,核密度估计提供了一种灵活的方式来估计数据的分布形态。这种方法特别适用于小样本数据和复杂分布的情况。
核密度估计的基本思想是将每一个数据点看作是一个小型的、平滑的“核”函数(通常是正态分布、均匀分布或其他形式的对称、平滑函数)的中心,然后计算这些核函数在整个数据空间上的叠加结果。这个叠加的结果就是整个数据集的密度估计。
主要参数
沿轴绘制
沿x轴绘制单变量分布
tips = sns.load_dataset("tips")
sns.kdeplot(data=tips, x="total_bill", shade=True, color="g")
沿y轴绘制单变量分布
sns.kdeplot(data=tips, y="total_bill", shade=True, color="g")
平滑调整
使用更少的平滑
sns.kdeplot(data=tips, x="total_bill", bw_adjust=.1, shade=True, color="b")
使用更多的平滑(不绕过极端值)
ax= sns.kdeplot(data=tips, x="total_bill", bw_adjust=5, cut=0, shade=True, color="b")
多类绘制
绘制多类或多列数据
iris = sns.load_dataset("iris")
sns.kdeplot(data=iris, shade=True)
使用不同的调色
iris = sns.load_dataset("iris")
sns.kdeplot(data=iris, shade=True, palette="crest")
堆叠分布
堆叠条件分布multiple="stack"
sns.kdeplot(data=tips, x="total_bill", hue="time", multiple="stack", palette="PRGn")
按照填充堆叠multiple="fill"
sns.kdeplot(data=tips, x="total_bill", hue="time", multiple="fill",palette="PRGn")
二元分布
绘制x,y的二元分布图
sns.kdeplot(data=geyser, x="waiting", y="duration")
使用 hue 语义映射以显示条件分布
geyser = sns.load_dataset("geyser")
sns.kdeplot(data=geyser, x="waiting", y="duration", hue="kind")
填空含语义映射的条件分布曲线
geyser = sns.load_dataset("geyser")
sns.kdeplot(data=geyser, x="waiting", y="duration", hue="kind", shade=True, shade_lowest=False, cmap="crest")
作者:F_D_Z