![数据科学与机器学习:数学与统计方法](https://wfqqreader-1252317822.image.myqcloud.com/cover/83/47684083/b_47684083.jpg)
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人
1.5.3 双变量的数据可视化
本节将介绍一些有用的视觉辅助工具,以探索两个特征之间的关系。图形表示方式将取决于这两个特征的类型。
1.两个类别变量的图
两个类别变量的对比条形图需要在图中引入子图。图1.5是1.3节中列联表的可视化图形,此图交叉显示老年人家庭状况与性别。这里只是在同一个图形中显示两个相邻的条形图。
![](https://epubservercos.yuewen.com/C30954/27086998107751806/epubprivate/OEBPS/Images/23_04.jpg?sign=1739229977-GN9K97jvmYzH9a9sOmm1aWQhjDvr8lpw-0-3e991ff8caecc1e40272546426a47c83)
图1.5 两个类别变量的条形图
该图是使用seaborn软件包制作的,seaborn是专为简化统计可视化任务设计的。
![](https://epubservercos.yuewen.com/C30954/27086998107751806/epubprivate/OEBPS/Images/24_01.jpg?sign=1739229977-ZZxWmX0ohWO5UWCw8KMViY9rnhW68mSs-0-eb53a66790954bdcb569ab7f2e0d2c73)
2.两个定量变量的图
我们可以使用散点图将两个定量特征之间的模式可视化。这可以用plt.scatter命令实现。下面的代码可生成nutri数据中weight相对height的散点图,如图1.6所示。
![](https://epubservercos.yuewen.com/C30954/27086998107751806/epubprivate/OEBPS/Images/24_02.jpg?sign=1739229977-OYSEk1cDkKm3Az1I9Cd3tGpOadX5RbLh-0-f60273d796b1479796ea1bd7a1398298)
![](https://epubservercos.yuewen.com/C30954/27086998107751806/epubprivate/OEBPS/Images/24_03.jpg?sign=1739229977-6qcMceZ5KObM1oxeQzkhnbhD4ZnxmwdD-0-d749262cd09e34bdfe3389b4bf951487)
图1.6 weight(体重)相对height(身高)的散点图
下面的Python代码演示了怎样绘制高度复杂的散点图,如图1.7所示。图中显示了婴儿出生体重与母亲抽烟(三角形)或母亲不抽烟(圆圈)的关系。另外,对两组数据进行直线拟合,结果表明:母亲抽烟时,婴儿出生体重随母亲年龄的增加而下降;母亲不抽烟时,婴儿出生体重随母亲年龄的增加而增加!问题是这些趋势是有统计学意义,还是纯属偶然。我们将在本书后面重新讨论这个数据集。
![](https://epubservercos.yuewen.com/C30954/27086998107751806/epubprivate/OEBPS/Images/24_04.jpg?sign=1739229977-bpVTHYrqzADEszm6rlJG0DB06lKVmZpW-0-0349bcb593a8530e3610bb5551ecb290)
![](https://epubservercos.yuewen.com/C30954/27086998107751806/epubprivate/OEBPS/Images/25_01.jpg?sign=1739229977-Q9D3bfnCvxNLJHeH6NTbbbO2mqvg7Ywu-0-4304e8f84fb0c61c71c03e861a36ca45)
![](https://epubservercos.yuewen.com/C30954/27086998107751806/epubprivate/OEBPS/Images/25_02.jpg?sign=1739229977-JkDBcZiBZzc9mySLgrddQhLT9g08ieYq-0-688a14b1a5cd6ba0c92315ef6129da11)
图1.7 婴儿出生体重与抽烟或不抽烟母亲的年龄关系
3.定性变量和定量变量的图
在这种情况下,针对每个分类特征绘制定量特征的箱形图很有意思。假设变量结构正确,使用以下代码中的plt.boxplot函数可以生成图1.8:
![](https://epubservercos.yuewen.com/C30954/27086998107751806/epubprivate/OEBPS/Images/25_03.jpg?sign=1739229977-5FKqcMtNI9AhGwbKQ7NwKQgfCnRIB53I-0-99c755f474c5e603edc6b426106c93a9)
![](https://epubservercos.yuewen.com/C30954/27086998107751806/epubprivate/OEBPS/Images/25_04.jpg?sign=1739229977-Vrv5JDUdfquCKziXAu43sgiM0kcYBcbe-0-995c752382af13034ef70f0c34eaa8fa)
图1.8 将定量特征coffee(每天咖啡消耗量)看作分类特征gender(性别)的函数,绘制箱形图。注意,我们这次使用了“缺口”样式的箱形图