机器学习:使用OpenCV、Python和scikit-learn进行智能图像处理(原书第2版)
上QQ阅读APP看书,第一时间看更新

第4章 数据表示和特征工程

在第3章中,我们建立了第一个监督学习模型,并将其应用于一些像IrisBoston这样的经典数据集。但是,在现实世界中,作为预封装数据库一部分的数据很少以简洁的<n_samples x n_features>特征矩阵的形式出现。我们的任务是找到一种有意义的方式表示数据。寻找表示数据最优方法的过程称为特征工程(feature engineering),这是数据科学家和机器学习实践者试图解决实际问题的主要任务之一。

我知道你更愿意跳到最后去建立人们见过的最深神经网络。但是,请相信我,特征工程这个内容很重要!用正确的方式表示我们的数据比我们选择精确的参数对监督模型性能的影响更大。我们也可以开始创造自己的特征了。因此,在这一章,我们将回顾一些常见的特征工程任务。我们将要介绍预处理、缩放技术以及降维。我们还将学习表示类别变量、文本特征以及图像。

本章将介绍以下主题:

  • 一学就会的常见预处理技术。
  • 中心缩放及多维缩放。
  • 类别变量的表示。
  • 使用PCA之类的技术对数据降维。
  • 文本特征的表示。
  • 学习图像编码的最佳方法。

让我们从头开始介绍吧!