精读《设计机器学习系统》-ch04: 训练数据

不同于 Chapter03 从系统的角度来处理数据，这一章从数据科学的视角来处理数据。这章的标题是“training Data”，而非“training dataset”，因为数据集(dataset) 意味着有限(finite)和固定(stationary), 而现实生产环境中的数据(data) 通常是无限并且不固定的。抽样抽样方法在 ML 项目的生命周期中无处不在，在这一节中，我们使用生成训练数据作为例子。那为什么需要抽样？直接使用全部数据不可以吗？首先，在现实世界中，并不...