当前位置：时代头条 > 正文

有监督机器学习优化之样本角度

有监督机器学习可以从样本、特征和算法三个角度来优化。样本和特征决定效果的上界，算法决定到效果上界的距离。本文重点介绍工业界从样本维度优化有监督机器学习问题的方式，可以分为真实、准确、丰富三个角度。

真实：是指样本来源于真实场景，而非作弊数据、内部测试数据、内部IP访问数据等。清理作弊数据需要反作弊工作，主要有基于规则、基于模型或二者结合的方式，同时需要熟悉作弊手段，反作弊涉及内容较多，这里不详细介绍。清理测试数据和内部IP访问数据方式较为直接。
准确：是训练数据与真实场景一致。一方面，构造样本需要进行拼接操作，例如CTR中的展现和点击拼接，需要保证拼接的准确率，同时要兼顾样本生成的时效性（对于搜索广告、新闻推荐等场景时效性提升会带来明显的效果提升）；另一方面，需要过滤异常日志、进行日志去重等。
丰富：是指尽量使用多种类型的样本数据描述问题场景，例如新闻推荐场景下预估用户对新闻的感兴趣程度时，除了使用CTR外，还可以使用文章正文停留时长、是否有分享、点赞等行为。引入多种样本数据通常可以带来明显的效果提升。另外，如果样本不足时，可以考虑引入不同场景下的同种类型数据，例如无线CTR预估场景的样本不足时，可以引入PC场景下的样本，但要注意消偏。