当前位置: 时代头条 > 正文

有监督机器学习优化之样本角度

有监督机器学习可以从样本、特征和算法三个角度来优化。样本和特征决定效果的上界,算法决定到效果上界的距离。本文重点介绍工业界从样本维度优化有监督机器学习问题的方式,可以分为真实准确丰富三个角度。

  1. 真实:是指样本来源于真实场景,而非作弊数据、内部测试数据、内部IP访问数据等。清理作弊数据需要反作弊工作,主要有基于规则、基于模型或二者结合的方式,同时需要熟悉作弊手段,反作弊涉及内容较多,这里不详细介绍。清理测试数据和内部IP访问数据方式较为直接。

  2. 准确:是训练数据与真实场景一致。一方面,构造样本需要进行拼接操作,例如CTR中的展现和点击拼接,需要保证拼接的准确率,同时要兼顾样本生成的时效性(对于搜索广告、新闻推荐等场景时效性提升会带来明显的效果提升);另一方面,需要过滤异常日志、进行日志去重等。

  3. 丰富:是指尽量使用多种类型的样本数据描述问题场景,例如新闻推荐场景下预估用户对新闻的感兴趣程度时,除了使用CTR外,还可以使用文章正文停留时长、是否有分享、点赞等行为。引入多种样本数据通常可以带来明显的效果提升。另外,如果样本不足时,可以考虑引入不同场景下的同种类型数据,例如无线CTR预估场景的样本不足时,可以引入PC场景下的样本,但要注意消偏。

最新文章