【PPT+实录】携程酒店研发部BI经理潘鹏举:机器学习在OTA酒店服
看一些模型的对比结果。 横轴是Recall纵轴是precision,有好几个模型进行对比看哪个是最好的。里面有个单变量模型,拿出很简单的规则试验一下,看看用单一变量的效果,模型做的太复杂,做到最后如果连单变量都不如那就是建模失败了。 主要目的是设定不同的基准值,有一些基准值,才会有模型优化方向。再看其他的,好几层嵌套的模式,第二层模型,第三层模型,最右边就是效果最佳的,最后直接上线的会用效果最佳的模型。 ??? 另一个对比结果,看一下用GMB+SVD++衍生新变量产生的一些效果。横轴是各个模型,纵轴是准确率,它有一个隐含条件,Recall都等于20%。 从左到右,左边是传统的一些模型,比如说LASSO,KNN,LR,越往中间用的是比较常用的集成方法,再往下就是随机森林,GBDT。再往右边可能会更复杂,不同的模型组合训练出来的结果。 效果最好的是GBM+SVD++。 SVD++,起的这个作用。学习出时间和房型,不同的房型根据他历史的满房的走势可以学习出来哪些房型走势很相同的,所以用了这种LatentFactor挖掘方法,去发现哪类房型它的走势是属于这里面哪种情况.。 ?? 再看Entropy转换的效果。横轴是recall,纵轴是Precision,往下看recall越高,Precision越低,效果不是很明显。 ??? 在实际应用过程中,比如分类模型,只会关心预测为1的precision的 recall。 ??? 经验总结。 ??? 之前碰到的一个比较有趣的问题。首先训练出来一个模型,这个模型线下准确性比较好。 ??? 到了线上,当时有一些系统架构的问题,它对有些变量时效性做了阉割,延迟两个小时。在线上测试发现recall下降非常明显,接着做了二次的改造,把当初阉割的变量从延迟2小时变成实时,模型效果又提升上去。 ??? 现在不管什么模型,用xgboost或者GBDT训练处一个基准值,以这个基准值做后续优化。有时候有可能你持续优化后的模型比这单一模型的提升幅度不明显。 ?? 一直强调数据校验,数据校验真的非常重要,在Feature上要花很多的时间,像现在有些比赛,开放性的比赛,会用十到二十个或者一百个模型做一些融合,这个复杂度非常高,在实际应用上,其实是不怎么会用这种方法。 ??? (编辑:好传媒网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |