您正在查看: 标签 lightgbm 下的文章

增量学习的主流实现

Overview 之前的文章介绍了一些推荐系统的理论知识,理论虽然很容易理解,但是实际项目当中会有一些细节问题是需要我们去解决的。比如在很多流量很大的电商以及资讯网站的推荐系统中,每天的数据其实是增长很快的,所以模型迭代的频率也是非常高的,甚至于需要每天更新。那么我们就要面临一个很现实的问题,我们每天更新模型,那么每次都要用全量数据去训练模型吗?显然这是不可能的。一来耗费资源,二来时间也不...阅读全文>>

PySpark笔记之五:lightGBM调参之PySpark + mmlspark + Hyperopt

Overview 之前的文章中记录了大数据平台上lightGBM分类器的Grid Search调参方法的应用。这次我们继续用lightGBM分类器,看看另外两种常用的调参方法随机搜索Random Search和贝叶斯优化Bayesian Optimization怎么在Spark平台上使用。 1. 加载相关包 import numpy as np import pyspark spark =...阅读全文>>

PySpark笔记之四:lightGBM调参之PySpark + mmlspark + Grid Search

Overview 上一篇文章PySpark笔记之三:lightGBM调参之PySpark + Grid Search,我们记录了分别用PySpark中自带的CrossValidator和更通用的生成多个分类器同时执行训练预测的方式选取最好的模型。其中CrossValidator并不能得到验证集上最佳的分类器,而是得到训练集上最佳的效果。而mmlspark当中却有更为简单的方式,既可以得到验...阅读全文>>

PySpark笔记之三:lightGBM调参之PySpark + Grid Search

Overview 在实际机器学习工作当中,调参是我们一个重要的内容。PySpark当中就实现了一个最常用的调参方法Grid Search,我们结合lightGBM使用一下PySpark的调参。这个程序需要安装的依赖的安装方式,可以参考上一篇博客。 1. 引入依赖包 import numpy as np import pyspark spark = pyspark.sql.SparkSess...阅读全文>>

PySpark笔记之二:PySpark环境LightGBM训练

Overview 就目前的PySpark版本2.4.5来说,虽有pyspark.ml这个模块可以进行机器学习,但是都是一些工业界不太常用的算法,而XGBoost和LightGBM这样的常用算法还没有集成。幸好微软前几年发布了mmlspark这个包,其中包含了深度学习和LightGBM等算法,可以和PySpark无缝对接。下面我们看看怎么用PySpark和mmlspark来运行LightGB...阅读全文>>

互联网金融模型经验总结(一)

Overview 互联网金融行业主要涉及以下方面:保险、理财、基金、信贷、虚拟信用卡、催收等,主要用到以下类型的模型: 营销模型、召回模型、排序模型(支付宝蚂蚁财富基金推荐红包发放等) 新用户反欺诈模型 新老用户信用额度模型(蚂蚁借呗,腾讯微粒贷,京东金条,微博钱包,美团借钱,各类小贷等) 虚拟信用卡贷中风控模型(蚂蚁花呗,京东白条等) 贷后催收模型 我在互联网金融行业已经工作两年了,...阅读全文>>