Overview 由于我们服务器(Ubuntu 16.0)上的Tomcat 7太老了,想更新一个新版本的Tomcat 8。目前没找到在Ubuntu 16.0中自动安装Tomcat 8的办法,所以在这里记录一下手动安装过程。 如果服务器之前没有安装其他版本的Tomcat,可以直接跳到下面Tomcat 8安装部分。 1. 停用当前的Tomcat 以我们系统中的Tomcat 7为例,该Tomca...阅读全文>>
Overview 由于我们服务器(Ubuntu 16.0)上的Tomcat 7太老了,想更新一个新版本的Tomcat 8。目前没找到在Ubuntu 16.0中自动安装Tomcat 8的办法,所以在这里记录一下手动安装过程。 如果服务器之前没有安装其他版本的Tomcat,可以直接跳到下面Tomcat 8安装部分。 1. 停用当前的Tomcat 以我们系统中的Tomcat 7为例,该Tomca...阅读全文>>
Overview 之前的文章,我们记录了如何用TensorFlow 2.0中的Keras模块实现DeepFM算法,TensorFlow 2.0实战DeepFM。本文继续用TensorFlow 2.0来实现另一个常见的深度学习推荐算法Deep&Cross。 1. 加载并处理数据 依然沿用之前的1,000,000条criteo数据。 import numpy as np import ...阅读全文>>
Overview 推荐系统最核心的部分在于排序算法,也就是我们说的CTR预估问题。这部分算法在最近几年发展迅速,我们这篇文章,希望用经典的criteo数据集,和TensorFlow 2.0中的Keras模块,来演示一下DeepFM是怎么做CTR预估的。 1. 准备数据 在这里下载criteo数据集:Download Kaggle Display Advertising Challenge ...阅读全文>>
Overview 最近在做拒绝推断的尝试,需要从Cassandra快照库里面用PySpark把那些被模型拒绝的申请单子对应的特征快照取出来,这里记录一下怎么来做。 1. 取特征 被拒绝的用户是没有order_sn的,我们只能通过credit_trace_id去查找对应的快照,然而我们的快照库和模型打分库是没有办法关联的,所以,我们拿到每一条模型打分记录之后,只能去查找模型打分时间之前的该用...阅读全文>>
Overview 本篇文章我们记录一下怎么用TensorFlow 2.0当中的Keras模块来进行RNN和LSTM文本分类。 1. 加载IMDB评论数据 import tensorflow_datasets as tfds import tensorflow as tf from tensorflow.keras import models, layers, losses, optimiz...阅读全文>>
Overview 之前的文章中记录了大数据平台上lightGBM分类器的Grid Search调参方法的应用。这次我们继续用lightGBM分类器,看看另外两种常用的调参方法随机搜索Random Search和贝叶斯优化Bayesian Optimization怎么在Spark平台上使用。 1. 加载相关包 import numpy as np import pyspark spark =...阅读全文>>
Overview 上一篇文章PySpark笔记之三:lightGBM调参之PySpark + Grid Search,我们记录了分别用PySpark中自带的CrossValidator和更通用的生成多个分类器同时执行训练预测的方式选取最好的模型。其中CrossValidator并不能得到验证集上最佳的分类器,而是得到训练集上最佳的效果。而mmlspark当中却有更为简单的方式,既可以得到验...阅读全文>>
Overview 在实际机器学习工作当中,调参是我们一个重要的内容。PySpark当中就实现了一个最常用的调参方法Grid Search,我们结合lightGBM使用一下PySpark的调参。这个程序需要安装的依赖的安装方式,可以参考上一篇博客。 1. 引入依赖包 import numpy as np import pyspark spark = pyspark.sql.SparkSess...阅读全文>>