PySpark笔记之一:读写数据

Overview PySpark是提供了Python语言API接口的Spark,经过我的初步使用,未发现和Scala API的Spark有太大差别。且我们服务器上已经配置好了PySpark,正好配合Jupyter notebook使用来进行机器学习离线训练模型。 从这篇文章开始,将从一个算法工程师的视角去记录一下Spark的使用。 Spark在我看来就是一个计算工具,用来处理单机计算不了的...阅读全文>>

TensorFlow 2.0训练结构化数据

Overview 近期正在更新新用户模型,仍然在用XGBoost。由于训练集数据已经达到20W,故用神经网络来训练一下,看看效果如何。 TensorFlow 2.0集成了Keras,易用性很高,且Keras之后不再单独更新了,而是作为TensorFlow的一个模块来使用。我们这次就用TensorFlow 2.0中的tf.keras来训练我们的结构化数据。 1. 导入特征列表及数据 impo...阅读全文>>

信贷模型经验总结

Overview 互联网金融行业主要涉及以下方面:保险、理财、基金、信贷、虚拟信用卡、催收等,主要用到以下类型的模型: 新用户营销模型、老用户召回模型(支付宝蚂蚁财富基金推荐红包发放等) 新用户反欺诈模型 新老用户信用额度模型(蚂蚁借呗,腾讯微粒贷,京东金条,微博钱包,美团借钱,各类小贷等) 虚拟信用卡贷中风控模型(蚂蚁花呗,京东白条等) 贷后催收模型 我在互联网金融行业已经工作两年了...阅读全文>>

IntelliJ IDEA中创建Spark项目

Overview 之前项目的人遗留的数据被接管后进行了改造,现在处理数据都用Spark来做了。这里记录一下如何在Mac本地的IntelliJ IDEA中搭建一个简单的Spark项目。这里不涉及HDFS这些相关的内容,只记录Spark。 在此之前,我们默认已经安装好了最新版的IntelliJ IDEA以及配置好了JDK。 1. IDEA中安装Scala插件 在IDEA的启动页面,点击Conf...阅读全文>>

Python3连接PostgreSQL数据库

Overview 之前项目的人遗留的数据散落在多种数据库中,既有MySQL,MongoDB,也有Cassandra和PostgreSQL。在Python3版本的jupyter中连接PostgreSQL需要安装psycopg2,而psycopg2在Python2中则是已经集成好的。 1. 安装python3-psycopg2和libpq-dev 先在Linux上安装好这两个包, sudo a...阅读全文>>