数据挖掘之数据标准化(Normalization) - noHup

Loading [MathJax]/jax/output/HTML-CSS/jax.js

数据挖掘之数据标准化(Normalization)

作者：Young | 时间：March 20, 2016 | 分类：机器学习 | 评论：0 评论

Overview

在数据挖掘工作中，往往需要对得到的特征向量进行数据预处理。其中有重要的一步就是标准化(Normalization),也叫“归一化”。其目的就是为了放置得到的多个特征量纲差距过大，从而影响精度，而且也能是模型收敛速度加快。而归一化的方式一般有下面两种。更多详细内容参考维基百科：Normalization (statistics)。

1.1 重新缩放法

这个是最简单的标准化方法，而且是线性的。公式如下：

$X^{'}=a+\left ( b-a \right )\frac{X-X_{min}}{X_{max}-X_{min}}$

其中 $a$ 和 $b$ 分别表示缩放的下限和上限，输入数据和输出数据，原矩阵中最小值和最大值分别由 $X,X^{'},X_{min},X_{max}$ 表示。

1.2 标准化方法

标准化方法有一个好处：python里面的numpy包中有求矩阵均值，标准差等统计参数的函数，很方便。

$x^{'}=\frac{x-\bar{x}}{\sigma }$

其中， $x,\bar{x},\sigma ,x^{'}$ 分别表示原矩阵中需要归一化的输入数据，原矩阵数据的均值，原矩阵数据的标准差，归一化后的输出数据。

标签：normalization , statistics

还不快抢沙发

添加新评论

最新文章

Windows10环境安装Python的Zipline包 TensorFlow 2.0实战Deep&Cross TensorFlow 2.0实战DeepFM 增量学习的主流实现内容相似推荐实现 TensorFlow 2.0使用RNN和LSTM进行文本分类 PySpark笔记之五：lightGBM调参之PySpark + mmlspark + Hyperopt PySpark笔记之四：lightGBM调参之PySpark + mmlspark + Grid Search PySpark笔记之三：lightGBM调参之PySpark + Grid Search PySpark笔记之二：PySpark环境LightGBM训练

最新回复

Kai: 作者您好，我在databricks运行代码，这... Xiaoyang Zhang: 您好我是mac m1芯片已经替换里其中的blast... buy viagra soft tabs: 生物化学基础知识简介 - noHup yuki: 我git mathjax下来找不到mathjax.js... amoxil capsules 500 mg: amoxil 250 mg suspension pe... PSSM（一）-什么是PSSM R11; Ayanokouji Monki的博客: [...]1.构建PSSM的步骤[...] 一条生物狗: 超感谢，有学到东西。找到这儿是为了读博憋文章在学PTM... Google: Check beneath, are some com... wendao: 赞！ Mars: 在版本么有问题的情况下，安装mmlspark等包后，引...

标签

bioinformatics 19 python 14 jeesite 10 r 9 linux 9

其他

文章 RSS 评论 RSS