您正在查看: 机器学习 分类下的文章

训练集归一化和测试集归一化

Overview 做T4这个项目时,训练集采用了1502条正负样本数据,生成了大量的特征,由于各特征数据变化范围差异很大,于是我们按照重新缩放法做了数据的归一化,使得各特征的取值范围均控制在(0,1)内。然而在预测独立测试集3371条正负样本时,遇到一些疑问:独立测试集怎么办?如果独立测试集归一化,该怎么归一化,以谁为基准归一化,即它的最大值和最小值从何而来? 首先,毋庸置疑,独立测试集必...阅读全文>>

python处理数据常用工具包

Overview 在数据挖掘(机器学习)领域,python之所以被广泛应用,与其强大的工具包关系密切。正好最近的项目里频繁地使用python处理数据,于是记录一下python的scipy numpy scikits-learn等几个常用工具包的安装及其常用函数的使用。这里只记录在ubuntu 14.04下的安装使用,Mac系统的参考Chris的另一篇文章:Mac上安装Python机器学习库...阅读全文>>

KNN与K-means的区别

Overview 在机器学习(数据挖掘)领域,有两种算法,经常让初学者混淆,那就是:KNN分类和K-means聚类。而实际上这两种算法没有任何关系,只是名字里面都有一个K。下面,我们记录一下这两种算法,并分析一下它们的区别。 1.KNN分类 实际上KNN算法也可以用来做回归,但是我们这里只讨论分类。KNN全名是k-Nearest Neighbors,用法如下: (1).将已经分好类的样本的...阅读全文>>

数据挖掘之数据标准化(Normalization)

Overview 在数据挖掘工作中,往往需要对得到的特征向量进行数据预处理。其中有重要的一步就是标准化(Normalization),也叫“归一化”。其目的就是为了放置得到的多个特征量纲差距过大,从而影响精度,而且也能是模型收敛速度加快。而归一化的方式一般有下面两种。更多详细内容参考维基百科:Normalization (statistics)。 1.1 重新缩放法 这个是最简单的标准化方...阅读全文>>

python计算smoothed PSSM(二)

Overview 上一篇文章python计算smoothed PSSM(一)当中,介绍了以当前氨基酸残基为基点,左右取相同数目的序列,然后叠加计算。Chris介绍,这样的算法有特定的用场:蛋白质后修饰。但是,普通的蛋白质序列提取特征就不太适用了:因为窗口值(smoothed window)只能取奇数,而如果有偶数长度的序列片段包含有特征,这种算法就会漏掉。于是决定写一个新的python脚本...阅读全文>>

python计算smoothed PSSM(一)

Overview 最近几天,Chris和我看了很多论文,对PSSM有了更深的认识。但是,鉴于PSSM本身包含单个位置的信息更明显,而几乎没有包含蛋白质序列片段信息,我们两人思考如何将蛋白质序列片段信息编码,终于找到了一种PSSM的处理方式,这种方式叫做smoothed window,特此记录一下。 该算法原理,请参考这篇论文:Predicting RNA-binding sites of ...阅读全文>>

R中randomForest包与ggplot2的一个不兼容问题

Overview 在做实验的时候因为要用到随机森林,所以使用了R中的randomForest包,但在画图的时候报了一个非常诡异的错误。 1. 错误描述 下面是我引入randomForest包之后的代码,这里省略了一些细节,只保留跟错误有关的代码: ## randomforest library("randomForest") # randomfo...阅读全文>>

R语言学习笔记(一)

写在前面的后记 昨晚写完这一篇的时候,Chris看了之后跟我讨论道:“R语言开篇讲述的基本数据类型为什么和C语言等编程语言不同?”后来得出结论:每种语言都有其最适用的领域,以R为例,它主要运用在统计学领域,处理大量数据,基本单位就是向量(vector),故将其他语言中的int类型视为最简单的一维向量,如c(5)。我后来验证了从矩阵中取出一个值,类型为vector。同样的道理,Perl语言...阅读全文>>

Mac上安装Python机器学习库scikit-learn

Overview 因为最近需要用到一些机器学习算法,Python的scikit-learn提供很多机器学习算法实现,可以很方便地用来做实验。今天在自己的电脑上安装了scikit-learn,并在此记录了安装的步骤。 安装pip 由于scikit-learn官方给的步骤是使用pip安装,所以要先安装pip。我是用了pip官方提供的安装页面 但是没有成功。因此想使用homebrew安装pip。使...阅读全文>>