您正在查看: 2016年3月

数据挖掘之数据标准化(Normalization)

Overview 在数据挖掘工作中,往往需要对得到的特征向量进行数据预处理。其中有重要的一步就是标准化(Normalization),也叫“归一化”。其目的就是为了放置得到的多个特征量纲差距过大,从而影响精度,而且也能是模型收敛速度加快。而归一化的方式一般有下面两种。更多详细内容参考维基百科:Normalization (statistics)。 1.1 重新缩放法 这个是最简单的标准化方...阅读全文>>

python计算smoothed PSSM(二)

Overview 上一篇文章python计算smoothed PSSM(一)当中,介绍了以当前氨基酸残基为基点,左右取相同数目的序列,然后叠加计算。Chris介绍,这样的算法有特定的用场:蛋白质后修饰。但是,普通的蛋白质序列提取特征就不太适用了:因为窗口值(smoothed window)只能取奇数,而如果有偶数长度的序列片段包含有特征,这种算法就会漏掉。于是决定写一个新的python脚本...阅读全文>>

python计算smoothed PSSM(一)

Overview 最近几天,Chris和我看了很多论文,对PSSM有了更深的认识。但是,鉴于PSSM本身包含单个位置的信息更明显,而几乎没有包含蛋白质序列片段信息,我们两人思考如何将蛋白质序列片段信息编码,终于找到了一种PSSM的处理方式,这种方式叫做smoothed window,特此记录一下。 该算法原理,请参考这篇论文:Predicting RNA-binding sites of ...阅读全文>>