Overview 在转换fasta格式的文件为chen's format文件时,发现前人的程序有些bug,会将最后一条正样本的class标记为-1于是将程序改了一下,这下就没有问题了。 解决方案 fasta格式如下,第一行为头信息,第二行为氨基酸序列: >sp|Q2YIT7|VIRB3_BRUA2 Type IV secretion system protein virB3 OS=B...阅读全文>>
R语言学习笔记(一)
写在前面的后记 昨晚写完这一篇的时候,Chris看了之后跟我讨论道:“R语言开篇讲述的基本数据类型为什么和C语言等编程语言不同?”后来得出结论:每种语言都有其最适用的领域,以R为例,它主要运用在统计学领域,处理大量数据,基本单位就是向量(vector),故将其他语言中的int类型视为最简单的一维向量,如c(5)。我后来验证了从矩阵中取出一个值,类型为vector。同样的道理,Perl语言...阅读全文>>
Javamail应用
Overview 本文主要参考了javamail发送邮件的简单实例这篇文章。 最近和Chris在做secretepdb这个项目时,用到了发送邮件这一功能(需要用到mail.jar这个包)。经过Chris指点和自己查阅资料,还是比较顺利地完成了这一模块,特此记录一下。 该模块包含3部分:发送器(SimpleMailSender),验证器(MyAuthenticator)和action。其中发...阅读全文>>
PhosphoPrediction项目总结
Overview PhosphoPrediction项目是Chris和我做的一个新项目,主要是为本地客户端程序添加一个相同功能的web server。由于出差新疆,只能晚上回酒店自己加班写代码,在Chris的帮助下,前前后后忙了大约两周总算有了个不错的小成果,心中颇感欣慰。这段时间,Chris不仅给了我技术上的指导,更给我排解了心中的许多烦恼,在此感谢我最好的朋友Chris(我知道你不喜欢...阅读全文>>
蛋白质序列特征提取方法之——PSSM
Overview 我在之前写的一篇博客中谈到整理那些混乱的数据源,发现有pssm fts文件夹中的子文件夹和文件并不清楚来龙去脉,这个问题困扰了我一段时间。最近在研究PSSM算法时,与Chris交流了一下,恍然大悟:这个文件夹中的t3pssm,t4pssm,t6pssm三个子文件夹中的形如t6_12.pssm的文件族,是由t3,t4,t6这三个文件夹中的形如t6_12.fasta的文件族经...阅读全文>>
蛋白质序列特征提取方法之——CKSAAP
Overview 在CKSAAP(Compositon of k-spaced Amino Acid Pairs)方法中,利用在蛋白质序列片断中k个间隔距离的残基对(residue pairs)在该序列中的组成比例,建立数学模型,提取出特征向量,从而达到预测泛素(Ubiquitin)的目的。 残基(residue)和泛素(Ubiquitin)信息详见维基百科:残基和泛素,这里就不赘述了。 ...阅读全文>>
生物化学基础知识简介
蛋白质序列处理过程中需要用到部分生物化学的知识,经过Chris的点拨和自己的查阅,现将这些基础知识记录下来。 阅读全文>>
蛋白质序列处理—总体步骤
蛋白质序列处理程序之前得到的数据源太乱,这些天整理并重新摆放了一下,每一步的输入文件夹后缀都有一个-in,处理程序文件夹后缀为-run,输出文件夹后缀为-out,这样条理清晰了很多,今日记录,以方便日后查阅使用。 数据处理部分共分5步: 下载并分类(set class) 多步CD-hit 正负样本1:1平衡(Dataset balance) 特征计算(feature calculation...阅读全文>>
蛋白质序列特征向量计算—数据处理第(4)步
该步骤为数据处理的第(4)步,共包含6小步。 其中前三步: 1. AAC,Amino acid composition(AminoAcidC.py) 2. SEQ,Sequence(Seq.py) 3. eft3,amino acids combination properties(involving kmp algorithm)(Eft3.py) 这前三步用到feature_calc.s...阅读全文>>