您正在查看: 标签 bioinformatics 下的文章

python分离正负样本

Overview 机器学习算法在项目中应用的时候,有时候会用到分离fasta格式的正负样本。于是就写了一个python脚本,效果不错,记录一下。 1. separatePosNeg.py #! /usr/bin/env python # -*- coding: utf-8 -*- # vim:fenc=utf-8 import fileinput i...阅读全文>>

Ubuntu 14.04 安装R和R packages

Overview 虽然已经用了很久的R语言,但一直没整理过,正好需要在我们的云服务器上安装R,所以一并记录下来了。下面的过程虽然是在Ubuntu 14.04上安装的,但是对于其他版本的系统,R和R packages的安装都大同小异。 1. 安装R 1.1 添加源 Ubuntu 14.04中的R版本比较旧,默认安装可能会出很多问题(我试过了)。所以最好添加一个新的源。 在etc/apt/so...阅读全文>>

生物信息中常用的Linux命令

Overview 一直想把常用的命令搜集起来,以便平时用到的时候查阅,可惜一直没抽出来时间专门整理下。最近在做序列的特征提取和多个特征文件合并时,频繁使用到了一些命令,干脆一并整理到这里,以后边用边添加整理新的命令。 这里的linux命令主要在MAC 10.9.5和Ubuntu 14.04下测试,涉及到平台差异性的时候,会尽量指出来,没有区分的话就表示两种平台下都可以使用。如果仍有没涉及到...阅读全文>>

配置Hibernate解决MYSQL连接失效问题

Overview 之前将SecretEPDB部署到了云服务器上之后,再打开需要连接数据库的网页时总是会出现莫名其妙的错误,之前一直没管它,主要是因为这个错误不是每次都出现,出现之后刷新几次又可以访问了。 1. 错误描述 每次打开需要连接数据库的网页,就很有很大概率出现下面的错误信息: Struts Problem Report Struts has detected an unhandl...阅读全文>>

SCRATCH的预测结果格式

Overview 最近在预测蛋白质序列的二级结构,结构性区域,水溶性等特征时,使用了不同的软件,发现不同软件预测结果中对同一特征的表示方式略有不同,所以在这里一并总结。 1. SCRATCH中的输出格式 我们在 SCRATCH的安装和使用 介绍了SCRATCH的安装和使用,直接使用 ./run_SCRATCH-1D_predictors.sh input_fasta out_prefix...阅读全文>>

BioPerl(三):巧用BioPerl格式化fasta文件

Overview 在处理fasta格式序列的过程中,我们经常会发现得到的fasta格式并不是很标准,比如有一个fasta文件中有多条这样形式的序列: >gi|28898692|ref|NP_798297.1| hypothetical protein VP1918 [Vibrio parahaemolyticus RIMD 2210633]|1 MKKTTLMSAVVATLSLVGC...阅读全文>>

BioPerl(二):使用BioPerl读取fasta文件

Overview 在 BioPerl(一):安装BioPerl 中我们不只安装了BioPerl,还给出了一个使用BioPerl的手动构造了一个Bio::Seq对象的例子,这个对象中包含了我们手动填入的fasta格式的信息。既然可以手动构造,那么也就可以从fasta文件中读取序列信息,由BioPerl自动填充成Bio::Seq对象。 1. 使用BioPerl读取单条fasta序列 我们有一个...阅读全文>>

PhosphoPrediction项目总结

Overview PhosphoPrediction项目是Chris和我做的一个新项目,主要是为本地客户端程序添加一个相同功能的web server。由于出差新疆,只能晚上回酒店自己加班写代码,在Chris的帮助下,前前后后忙了大约两周总算有了个不错的小成果,心中颇感欣慰。这段时间,Chris不仅给了我技术上的指导,更给我排解了心中的许多烦恼,在此感谢我最好的朋友Chris(我知道你不喜欢...阅读全文>>

构建PSSM的步骤

Overview PSSM算法是生物信息学领域中的一个常用算法,全名“位置特异性打分矩阵(position-specific scoring matrix)”,又称作"位置比重矩阵(position weight matrix)".有关该方法更多的细节,详见维基百科Position weight matrix.本文仅阐述其设计思想,实际项目的例子将在另一篇文章中进行介绍...阅读全文>>

蛋白质序列特征提取方法之——CKSAAP

Overview 在CKSAAP(Compositon of k-spaced Amino Acid Pairs)方法中,利用在蛋白质序列片断中k个间隔距离的残基对(residue pairs)在该序列中的组成比例,建立数学模型,提取出特征向量,从而达到预测泛素(Ubiquitin)的目的。 残基(residue)和泛素(Ubiquitin)信息详见维基百科:残基和泛素,这里就不赘述了。 ...阅读全文>>