Overview Diffuser是一个基于分布式的生物序列特征生成网站,因此需要在每个单一节点安装所需的软件:ViennaRNA-2.4.8,VSL2,psipred和spineX。本文以deepamp节点为例,分别安装和配置以上4个软件。 1. 安装ViennaRNA-2.4.8 该软件用于预测RNA序列结构,安装步骤如下: wget https://www.tbi.univie.ac...阅读全文>>
python计算smoothed PSSM(二)
Overview 上一篇文章python计算smoothed PSSM(一)当中,介绍了以当前氨基酸残基为基点,左右取相同数目的序列,然后叠加计算。Chris介绍,这样的算法有特定的用场:蛋白质后修饰。但是,普通的蛋白质序列提取特征就不太适用了:因为窗口值(smoothed window)只能取奇数,而如果有偶数长度的序列片段包含有特征,这种算法就会漏掉。于是决定写一个新的python脚本...阅读全文>>
python计算smoothed PSSM(一)
Overview 最近几天,Chris和我看了很多论文,对PSSM有了更深的认识。但是,鉴于PSSM本身包含单个位置的信息更明显,而几乎没有包含蛋白质序列片段信息,我们两人思考如何将蛋白质序列片段信息编码,终于找到了一种PSSM的处理方式,这种方式叫做smoothed window,特此记录一下。 该算法原理,请参考这篇论文:Predicting RNA-binding sites of ...阅读全文>>
python分离正负样本
Overview 机器学习算法在项目中应用的时候,有时候会用到分离fasta格式的正负样本。于是就写了一个python脚本,效果不错,记录一下。 1. separatePosNeg.py #! /usr/bin/env python # -*- coding: utf-8 -*- # vim:fenc=utf-8 import fileinput i...阅读全文>>
Ubuntu 14.04 安装R和R packages
Overview 虽然已经用了很久的R语言,但一直没整理过,正好需要在我们的云服务器上安装R,所以一并记录下来了。下面的过程虽然是在Ubuntu 14.04上安装的,但是对于其他版本的系统,R和R packages的安装都大同小异。 1. 安装R 1.1 添加源 Ubuntu 14.04中的R版本比较旧,默认安装可能会出很多问题(我试过了)。所以最好添加一个新的源。 在etc/apt/so...阅读全文>>
生物信息中常用的Linux命令
Overview 一直想把常用的命令搜集起来,以便平时用到的时候查阅,可惜一直没抽出来时间专门整理下。最近在做序列的特征提取和多个特征文件合并时,频繁使用到了一些命令,干脆一并整理到这里,以后边用边添加整理新的命令。 这里的linux命令主要在MAC 10.9.5和Ubuntu 14.04下测试,涉及到平台差异性的时候,会尽量指出来,没有区分的话就表示两种平台下都可以使用。如果仍有没涉及到...阅读全文>>
python转换文件格式的一处bug
Overview 在转换fasta格式的文件为chen's format文件时,发现前人的程序有些bug,会将最后一条正样本的class标记为-1于是将程序改了一下,这下就没有问题了。 解决方案 fasta格式如下,第一行为头信息,第二行为氨基酸序列: >sp|Q2YIT7|VIRB3_BRUA2 Type IV secretion system protein virB3 OS=B...阅读全文>>
配置Hibernate解决MYSQL连接失效问题
Overview 之前将SecretEPDB部署到了云服务器上之后,再打开需要连接数据库的网页时总是会出现莫名其妙的错误,之前一直没管它,主要是因为这个错误不是每次都出现,出现之后刷新几次又可以访问了。 1. 错误描述 每次打开需要连接数据库的网页,就很有很大概率出现下面的错误信息: Struts Problem Report Struts has detected an unhandl...阅读全文>>
SCRATCH的预测结果格式
Overview 最近在预测蛋白质序列的二级结构,结构性区域,水溶性等特征时,使用了不同的软件,发现不同软件预测结果中对同一特征的表示方式略有不同,所以在这里一并总结。 1. SCRATCH中的输出格式 我们在 SCRATCH的安装和使用 介绍了SCRATCH的安装和使用,直接使用 ./run_SCRATCH-1D_predictors.sh input_fasta out_prefix...阅读全文>>
BioPerl(三):巧用BioPerl格式化fasta文件
Overview 在处理fasta格式序列的过程中,我们经常会发现得到的fasta格式并不是很标准,比如有一个fasta文件中有多条这样形式的序列: >gi|28898692|ref|NP_798297.1| hypothetical protein VP1918 [Vibrio parahaemolyticus RIMD 2210633]|1 MKKTTLMSAVVATLSLVGC...阅读全文>>