分类生物信息下的文章

您正在查看: 生物信息分类下的文章

Diffuser单一节点所需软件的安装

作者：Rubber | 时间：October 30, 2018 | 分类：生物信息,分布式 | 评论：0 评论

Overview Diffuser是一个基于分布式的生物序列特征生成网站，因此需要在每个单一节点安装所需的软件：ViennaRNA-2.4.8，VSL2，psipred和spineX。本文以deepamp节点为例，分别安装和配置以上4个软件。 1. 安装ViennaRNA-2.4.8 该软件用于预测RNA序列结构，安装步骤如下： wget https://www.tbi.univie.ac...阅读全文>>

python计算smoothed PSSM（二）

作者：Young | 时间：March 10, 2016 | 分类：编程语言,生物信息,Python,机器学习,Unix/Linux/Mac系统 | 评论：0 评论

Overview 上一篇文章python计算smoothed PSSM（一）当中，介绍了以当前氨基酸残基为基点，左右取相同数目的序列，然后叠加计算。Chris介绍，这样的算法有特定的用场：蛋白质后修饰。但是，普通的蛋白质序列提取特征就不太适用了：因为窗口值(smoothed window)只能取奇数，而如果有偶数长度的序列片段包含有特征，这种算法就会漏掉。于是决定写一个新的python脚本...阅读全文>>

python计算smoothed PSSM（一）

作者：Young | 时间：March 9, 2016 | 分类：生物信息,Python,机器学习,Unix/Linux/Mac系统 | 评论：0 评论

Overview 最近几天，Chris和我看了很多论文，对PSSM有了更深的认识。但是，鉴于PSSM本身包含单个位置的信息更明显，而几乎没有包含蛋白质序列片段信息，我们两人思考如何将蛋白质序列片段信息编码，终于找到了一种PSSM的处理方式，这种方式叫做smoothed window,特此记录一下。该算法原理，请参考这篇论文：Predicting RNA-binding sites of ...阅读全文>>

python分离正负样本

作者：Young | 时间：February 27, 2016 | 分类：生物信息,Python,Unix/Linux/Mac系统 | 评论：0 评论

Overview 机器学习算法在项目中应用的时候，有时候会用到分离fasta格式的正负样本。于是就写了一个python脚本，效果不错，记录一下。 1. separatePosNeg.py #! /usr/bin/env python # -*- coding: utf-8 -*- # vim:fenc=utf-8 import fileinput i...阅读全文>>

Ubuntu 14.04 安装R和R packages

作者：Chris | 时间：February 4, 2016 | 分类：R,生物信息 | 评论：0 评论

Overview 虽然已经用了很久的R语言，但一直没整理过，正好需要在我们的云服务器上安装R，所以一并记录下来了。下面的过程虽然是在Ubuntu 14.04上安装的，但是对于其他版本的系统，R和R packages的安装都大同小异。 1. 安装R 1.1 添加源 Ubuntu 14.04中的R版本比较旧，默认安装可能会出很多问题(我试过了)。所以最好添加一个新的源。在etc/apt/so...阅读全文>>

生物信息中常用的Linux命令

作者：Chris | 时间：February 3, 2016 | 分类：生物信息,Shell | 评论：0 评论

Overview 一直想把常用的命令搜集起来，以便平时用到的时候查阅，可惜一直没抽出来时间专门整理下。最近在做序列的特征提取和多个特征文件合并时，频繁使用到了一些命令，干脆一并整理到这里，以后边用边添加整理新的命令。这里的linux命令主要在MAC 10.9.5和Ubuntu 14.04下测试，涉及到平台差异性的时候，会尽量指出来，没有区分的话就表示两种平台下都可以使用。如果仍有没涉及到...阅读全文>>

python转换文件格式的一处bug

作者：Young | 时间：January 30, 2016 | 分类：生物信息,Python | 评论：0 评论

Overview 在转换fasta格式的文件为chen's format文件时，发现前人的程序有些bug，会将最后一条正样本的class标记为-1于是将程序改了一下，这下就没有问题了。解决方案 fasta格式如下，第一行为头信息，第二行为氨基酸序列： >sp|Q2YIT7|VIRB3_BRUA2 Type IV secretion system protein virB3 OS=B...阅读全文>>

配置Hibernate解决MYSQL连接失效问题

作者：Chris | 时间：January 4, 2016 | 分类：后台开发,框架相关,生物信息 | 评论：0 评论

Overview 之前将SecretEPDB部署到了云服务器上之后，再打开需要连接数据库的网页时总是会出现莫名其妙的错误，之前一直没管它，主要是因为这个错误不是每次都出现，出现之后刷新几次又可以访问了。 1. 错误描述每次打开需要连接数据库的网页，就很有很大概率出现下面的错误信息： Struts Problem Report Struts has detected an unhandl...阅读全文>>

SCRATCH的预测结果格式

作者：Chris | 时间：December 29, 2015 | 分类：生物信息 | 评论：0 评论

Overview 最近在预测蛋白质序列的二级结构，结构性区域，水溶性等特征时，使用了不同的软件，发现不同软件预测结果中对同一特征的表示方式略有不同，所以在这里一并总结。 1. SCRATCH中的输出格式我们在 SCRATCH的安装和使用介绍了SCRATCH的安装和使用，直接使用 ./run_SCRATCH-1D_predictors.sh input_fasta out_prefix...阅读全文>>

BioPerl（三）：巧用BioPerl格式化fasta文件

作者：Chris | 时间：December 29, 2015 | 分类：Perl,生物信息 | 评论：2 评论

Overview 在处理fasta格式序列的过程中，我们经常会发现得到的fasta格式并不是很标准，比如有一个fasta文件中有多条这样形式的序列： >gi|28898692|ref|NP_798297.1| hypothetical protein VP1918 [Vibrio parahaemolyticus RIMD 2210633]|1 MKKTTLMSAVVATLSLVGC...阅读全文>>