您正在查看: 标签 python 下的文章

蛋白质序列特征提取方法之——PSSM

Overview 我在之前写的一篇博客中谈到整理那些混乱的数据源,发现有pssm fts文件夹中的子文件夹和文件并不清楚来龙去脉,这个问题困扰了我一段时间。最近在研究PSSM算法时,与Chris交流了一下,恍然大悟:这个文件夹中的t3pssm,t4pssm,t6pssm三个子文件夹中的形如t6_12.pssm的文件族,是由t3,t4,t6这三个文件夹中的形如t6_12.fasta的文件族经...阅读全文>>

蛋白质序列处理—总体步骤

蛋白质序列处理程序之前得到的数据源太乱,这些天整理并重新摆放了一下,每一步的输入文件夹后缀都有一个-in,处理程序文件夹后缀为-run,输出文件夹后缀为-out,这样条理清晰了很多,今日记录,以方便日后查阅使用。 数据处理部分共分5步: 下载并分类(set class) 多步CD-hit 正负样本1:1平衡(Dataset balance) 特征计算(feature calculation...阅读全文>>

蛋白质序列特征向量计算—数据处理第(4)步

该步骤为数据处理的第(4)步,共包含6小步。 其中前三步: 1. AAC,Amino acid composition(AminoAcidC.py) 2. SEQ,Sequence(Seq.py) 3. eft3,amino acids combination properties(involving kmp algorithm)(Eft3.py) 这前三步用到feature_calc.s...阅读全文>>

Mac上安装Python机器学习库scikit-learn

Overview 因为最近需要用到一些机器学习算法,Python的scikit-learn提供很多机器学习算法实现,可以很方便地用来做实验。今天在自己的电脑上安装了scikit-learn,并在此记录了安装的步骤。 安装pip 由于scikit-learn官方给的步骤是使用pip安装,所以要先安装pip。我是用了pip官方提供的安装页面 但是没有成功。因此想使用homebrew安装pip。使...阅读全文>>