您正在查看: 标签 python 下的文章

TensorFlow 2.0使用CNN进行图片分类

Overview 本篇我们来记录一下怎么使用TensorFlow2.0当中的Keras模块来进行CNN图片分类。 1.加载数据 我们用经典的猫狗分类数据集来做这次图片分类。 import os import numpy as np import matplotlib.pyplot as plt import tensorflow as tf from tensorflow.keras.m...阅读全文>>

TensorFlow 2.0训练结构化数据

Overview 近期正在更新新用户模型,仍然在用XGBoost。由于训练集数据已经达到20W,故用神经网络来训练一下,看看效果如何。 TensorFlow 2.0集成了Keras,易用性很高,且Keras之后不再单独更新了,而是作为TensorFlow的一个模块来使用。我们这次就用TensorFlow 2.0中的tf.keras来训练我们的结构化数据。 1. 导入特征列表及数据 impo...阅读全文>>

Python包管理软件pip更新后报错

Overview 今天在服务器(Ubuntu 16.04)使用pip安装深度学习包Keras的时候,发现安装结束之后下面有一行提示小字,大约就是pip有新版本可以更新,使用XXX命令更新,就顺带更新了一下,更新完了pip就不能用了... 问题描述 及时是查看下pip的版本 sudo pip --version 也会报下面的错误: Traceback (most recent call l...阅读全文>>

训练集归一化和测试集归一化

Overview 做T4这个项目时,训练集采用了1502条正负样本数据,生成了大量的特征,由于各特征数据变化范围差异很大,于是我们按照重新缩放法做了数据的归一化,使得各特征的取值范围均控制在(0,1)内。然而在预测独立测试集3371条正负样本时,遇到一些疑问:独立测试集怎么办?如果独立测试集归一化,该怎么归一化,以谁为基准归一化,即它的最大值和最小值从何而来? 首先,毋庸置疑,独立测试集必...阅读全文>>

python解析命令行参数

Overview python程序也可以拥有C语言风格的命令行参数,例如-h/--help输出帮助信息,-i/--input提示输入文件,-o/--output提示输出文件等等。除了清晰明了,还有一个好处就是输入参数的顺序可以随意一些。 在python中,实现这个功能的函数跟C/C++中一样,也是getopt().下面用实际的代码展示一下。 1. getoptions.py 首先,我们定义...阅读全文>>

python计算smoothed PSSM(二)

Overview 上一篇文章python计算smoothed PSSM(一)当中,介绍了以当前氨基酸残基为基点,左右取相同数目的序列,然后叠加计算。Chris介绍,这样的算法有特定的用场:蛋白质后修饰。但是,普通的蛋白质序列提取特征就不太适用了:因为窗口值(smoothed window)只能取奇数,而如果有偶数长度的序列片段包含有特征,这种算法就会漏掉。于是决定写一个新的python脚本...阅读全文>>

python计算smoothed PSSM(一)

Overview 最近几天,Chris和我看了很多论文,对PSSM有了更深的认识。但是,鉴于PSSM本身包含单个位置的信息更明显,而几乎没有包含蛋白质序列片段信息,我们两人思考如何将蛋白质序列片段信息编码,终于找到了一种PSSM的处理方式,这种方式叫做smoothed window,特此记录一下。 该算法原理,请参考这篇论文:Predicting RNA-binding sites of ...阅读全文>>

python分离正负样本

Overview 机器学习算法在项目中应用的时候,有时候会用到分离fasta格式的正负样本。于是就写了一个python脚本,效果不错,记录一下。 1. separatePosNeg.py #! /usr/bin/env python # -*- coding: utf-8 -*- # vim:fenc=utf-8 import fileinput i...阅读全文>>

改进计算PSSM的python脚本

Overview 昨天跟Chris讨论SVM分类预测准确性的时候,知道PSSM_AC的作用比PSSM作用更明显,于是决定将以前的python脚本改进一下,输出PSSM和PSSM_AC这两个文件,方便观察。该脚本包括两部分,本文将按顺序记录下来。 以前的脚本可以参考我之前的文章蛋白质序列特征提取方法之——PSSM。 1. t34pssm.py #! /usr/bin/env python i...阅读全文>>

python转换文件格式的一处bug

Overview 在转换fasta格式的文件为chen's format文件时,发现前人的程序有些bug,会将最后一条正样本的class标记为-1于是将程序改了一下,这下就没有问题了。 解决方案 fasta格式如下,第一行为头信息,第二行为氨基酸序列: >sp|Q2YIT7|VIRB3_BRUA2 Type IV secretion system protein virB3 OS=B...阅读全文>>