您正在查看: 标签 feature extraction 下的文章

蛋白质序列特征提取方法之——CKSAAP

Overview 在CKSAAP(Compositon of k-spaced Amino Acid Pairs)方法中,利用在蛋白质序列片断中k个间隔距离的残基对(residue pairs)在该序列中的组成比例,建立数学模型,提取出特征向量,从而达到预测泛素(Ubiquitin)的目的。 残基(residue)和泛素(Ubiquitin)信息详见维基百科:残基和泛素,这里就不赘述了。 ...阅读全文>>

蛋白质序列处理—总体步骤

蛋白质序列处理程序之前得到的数据源太乱,这些天整理并重新摆放了一下,每一步的输入文件夹后缀都有一个-in,处理程序文件夹后缀为-run,输出文件夹后缀为-out,这样条理清晰了很多,今日记录,以方便日后查阅使用。 数据处理部分共分5步: 下载并分类(set class) 多步CD-hit 正负样本1:1平衡(Dataset balance) 特征计算(feature calculation...阅读全文>>

蛋白质序列特征向量计算—数据处理第(4)步

该步骤为数据处理的第(4)步,共包含6小步。 其中前三步: 1. AAC,Amino acid composition(AminoAcidC.py) 2. SEQ,Sequence(Seq.py) 3. eft3,amino acids combination properties(involving kmp algorithm)(Eft3.py) 这前三步用到feature_calc.s...阅读全文>>