Overview

最近在预测蛋白质序列的二级结构,结构性区域,水溶性等特征时,使用了不同的软件,发现不同软件预测结果中对同一特征的表示方式略有不同,所以在这里一并总结。

1. SCRATCH中的输出格式

我们在 SCRATCH的安装和使用 介绍了SCRATCH的安装和使用,直接使用

./run_SCRATCH-1D_predictors.sh input_fasta  out_prefix  [num_threads]

就可以得到四个结果,分别是SSpro(后缀为.ss)SSpro8(后缀为.ss8)ACCpro(后缀为.acc)ACCpro20(后缀为.acc20)

以下面一段氨基酸为例:

MQIFVKTLTGKTITLEVEPSDTIENVKAKI

产生的结果格式如下:

SSpro预测产生的二级结构序列(.ss文件):
CEEEEEEECCCEEEEEECCCCCHHHHHCCC

SSpro8预测产生的二级结构序列 (有8个种类,.ss8文件):
CEEEEEEEESEEEEEEECCCSHHHHEECCC

ACCpro预测产生的水溶性 (exposed threshold为25%,.acc文件):
ee---ee-eeee-e-e-eeeee-ee-eeee

ACCpro20预测产生的水溶性 (.acc20文件):
0%   eeeeeeeeeeeeeeeeeeeeeeeeeeeeee
5%   eeeeeeeeeeeeeeeeeeeeeeeeeeeeee
10%  eeeeeeeeeeeeeeeeeeeeeeeeeeeeee
15%  eee--eeeeeee-e-eeeeeeeeeeeeeee
20%  eee--ee-eeee-e-eeeeeeeeee-eeee
25%  eee--ee-eeee-e-e-eeeeeeee-eeee
30%  ee---ee-eeee-e-e-eeeee-ee-eeee
35%  ee---ee-eeee-e-e-eeeee-ee-eeee
40%  ee---ee-eeee-e-e-eeeee-ee-eeee
45%  ee---e--eee----e---ee--ee-eeee
50%  ee--------e--------e---ee-eeee
55%  e----------------------e---eee
60%  e--------------------------eee
65%  e---------------------------ee
70%  -----------------------------e
75%  ----------------------------e
80%  -----------------------------e
85%  -----------------------------e
90%  ------------------------------
95%  ------------------------------
100% ------------------------------

上面是 官方的帮助文档 给出的输出格式,实际上我算出来的结果.acc20文件与这个不一样,其他都一致。

2. SCRATCH输出格式说明

这里重点说明SSpro(后缀为.ss)SSpro8(后缀为.ss8)ACCpro(后缀为.acc)这三个,以及 DISpro(没在SCRATCH安装包中,需要单独装)的输出格式,并列出了其他同类软件的不同表示。

2.1 SSpro(后缀为.ss)

输出的蛋白质二级序列有三种类别:

  • H = helix
  • E = strand
  • C = the rest

PSIPRED(参见 PSIPRED的安装和使用 )产生的二级序列类别一致。

2.2 SSpro8(后缀为.ss8)

输出的蛋白质二级序列有八种类别:

  • H: alpha-helix
  • G: 310-helix
  • I: pi-helix (extremely rare)
  • E: extended strand
  • B: beta-bridge
  • T: turn
  • S: bend
  • C: the rest

2.3 ACCpro(后缀为.acc)

水溶性的表示如下:

  • - : the residue is buried
  • e : the residue is exposed

也见过如下形式的表示:

  • b : the residue is buried
  • e : the residue is exposed

2.4 DISpro

非结构性区域的表示方式为:

  • O : the residue is ordered
  • D : the residue is disordered

DISOPRED(参见 DISOPRED的安装和使用)中的表示方式为:

  • . : the residue is ordered
  • * : the residue is disordered

3. 参考资料