Overview
最近在预测蛋白质序列的二级结构,结构性区域,水溶性等特征时,使用了不同的软件,发现不同软件预测结果中对同一特征的表示方式略有不同,所以在这里一并总结。
1. SCRATCH
中的输出格式
我们在 SCRATCH的安装和使用 介绍了SCRATCH
的安装和使用,直接使用
./run_SCRATCH-1D_predictors.sh input_fasta out_prefix [num_threads]
就可以得到四个结果,分别是SSpro(后缀为.ss)
,SSpro8(后缀为.ss8)
,ACCpro(后缀为.acc)
,ACCpro20(后缀为.acc20)
。
以下面一段氨基酸为例:
MQIFVKTLTGKTITLEVEPSDTIENVKAKI
产生的结果格式如下:
SSpro预测产生的二级结构序列(.ss文件):
CEEEEEEECCCEEEEEECCCCCHHHHHCCC
SSpro8预测产生的二级结构序列 (有8个种类,.ss8文件):
CEEEEEEEESEEEEEEECCCSHHHHEECCC
ACCpro预测产生的水溶性 (exposed threshold为25%,.acc文件):
ee---ee-eeee-e-e-eeeee-ee-eeee
ACCpro20预测产生的水溶性 (.acc20文件):
0% eeeeeeeeeeeeeeeeeeeeeeeeeeeeee
5% eeeeeeeeeeeeeeeeeeeeeeeeeeeeee
10% eeeeeeeeeeeeeeeeeeeeeeeeeeeeee
15% eee--eeeeeee-e-eeeeeeeeeeeeeee
20% eee--ee-eeee-e-eeeeeeeeee-eeee
25% eee--ee-eeee-e-e-eeeeeeee-eeee
30% ee---ee-eeee-e-e-eeeee-ee-eeee
35% ee---ee-eeee-e-e-eeeee-ee-eeee
40% ee---ee-eeee-e-e-eeeee-ee-eeee
45% ee---e--eee----e---ee--ee-eeee
50% ee--------e--------e---ee-eeee
55% e----------------------e---eee
60% e--------------------------eee
65% e---------------------------ee
70% -----------------------------e
75% ----------------------------e
80% -----------------------------e
85% -----------------------------e
90% ------------------------------
95% ------------------------------
100% ------------------------------
上面是 官方的帮助文档 给出的输出格式,实际上我算出来的结果.acc20文件与这个不一样,其他都一致。
2. SCRATCH
输出格式说明
这里重点说明SSpro(后缀为.ss)
,SSpro8(后缀为.ss8)
,ACCpro(后缀为.acc)
这三个,以及 DISpro(没在SCRATCH
安装包中,需要单独装)的输出格式,并列出了其他同类软件的不同表示。
2.1 SSpro(后缀为.ss)
输出的蛋白质二级序列有三种类别:
- H = helix
- E = strand
- C = the rest
与PSIPRED
(参见 PSIPRED的安装和使用 )产生的二级序列类别一致。
2.2 SSpro8(后缀为.ss8)
输出的蛋白质二级序列有八种类别:
- H: alpha-helix
- G: 310-helix
- I: pi-helix (extremely rare)
- E: extended strand
- B: beta-bridge
- T: turn
- S: bend
- C: the rest
2.3 ACCpro(后缀为.acc)
水溶性的表示如下:
- - : the residue is buried
- e : the residue is exposed
也见过如下形式的表示:
- b : the residue is buried
- e : the residue is exposed
2.4 DISpro
非结构性区域的表示方式为:
- O : the residue is ordered
- D : the residue is disordered
DISOPRED
(参见 DISOPRED的安装和使用)中的表示方式为:
- . : the residue is ordered
- * : the residue is disordered