Overview
最近在预测蛋白质序列的二级结构,结构性区域,水溶性等特征时,使用了不同的软件,发现不同软件预测结果中对同一特征的表示方式略有不同,所以在这里一并总结。
1. SCRATCH
中的输出格式
我们在 SCRATCH的安装和使用 介绍了SCRATCH
的安装和使用,直接使用
1 | ./run_SCRATCH-1D_predictors.sh input_fasta out_prefix [num_threads] |
就可以得到四个结果,分别是SSpro(后缀为.ss)
,SSpro8(后缀为.ss8)
,ACCpro(后缀为.acc)
,ACCpro20(后缀为.acc20)
。
以下面一段氨基酸为例:
1 | MQIFVKTLTGKTITLEVEPSDTIENVKAKI |
产生的结果格式如下:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 | SSpro预测产生的二级结构序列(.ss文件): CEEEEEEECCCEEEEEECCCCCHHHHHCCC SSpro8预测产生的二级结构序列 (有8个种类,.ss8文件): CEEEEEEEESEEEEEEECCCSHHHHEECCC ACCpro预测产生的水溶性 (exposed threshold为25%,.acc文件): ee---ee-eeee-e-e-eeeee-ee-eeee ACCpro20预测产生的水溶性 (.acc20文件): 0% eeeeeeeeeeeeeeeeeeeeeeeeeeeeee 5% eeeeeeeeeeeeeeeeeeeeeeeeeeeeee 10% eeeeeeeeeeeeeeeeeeeeeeeeeeeeee 15% eee--eeeeeee-e-eeeeeeeeeeeeeee 20% eee--ee-eeee-e-eeeeeeeeee-eeee 25% eee--ee-eeee-e-e-eeeeeeee-eeee 30% ee---ee-eeee-e-e-eeeee-ee-eeee 35% ee---ee-eeee-e-e-eeeee-ee-eeee 40% ee---ee-eeee-e-e-eeeee-ee-eeee 45% ee---e--eee----e---ee--ee-eeee 50% ee--------e--------e---ee-eeee 55% e----------------------e---eee 60% e--------------------------eee 65% e---------------------------ee 70% -----------------------------e 75% ----------------------------e 80% -----------------------------e 85% -----------------------------e 90% ------------------------------ 95% ------------------------------ 100% ------------------------------ |
上面是 官方的帮助文档 给出的输出格式,实际上我算出来的结果.acc20文件与这个不一样,其他都一致。
2. SCRATCH
输出格式说明
这里重点说明SSpro(后缀为.ss)
,SSpro8(后缀为.ss8)
,ACCpro(后缀为.acc)
这三个,以及 DISpro(没在SCRATCH
安装包中,需要单独装)的输出格式,并列出了其他同类软件的不同表示。
2.1 SSpro(后缀为.ss)
输出的蛋白质二级序列有三种类别:
- H = helix
- E = strand
- C = the rest
与PSIPRED
(参见 PSIPRED的安装和使用 )产生的二级序列类别一致。
2.2 SSpro8(后缀为.ss8)
输出的蛋白质二级序列有八种类别:
- H: alpha-helix
- G: 310-helix
- I: pi-helix (extremely rare)
- E: extended strand
- B: beta-bridge
- T: turn
- S: bend
- C: the rest
2.3 ACCpro(后缀为.acc)
水溶性的表示如下:
- - : the residue is buried
- e : the residue is exposed
也见过如下形式的表示:
- b : the residue is buried
- e : the residue is exposed
2.4 DISpro
非结构性区域的表示方式为:
- O : the residue is ordered
- D : the residue is disordered
DISOPRED
(参见 DISOPRED的安装和使用)中的表示方式为:
- . : the residue is ordered
- * : the residue is disordered