生物信息学 - 针对13个常用的蛋白质描述符在建模中的性能进行比较和基准测试

时间:2014-05-07

针对13个常用的蛋白质描述符在建模中的性能进行比较和基准测试
参考文献:Journal of Cheminformatics 2013, 5:42  IF=3.59
链接:
http://www.jcheminf.com/content/5/1/42

 

      首先,文中采用的蛋白质描述符包括:Z-scales描述符、VHSE描述符、T-scales描述符、ST-scales描述符、MS-WHIM描述符、FASGAI描述符、BLOSUM描述符和ProtFP描述符,一共包括13个变量。除了单独评价每种描述符,文献中还评价了3种不同描述符组合的情况。然后,作者采用血管紧张素转化酶(ACE)二肽抑制剂等7个不同蛋白质构效关系数据集结合上述不同种类的描述符建立生物模型,并对模型的准确性进行合理评价。最后作者得出的结论是,尽管不同种类的蛋白质描述符反应的是氨基酸不同角度的性质,但是这些描述符在建立生物活性模型中的作用相当;此外,不同种类描述符组合使用时对模型准确性均有提升;最后,不同种类的描述符在不同生物体系中的作用各不相同,所以基于生物体系选择合适的描述符是建模的关键。
      在评价过程中,为了针对不同体系建立标准的分析和比较流程,作者采用Pipeline Pilot 8.5作为蛋白质描述符的计算平台(计算流程如下 图1所示),并通过调用PP中的R建模和统计模块实现多种生物模型的建立和评价。为了便于其他研究人员的共享,作者还将蛋白质描述符计算流程封装成为PP的一个组件进行发布,该组件的使用方法和参数如图2所示。

 

 
图1. PP中计算各种蛋白质描述符的protocol示例
 
图2. PP中封装之后的蛋白质描述符计算组件及其参数选项