数据挖掘 - Pipeline Pilot用于药物设计领域的数据挖掘

时间:2014-04-09

 

      关于数据挖掘,最简单的理解就是从结构化的数据库中提取有价值信息的过程。具体到药物设计领域,数据挖掘对象则主要集中在化学和生物学两方面的大数据研究和分析。这里我们选取了来自新药研发工作者Remy D. Hoffmann等的最新著作《Data Mining in Drug Discovery》一书中的部分章节,简要介绍一下综合性科研信息数据管理平台Pipeline Pilot软件用于药物设计领域内数据挖掘的一些案例。
      首先,面对来自各种公共数据库或者实验室内部的海量化合物数据,为了能够更加有效的进行化学数据的深入挖掘和分析之前,通常我们需要将不同来源的数据进行标准化的预处理。例如:将化合物数据和相关生物活性数据统一关联起来,统一化合物名称和标识等等,这就需要有一款既符合用户需求又能够全面实现标准化的化合物管理系统。这里我们简单介绍一下书中是如何使用Pipeline Pilot和其他数据库软件来搭建实验室内部的化合物管理系统。
      UCSD是作者在第一章节中所描述的实验室内部化合物管理系统,该系统的核心架构可以分为三个部分,包括化合物信息提取和处理部分,化合物数据存储部分以及终端操作和展示部分。其中化合物信息提取和数据的标准化是通过Pipeline Pilot软件自动实现的,而数据的存储则Oracle数据库和Direct化合物管理数据库,整个UCSD系统的核心架构如图1所示。其中,整个化合管理系统通过定制Pipeline Pilot数据处理流程能够实现自动化的化合物信息提取、加工和入库功能,相关功能定制的protocol如图2所示。 
 
Figure 1. UCSD系统的核心软件架构示意图
Figure 2.  UCSD系统中采用Pipeline Pilot实现化合物结构自动转换并入库的示例protocol
Figure 3. UCSD系统终端操作示意图
 
      此外,作者在文中第六章中还重点描述了高通量筛选(HTS)实验数据的挖掘与分析工作流程。作者通过将相关算法和分析软件Hit-Hub集成到Pipeline Pilot平台中,针对诺华公司高通量筛选平台产生的HTS实验数据进行了挖掘和分析。如图4所示,作者通过自定义工作流程实现对HTS实验确认的先导化合物进行自动聚类和注释工作。
 
Figure 4.  通过PP实现化合物自动注释功能的示例protocol
 
参考文献:
Data Mining in Drug Discovery.  ISBN: 978-3-527-32984-7