文本分析 - Pipeline Pilot进行文献调研并实现文献中化合物和文本信息的本地化存储与检索

时间:2014-04-09

 

      在日常的科研工作中,如何从文献中提取有价值的信息和面对大量文献时如何有效的进行本地化的检索和管理,是每一个科研工作者都会遇到的问题。具体而言,针对化学研究领域化合物信息在文献检索中的困难,Pipeline Pilot的ChemMining模块能够帮您识别出文本文档中的化学名称,并将其转换为化学结构,方便您的检索和分析。它可以为您一次性检索一系列文档,并在报告显示找到的分子结构及其出处;也可以为您构建文档和化合物的本地数据库,方便以后的查询和分析。因此,您可以对化学文档同时进行化学结构和文本的查询,进行真正的化学智能检索工作。
      本文中将介绍如何使用Pipeline Pilot从在线期刊数据库中批量下载文献全文,并创建一个轻量级的本地化文献数据库,从而实现基于化合物结构的本地文献查询工作。
      首先,如下图protocol所示,我们使用PP的Pubmed数据库检索组件在线查询并下载1000篇JACS期刊全文,并以xml文件的格式将检索结果写入本地文件。然后,通过PP的化合物识别和转换组件从文本数据中提取化合物名称和相应的结构信息,并将所提取的化合物进行注册同时与文本信息关联起来。最后,我们选择将这1000篇文献包含的化合物信息和文档信息以“PP Cache”的形式存储到PP内置的轻量级数据库中,实现化合物和文档信息的结构化和本地化。而对于文献数据量较大的情况(大于10000),用户则可以选择Direct和Oracle数据库相结合的方式进行本地化存储,方法和流程与此类似。
 
Figure 1.  Pipeline Pilot创建本地文献数据库的工作流程
 
      完成本地化数据库的创建之后,我们可以使用PP的reporting模块搭建基于化合物结构的本地文献检索的报表界面,具体的protocol如图2所示。运行该protocol可以打开相应的网页查询界面,用户输入查询分子的化学结构以后就可以自动的进行本地文献数据库的检索和相应化合物性质的计算,如图3所示。
 
Figure 2.  使用PP搭建基于结构查询的网页界面工作流程
Figure 3.  基于化合物结构的本地文献数据库查询结果