化学信息学 - 基于Pipeline Pilot的化学智能文献数据库的构建与搜索

时间:2014-04-03

 

基于Pipeline Pilot的化学智能文献数据库的构建与搜索
 
      在化学文献中,化学结构及化学名称等是化学研究者最关心的信息之一。这些信息在文献中不仅数量多,且形式多样,如以通用名,IUPAC命名,SMILES命名,Inchi等等。由于化学结构和化学名称的特殊性,使得他们很难通过普通文献搜索方法搜索得到,也给化学文献的管理带来诸多的不便。如何快速有效地提取出文献中的各式各样的化学信息,并结合文献进行有效的管理和分析,是很多化学工作者比较头疼的难题。
      Pipeline Pilot的文本分析与化学挖掘模块为含有化学信息的文献搜索与管理提供了一个完整的解决方案。该模块不仅能够构建普通文献的数据库,提供各种多种多样,功能强大的文献检索与分析服务。它还能够自动提取文献中的化学信息,如常见的通用化学名,IUPAC命名,SMILES等等,并且将这些化学信息转成化学结构,同时将结构与文献数据库关联起来。这些化学结构可以居于Pipeline Pilot进行子结构或者相似性搜索,在找到化学结构的同时也可以检索出该结构所关联的文献(如图1,图2)。对于文献中以图片形式存在的化学结构,Pipeline Pilot也可以整合第三方软件,如clide等,自动将图片转成化学结构,同样可以实现居于化学结构的文献搜索。
 
图1  Pipeline Pilot化学智能文献数据库示意图
 
      Pipeline Pilot文献数据库的构建支持多种文件格式,如常见的pdf(包括纯图片的PDF文档),word,excel,网页等等。此外Pipeline Pilot还集成了多个在线数据库,如美国专利,世界专利,欧洲专利,Pubmed数据库等,用户只需输入检索词,就可以自动地批量地完成相关文献的下载,并自动完成相关的分析与处理。
 
图2 Pipeline Pilot构建简单的化学智能的文献搜索数据库的工作流
 
      Pipeline Pilot具有非常灵活的页面定制功能,用户可以定制各种各样内容丰富漂亮的输出报表,也可以定制各种网页,并且将其发布到网络上,使其成为各种网络应用。如图3,4,5就是基于Pipeline Pilot开发的具备化学搜索功能的在线文献检索服务。用户可以直接通过网页创建专题文献数据库,这些数据库中化合物分子都会被自动提取并原文献自动关联(图3)。创建完数据库以后,用户可以在线使用化合物搜索方法进行检索文献,支持子结构和相似性搜索方法(图4)。此外,所生成的数据库的管理也可以通过在线管理,可以在线新增,删除数据库,或对数据库进行重新索引等。
 
图3 基于网页来创建具有化学智能的专题文献数据库
 
图4 通过化学结构搜索,检索含有相应结构的文献
 
图5 在线管理文献数据库