化学信息学 - Pipeline Pilot实现化合物的中文名称与化学结构之间精确的相互转换

时间:2014-04-03

 

摘要:本文中将介绍如何灵活地使用Pipeline Pilot 9.0新增功能组件“Molecule to Chemical Name”和“Molecule from Chemical Name”,来实现上述化合物的化学结构与化学名称(这里重点考虑中文名称)之间的相互转换功能。
 
Pipeline Pilot实现化合物的中文名称与化学结构之间精确的相互转换
 
      化学结构和化学名称是一个化合物最基本也是最重要的信息,两者从不同的层面对化合物进行表征,在日常科研工作中,有关化学研究的信息传递和信息检索等工作都离不开这两个最基本的化合物信息。例如,在查阅文献时我们经常会遇到文献中提及某个化合物的名称,为了获取详细的结构信息我们经常需要自己一个个去手动推断或者查询相关数据库;或者在面对已知结构的化合物时,我们也希望获得化合物的化学名称等信息,从而更加方便的对化合物进行表示以及更广泛的信息查询。这就需要一款灵活的化学软件能够批量完成化合物结构与化学名称之间的互换,从而提升科研人员的工作效率。
      本文中将介绍如何灵活地使用Pipeline Pilot 9.0新增功能组件“Molecule to Chemical Name”和“Molecule from Chemical Name”,来实现上述化合物的化学结构与化学名称(这里重点考虑中文名称)之间的相互转换功能。
      如下图的example protocol所示,我们使用了PP的“Molecule to Chemical Name”组件,能够快速的将来自Maybridge化合物数据库中的500个化合物分子结构转换为对应的中文化学名称,并以HTML格式进行结果输出。最终的化合物名称结果输出如图2所示。
 
Figure 1.  Pipeline Pilot批量将化合物结构转换为中文名称的工作流程
 
Figure 2.  Pipeline Pilot批量将化合物结构转换为中文名称的结果报表
 
 
      在第二个protocol中,我们则使用了PP的“Molecule from Chemical Name”组件和PP内置的Microsoft Bing翻译功能组件,搭建了一个可以转换化学名称为化学结构的protocol。它可以针对用户输入的符合IUPAC命名法或者通用化学名称的化合物,例如:阿司匹林、立普妥、布洛芬、雷尼替丁、卡托普利、维生素C等,直接给出化合物的结构式。相关的protocol和转换结果如图3所示。
 
Figure 3.  PP中实现化合物名称转换的protocol和转换结果