化学信息学 - Pipeline Pilot协助Office系列办公软件处理化学日常工作

时间:2014-04-03

 

Pipeline Pilot协助处理日常化学文件处理工作

 

      化学是Pipeline Pilot的最早的应用领域之一,Pipeline Pilot在该领域为我们提供了一系列完整解决方案:支持多种多样的化合物分子文件的读入和输出,快速地对化合物的进行性质计算、分析和处理等,多种多样的化合物库的构建和分析工具,如相似性和子结构搜索,根据反应或R基团进行枚举化合物库,构效分析等等。

      除了在科学研究方面的应用,Pipeline Pilot也可以用来处理一些日常的化学相关的文档。最近我们针对用户常见的一些问题,做了一系列的Pipeline Pilot流程(protocols)来协助用户处理日常工作中的化学文档。

 

(一)Pipeline Pilot辅助生成化学报告文件

      工作汇报是化学家们的日常工作之一,我们通常需要将合成的各种化合物做成各种图表放入我们的工作汇报中。尽管我们可以通过化学编辑软件,将分子粘贴到word,excel等文档中。然而当化合物比较多的时候,这样手动编辑工作量将会很大,效率很低。对于这个问题,Pipeline Pilot为我们提供了一系列解决方案,它既能够从数据库批量地导入化合物,也能够识别各种常见的化学文件格式,并一次性从多个文件中读取分子信息,自动生成报表,并且这些导入的结构也能够手动编辑。

      此外,有时候我们还需要在报表中加入化合物的分子量,分子式,水溶性,LogP,pka等理化性质,这些信息通常我们需要通过软件一个个计算,而在Pipeline Pilot中我们能够计算几百种常见的分子理化性质。另外如果化合物已经做了生物活性测试,我们当然希望能够报表在中添加对应的生物活性信息,然而将活性信息与分子关联起来将是比较费劲的事情。而通过Pipeline Pilot我们不仅能够高效地将分子与活性信息关联起来,而且借助Pipeline Pilot强大的reporting功能,我们还能够做出如下图一样漂亮的图表。

 

图1, 使用Pipeline Pilot制作内容丰富漂亮美观的报告文件

 

(二)提取Chemdraw cdx文件中的分子及相应文字信息

      Chemdraw是最受欢迎的化学编辑软件之一,它允许用户在一个页面里面输入多个分子,且可以很方便地添加各种注释信息。这些文件可以方便地修改编辑,并能够方便地分享给同行。但是,如果需要将这些分子信息提取出来存入数据库或者做一些化学计算相关工作的时候,chemdraw软件将不是那么方便了,因为尽管多种软件能够文件中的化学结构提取出来,但是分子的备注信息将会被忽略掉,但有时候备注信息是非常重要的,比如分子的名称,编号,活性等,这些信息不仅需要被准确提取,且需要与原来的分子一一对应。通常情况下,化学家们只能手动一个个地将分子结构与相关信息拷贝到相关的软件中,并手动地输入各种备注信息。这种方法不仅效率低下,而且容易出错,造成张冠李戴,给后期的处理带来不必要的麻烦。

      Pipeline Pilot不仅能够读取cdx文件,而且能够将分子周围的备注信息一起读取,通过将这些备注信息进行适当处理,我们就能够把这些备注信息准确地转换为分子的属性信息。如下图所示,在cdx文件中包含了多个分子,这些分子包含了分子的名字及活性信息,通过Pipeline Pilot,我们可以准确无误地将这些分子及相关信息读取出来,并直接存储到数据库及在网页中显示。当然我们也可以通过类似上述的流程定制,直接将这些结构及文字信息以表格的形式放入word或者excel报告文档中。

 

图2 Pipeline Pilot提取chemdraw文档中的结构及备注信息

 

(三)Pipeline Pilot回收化学文件中的化学信息

      Excel、Word文档是工作汇报最常用的文件格式,甚至很多化学合成人员将它们作为保存工作成果的存储工具。然而Excel和word并不是保存结构的好方法,因为如果需要将这些文件中的信息提取出来存入数据库或者进行相关的计算处理,将是一件很繁琐的事情。用户不得不手动将文档中的一个个分子手动拷贝出来,然后重新输入分子的各种属性信息,如化合物名称,id号,纯度等信息。尽管目前已有软件能够将文档中的结构提取出来,但是提取出的分子与这些分子在文档中的顺序通常是不一致的,用户不得不重新输入分子属性信息,当分子数目多时,这不仅工作量大,且非常容易出错。

      而通过Pipeline Pilot,我们不仅能够读取出文档中的化学结构信息,同时借助Pipeline Pilot的强大的分析处理能力,我们还能还原出分子在文档中的具体位置,从而使得结构能够与其对应的属性信息关联起来。

 

图3 Pipeline Pilot提取Office文档中的化学和文字信息

 

(四)特殊文件格式之间的转换

      Pipeline Pilot支持大多数的常见的化学分子格式,可以轻松地将读取或写出为不同格式的化学文件。由于所有的文件都是经过标准化处理的,因此我们可以很轻松直观地将不过格式的分子文件进行格式转换(如下图所示)。

 

图4 使用Pipeline Pilot进行多种文件格式的转换

 

(五)文件的处理可以方便地在线提交和在线生成报告文件

      所有通过Pipeline Pilot定制的流程都可以很轻松地发布到网络上,其他用户无须安装Pipeline Pilot的客户端,只需要通过浏览器访问Pipeline Pilot的服务器,并可以轻松地在线提交作业及获取生成的报告文件。

 

图5 将定制的流程发布到网络

 

结语:我们希望通过Pipeline Pilot的流程定制,来帮助用户解决日常工作中化学文档处理中的一些常见问题,从繁琐的操作中解脱出来,节省宝贵的时间,提高个人的工作效率及准确性。