当前的药物发现与设计过程中,如何通过已有的药物数据样本,同时结合外源数据经验来构建小分子药物构效关系,建立企业独有数据库,从而进一步预测新的活性分子是企业关注的核心问题之一。
在构效关系模型建立过程中,除了需要掌握专业的CADD(计算机辅助药物设计)与AIDD(人工智能药物发现与设计)工具外,整合并处理大量外源或内部数据也是让研发人员十分头疼的事情。一个化合物从样品合成到生测实验,不同参与人员往往会大量使用表格等方式来管理数据,致使数据格式多样、存储分散,难以关联与整合。
在建立构效关系的传统方式中,研究人员通常会先将已有的化合物信息进行整理,再通过分子模拟软件输出针对分子与蛋白对接打分与结合模式的结果,研究人员根据结果将活性较好的分子通过实验合成出来,并将实验过程数据记录在电子实验记录本(ELN)中,将新化合物信息注册至化合物管理系统(CMS)中。化合物生测数据,则一般由测试部门保存于Excel表中。
图 | 建立构效关系的传统方式VS建立科学数据基因组
由于构效关系的传统建立方式是离线且手动的方式,存在时效性与效率低下等问题,而利用SDH科学数据基因组可以有效避免这些问题,从而大幅降低研发人员的工作压力。
首先,项目负责人可以将庞大的存储在Excel中的生测数据导入SDH科学数据基因组平台中,通过转换规则实现数据的快速清洗。
图 | SDH中的数据清洗与转换
然后,项目负责人通过SDH将来自不同数据源的化合物结构信息、生测信息与对接打分结果进行关联融合,形成构效关系数据库。根据数据分析的逻辑与需求,建立构效关系与打分结果的数据基因组。
图 | SDH中的多源数据融合
图 | SDH中建立构效关系的数据基因组
最终项目人员通过BI报表,实现数据的筛选与可视化,为进一步建立预测模型提供数据支持。
图 | SDH支持结构式的呈现与子结构筛选
最后,经过清洗融合的数据可以导入到MaXFlow分子模拟与人工智能平台,借助人工智能加快药物的发现进程。MaXFlow平台目前已部署包括GNN、CNN、DNN在内的多种深度学习算法,以及50多种机器学习算法,可通过训练数据集,快速预测化合物相关性质。
图 | MaXFlow中基于GNN与XGBoost回归模型的抗结核活性预测APP