由创腾科技在国内率先研发的面向生命科学和材料科学领域科研场景的科学数据融合与数据溯源平台——科学数据基因组平台(Scientific Data Hierarchy, SDH)在5月29日正式发布后,就迅速吸引了众多关注的目光,一系列与该平台有关的关键词也成为大家关心的热点。那么究竟什么是数据基因组?什么是数据智能?科学数据基因组平台又能做哪些事呢?小编邀请了创腾科技SDH产品总监孙总,为大家作更深入的解读。
科学数据基因组平台:一个开采金矿的工具
科学数据基因组平台(SDH)是专为生命科学和材料科学领域打造的科学大数据管理平台,是帮助企业组织从数字化研发迈向智能创新的关键纽带和桥梁。
无论是大数据时代还是现在人们常提到的数据智能时代,各类企业都已经在研发业务领域积累了规模庞大的科研数据。
用户走访时,经常会听到这样的说法——“我们手中有金矿(海量的科研数据),但是缺少开采金矿的工具”,而科学数据基因组平台正是这样一个工具。
通过科学数据基因组平台(SDH),企业组织可以对来自各种不同业务系统(如ELN, LIMS等) 海量科学数据进行抽取、整合、清洗、索引,建立统一的数据规范,灵活构建和管理主题数据库,并按需抽提所需数据。
数据可以有两种流向,一部分流向BI报表模块,深入挖掘科学数据内在价值,助力企业智能决策;另一部分则可以对接分子模拟与AI智能平台,例如MaXFlow,为MaXFlow提供高质量的大数据,帮助训练更优秀有效的模型,从而帮助企业最终实现数据智能。
数据基因组:创腾科技首次提出的全新概念
数据基因组,这个全新的概念是由创腾科技在2020年首次提出的。
一说到基因组,大家一定会立刻想到生命科学中的DNA、染色体、基因……其实没错,数据基因组概念正是结合了人类基因组计划而提出的。人类由23对染色体组成,包含超过30亿个DNA碱基对,其中一部分的碱基对组成了大约20000到25000个基因。人类基因组计划的目的是想测出人类基因组 DNA 的30多亿个碱基对的序列,发现所有的人类基因,找出它们在染色体上的位置,最终破译人类全部遗传信息。
数据基因组实际上就是为了破译科研领域中全部科研业务数据信息,将散落在研发过程中的科学数据进行融合,同时可以做到数据溯源,为企业数据智能积累数据资产,为企业的创新研发赋能。
数据智能:数据驱动决策
之前人们常说大数据时代,那么近些年数据智能的概念又频繁出现,那么什么是数据智能呢?
数据智能的标志就是由机器代替人工去决策,其实背后原理很简单:当面对问题,不能快速寻找到一个简单、准确的解决方案时,我们可以向历史数据求助,找到合适的算法后,就可以构建出能够描述真实数据的模型,从而预测真实场景下的数据结果,寻求进一步的解决方法,虽然会有误差,但是在合理误差范围内的结果,都可以进一步指导决策,从而实现数据智能。