【小哈划重点:以工程科技教育行业为例,目前我国存在很大的工程人才缺口,然而工程科技门类众多、知识体系繁复、知识点之间关联复杂,教材层次各异给自学带来了门槛。另一方面,学生背景各异、学习目的各异,统一培训效率低下。OpenKS知识计算引擎包含的知识抽取算法API、知识表征学习API、分布式知识计算API、知识图谱应用API可为工程科教构建工程科教知识图谱,并基于图谱为不同的学生设计个性化的教育路线,满足差异化学习的需要。】
如果你输入一段文字“我喜欢小米”,计算机能分析出小米指的是手机还是一个人吗?计算机能根据高中生历年成绩与特点,提供填报高考志愿的建议吗?
这些年来,人工智能改变着人类的社会生活,但仍有不够“聪明”的地方。
4月24日上午,记者从浙江大学召开的OpenKS(知目)知识计算引擎开源项目发布会上获悉,浙大与合作单位研发的OpenKS知识计算引擎取得重大进展,有望解决“人工智能不够智能”的问题。
中国工程院院士、国家新一代人工智能战略咨询委员会组长、浙江大学计算机学院教授潘云鹤说,本次发布的OpenKS,作为知识计算引擎项目中的基础软件架构,定义并丰富了知识计算的内涵,这种从跨领域知识自动归纳与迁移,到可泛化的知识演化与协同推理,再到永不停息的自主知识学习与计算服务的思路,将会加速众多知识密集型行业向智能化过度的过程,是我国在大数据人工智能方向的又一次有益尝试。
将大数据转化成结构化信息
在学习工作中,我们常会接触到表格和文档两种工具。比如,我们在录入一些个人信息的时候,可以在表格中设计好表头,按条目分别输入姓名、年龄、出生地等信息,计算机能够很容易地读取这些信息并加以整合、应用。而如果用一段文字“小A于1982年出生在杭州”来描述的话,计算机读取信息的时候可能就会懵圈。
为什么?因为表格是有结构的,而文字是非结构性的。对于目前的人工智能来说,非结构性数据只是数据,还不是知识,更不能被用于决策了。
其中关键的原因就是数据与知识之间的转化还不是很顺畅。在没有“学习”之前,计算机不知道西湖区是杭州的一个城区,无法判断一个名词是人名、产品名亦或是公司名,而视频也只是一段数据流。
为了解决这个难题,2019年12月,以浙江大学计算机学院庄越挺教授作为首席科学家的科技创新2030“新一代人工智能”首批重大项目——“可泛化的领域知识学习与计算引擎”正式启动。
该项目由浙江大学牵头,联合北京大学、北京航空航天大学、哈尔滨工业大学、西北工业大学、之江实验室等顶尖学术机构,以及百度、海康威视、同盾科技、科大讯飞等行业领军企业,旨在建立一整套可服务于知识密集型行业共性需求的知识计算工具、算法与系统,帮助这些行业快速地构建行业知识图谱,提供行业相关的智能规划与决策支持。
目前,经过各课题组的深入研究和课题间的紧密协作,基于百度飞桨深度学习框架,团队共同研发了可用于支撑各行业知识服务系统构建的OpenKS知识计算引擎算法库,“目前OpenKS已基本支持知识学习与计算全流程主要任务,涉及非结构化数据集与知识图谱载入、多模态数据知识抽取、知识表征、分布式知识学习与计算、知识服务与智能应用等环节模块。”庄越挺说。
帮助行业快速建立知识图谱
新一代人工智能中,知识图谱作为最重要的知识表示方式,已成为研究热点。知识的自动发现,知识图谱的构建、演化和协同推理是知识计算的核心技术,而融合数据、算法与人类智慧,协同一体的大规模分布式知识计算引擎则是实际应用的关键。
“简单地说,知识图谱就是对信息的结构化表达,比如把一篇文章‘改成’一个表格。” 庄越挺说,从全社会来看,众多知识密集型行业,如安防、金融风控、智慧城市、工程教育等均有着从海量数据中构建知识图谱并基于此进行快速决策的共性需求。然而,目前的人工智能技术在应对上述共性需求时,并没有通用、完整的解决方案,也无法同时解决数据不全、预测不准和计算不快等应用挑战,“这极大地制约了知识密集型行业的智能化改造。”
团队研发的OpenKS知识计算引擎算法库的一个重要功能就是从数据中提炼出知识并在此基础上做出决策。比如,在气象预报系统中,搭建地名、气象术语等知识库,让人工智能“学习”之后能够读取、检索、推理。
项目主要参与人员、浙大计算机学院教授肖俊介绍说,OpenKS知识计算引擎算法库集成了大量算法和解决方案,提供了一系列知识学习与计算的多层级接口标准,可供各机构研发人员以统一的形式进行算法模型研究成果的封装、集成与服务。
以工程科技教育行业为例,目前我国存在很大的工程人才缺口,然而工程科技门类众多、知识体系繁复、知识点之间关联复杂,教材层次各异给自学带来了门槛。另一方面,学生背景各异、学习目的各异,统一培训效率低下。OpenKS知识计算引擎包含的知识抽取算法API、知识表征学习API、分布式知识计算API、知识图谱应用API可为工程科教构建工程科教知识图谱,并基于图谱为不同的学生设计个性化的教育路线,满足差异化学习的需要。
“第一阶段我们的主要工作是算法库和知识图谱的搭建以及分布式计算。”项目主要参与人员、浙大计算机学院副教授汤斯亮演示了一个简单的小程序,当我们输入商品信息后,这套系统能自动识别、整理,最终生成一条商品推介。
开源式打造“木匠的工具间”
目前,这套系统已经应用到了多个行业领域。比如,在产业链的梳理中,系统帮助建立行业中上下游各企业的知识图谱,寻找生产的薄弱环节或是缺少的零部件。
而且项目的研发过程采用了开源机制,支持企业和社区开发者根据不同的场景需求对接口服务进行调用和进一步开发。也就是说,各行各业可以选择引擎中的算法,快速地搭建行业系统应用,以应对多变的决策需求。当行业与需求发生变化,系统也能够及时地提供算力、算法支撑,以缩短行业智能化改造的时间。这样的计算引擎能源源不断地产生各个行业的知识,进而碰撞产生新产业、新业态和新模式。
“打一个比方,我们是打造了一个‘木匠的工具间’,里面有锯子、刨子、榔头、钉子等各种工具,桌子、柜子这些常用的家具,系统可以帮忙做,如果是个性化的需求,木匠也可以在工具间里利用我们提供的这些工具来自己做。”庄越挺说,项目的研发过程中,行业专家、算法开发者和用户都发挥了各自作用,“达到越用越聪明的效果。”
如何运用大数据智能手段助力区域产业发展升级及科技创新决策? OpenKS给出了新路径新方法。杭州量知数据科技有限公司以OpenKS知识计算引擎为内核,研制了SuperMind智能计算平台,借助大数据智能技术和人机协同方式,从资讯、研报、专利、企业信息等海量非结构化数据中实现关键“知识”自动发现与抽取,相较于传统人工方式,最快只需一周即可构建完成高质量的产业链及创新链知识图谱,全方位展示关键要素,深入分析区域产业优势和短板,辅助推理决策,目前已服务于浙江省全球产业链精准合作招商平台、浙江省产业链数据中心和浙江省三大科创高地关键核心技术攻关数字化平台等项目,应用效果良好。
目前OpenKS项目已经并正在融合吸收来自跨媒体知识图谱构建、知识表征推理、可泛化协同求解、自适应学习中间件等方面的优秀成果,形成了一系列拥有自主知识产权的发明专利与软件著作产权,发表了一系列高水平学术论文。在后续项目的实施过程中,项目组将持续推动知识计算引擎的研发,让OpenKS知识计算引擎项目更好地为行业赋能,助力各类传统行业基础设施的智能化改造。
(文章原标题:《浙大牵头研发OpenKS知识计算引擎取得重大进展》。浙江新闻客户端 记者 姜晓蓉 通讯员 吴雅兰 柯溢能 摄影 卢绍庆)