【小哈划重点:现在来看,NLP 技术有两个新的落地场景值得重点关注:一是多模态内容分发与内容消费,包括各种信息流、资讯圈等,大量的信息处理、聚合与触达,都广泛依赖 NLP 技术。另一个是普适计算下的自然语言交互,包括各种云 + 端的设备,例如手机、车载、音箱等等。】
导读:近年来,智能机器人客服已经在各行各业发挥作用,替代人类更有效率地处理繁杂的事务。但是,不可否认的是,目前市面上大多数智能客服并不能完美满足用户的需求,如难以处理未经过训练的场景问题,无法理解复杂的人类语言结构等。在技术和商业化应用上,智能客服背后的 NLP 和语音技术虽然已经取得了很多进步,近年来却鲜有突破性进展,成功的商业化应用仍然屈指可数。如今,NLP 和语音技术在商业化应用上遇到了哪些瓶颈?为何迟迟没有大的进步?解决问题的关键在于哪里?或许我们可以通过智能对话机器人的典型代表——腾讯知文问答系统,发掘当前智能对话机器人破解行业应用难题的答案。
知文背后的团队
经过腾讯最近一次组织架构大调整之后,知文团队从原来的 SNG 事业群归入了新成立的云与智慧产业事业群(CSIG),但服务和支持的相关产品和业务不变,包括腾讯云、QQ、QQ 空间等。这一团队目前的研究重心,也依然放在自然语言智能交互,围绕智能交互的内涵和外延,学术研究则包括但不限于问答、对话系统、文本摘要、知识图谱、机器阅读理解等。
作为知文团队的技术负责人,钟黎主导了知文智能问答平台、知文 NLP 平台以及知文内容理解产品的研发工作。在此之前,他曾负责腾讯社交网络的文本分析与语义挖掘,为众多相关产品和业务提供语义分析能力。他拥有丰富的大规模机器学习应用经验,曾经在微软、PayPal、SoftBank AI Lab、IBM Research 等公司任职,并参与过机器人 NAO 及 Pepper 的原型研发、Watson 智能会议助理研发等。
知文系统技术架构与四次迭代
根据钟黎的介绍,腾讯知文问答系统主要可以分为四大层次:
第一层:应用层,包括智能客服机器人、智能外呼机、投诉引导机器人、任务查询机器人等各类具体业务场景机器人。
第二层:接入层,包括公有云、私有云、私有化部署等多种接入方式。
第三层:核心问答引擎,包括信息问答、知识图谱问答、任务型问答、文档型问答以及多轮交互等技术模块。
第四层:基础能力层,包括数据能力(行业与领域数据、知识库管理、迁移学习),NLP 能力(基础 NLP 算法组件),深度学习能力(复杂模型优化、深度学习工程化),数据分析能力(自动分析与监控、趋势分析、问题预测)等。
经过数次迭代,知文不断调整优化知文的架构,以为用户提供更好的体验。钟黎告诉 AI 前线,知文的发展路径整体来看是实际业务需求驱动的。最开始是缘起内部业务关于客服的工单统计和分类的需求,辅助人工客服。之后,团队发现其实可以用问答技术去解决大量频繁、重复又比较简单的问题,以减少人工客服的问询量。随着时间的推移,知文团队又遇到新的业务需求,即没有工单,而是有比较多知识和文档的场景,因此又逐渐引入知识图谱技术、机器阅读理解技术。目前,知文的研究重点,一方面是在无标注数据或者少量标注数据下,知文问答平台可以快速高效冷启动的方案,另一方面是多轮会话下解决用户意图在多个机器人间来回跳转的问题。
在规模和应用上,知文系统已经支持了 5 大行业的智能客服,得到 20 多家行业头部客户的采用,包括中国银行的新一代客服机器人项目,以及由腾讯 CEO 马化腾亲自站台的“一部手机游云南”项目。
经过架构的不断优化,知文核心问答机器人架构至今已经过四次迭代。钟黎介绍道,这四大核心机器人主要是指信息问答机器人、文档阅读理解机器人、任务执行机器人以及知识图谱机器人,但具体的迭代路径、方法和思考,钟黎表示将会在 AICon 上揭晓。
知文在 NLP 和语音技术上的突破
NLP 和语音在技术上仍然有很多亟待解决的问题,为解决这些问题,知文问答系统做出了诸多优化和创新。例如,在核心的问答匹配上,其匹配模型引入了 ELMO 表示、词图卷积、intra/inter-attention 机制、位序损失、GLU 通路等,比当前主流的匹配模型如 MatchPyramid、AICNN、BiMPM 等有更好的表现。在文档阅读理解上,知文问答模型引入了 template answer guiding 以及 tree-based spanning,突破了大部分学术论文只能做答案在原文中完全匹配且完全基于监督数据的方法。在任务型问答上,知文问答模型在 end-to-end 的记忆网络上进行了知识增强,对于多轮的任务型场景,模型能够有效地记忆更长的会话信息和槽位状态。
对于一家企业来说,打造一个能够满足用户大多数需求的问答机器人绝非易事,在技术和落地上均会面临很多挑战。钟黎告诉 AI 前线,知文团队在打造智能问答平台的过程中遇到过很多技术难点,在业务落地上也是如此。
其中,知文在业务落地中常见的难点,第一个就是业务方往往没有大量的标注数据。智能问答平台里包含了多个算法模型,如果每个都是监督模型的话,意味着在上线之前需要“喂”进去大量的监督数据,这对于业务方来说是很大的标注负担。第二个问题,就是业务方往往没有特别地进行知识库管理,大多数是一些历史工单或者 FAQ 问题,这些数据的结构化程度还不够高,没有形成知识图谱或者层级关系。基于这些数据做多轮和反问交互,对知文来说是一个挑战。针对这些问题,知文平台在数据标注方面采用了 few-shot learning 的思想,并通过迁移学习的方式,如表征迁移、模型框架迁移等,极大地降低了业务接入的数据门槛;另一方面,在无结构知识库管理上,知文平台通过自动图谱构建、动态子图生成的方式,实现通用多轮和反问的交互方式。
NLP 与语音未来趋势
NLP 与语音交互融合协作
腾讯知文问答系统的背后,是 NLP 和语音技术相结合的技术在提供支持,这呼应了业界有人提出的观点:NLP 与语音交互技术已然从独立技术,走向融合协作的道路。对此,钟黎认为,NLP 与语音技术本身有着紧密的联系,语音技术的很多模型也在 NLP 里得到了广泛应用。一个完整的自然语言交互方案,必然需要同时融合语音和 NLP 的技术,例如一个典型的流程,从用户语音 query 进来,要经过语音唤醒、ASR、NLU、QA、NLG、TTS 等最后返回语音回答给用户。腾讯知文的自然语言交互方案,现在也是正在从基于文本 NLP 技术,到融合语音的完整自然语言交互技术。未来,一个更加自然、功能强大的智能语音交互产品,必然是充分融合了 NLP 与语音技术的成果。
表征与框架层迁移学习:无标注数据也是宝藏
虽然,NLP 和语音技术在最近几年在技术和应用上鲜有突破,但随着更多研究人员和企业、组织进入这一领域,相信在未来,这一领域将酝酿出新一轮爆发和突破。
关于 NLP 技术未来发展的趋势,钟黎认为近期 NLP 领域值得关注的趋势是表征与框架层的迁移学习,包括之前的 word2vec、glove,Al2 的 ELMO,OpenAI 的 GPT, Fast.AI 的 ULM,以及 Google 的 BERT,迁移学习从底层表示的迁移、语言模型的迁移,转变到了模型框架的迁移。
这其中,他重点强调了谷歌提出的 BERT 模型。“通过海量无监督数据的预训练,只需要在特定任务上对最后一层进行 task-specific 的修改,就能取得很好的效果,目前已经在数十个任务上验证了其有效性。这对于工业应用是很大的福音,尤其对于小数据的任务,我们只需要通过小数据来 fine tune 最后一层,也能取得很好的效果。在 NLP 领域,大量的无标注数据的潜力尚待挖掘,这些迁移学习的方法在一定程度证明了无标注数据也是宝藏。非常期待在自然语言领域无监督学习、小样本学习能够取得更多突破。”
新的落地场景:多模态内容分发、普适计算下的语言交互
落地,是所有技术最终的归属,无法落地,再好的技术也无用武之地。钟黎认为,NLP 其实不是新事物,在互联网的落地应用上应该算是其他 AI 方向的“前辈”,从门户和搜索引擎时代开始,NLP 就一直是核心技术。
现在来看,NLP 技术有两个新的落地场景值得重点关注:一是多模态内容分发与内容消费,包括各种信息流、资讯圈等,大量的信息处理、聚合与触达,都广泛依赖 NLP 技术。另一个是普适计算下的自然语言交互,包括各种云 + 端的设备,例如手机、车载、音箱等等。
“人机交互的革命暗潮涌动,自然语言的方式将会在越来越多的场景发挥作用。”展望未来,钟黎如此说道。