【小哈划重点:从法国回国后,冯志伟被分配到中国科学技术信息研究所计算中心担任软件工程师。1982年,他去布拉格出席了国际计算语言学会议,介绍了他研究的多叉多标记树形图模型和“汉—法、英、日、俄、德”多语种翻译系统,他是第一个参加这个会议的中国学者。】
当今世界,人工智能研究方兴未艾,而机器翻译被学术界视为人工智能研究皇冠上最耀眼的一颗明珠。作为我国计算语言学的开拓者之一,世界上第一个“汉语到多种外语机器翻译系统”的研制者冯志伟,今年已经82岁高龄了,仍然活跃在机器翻译领域。
两个多月前,他又走上清华大学的讲台,以“机器翻译和它的四个类型”为题发表演讲。基于规则的机器翻译、基于实例的机器翻译、统计机器翻译、神经机器翻译各有什么特点,难点在哪,前景如何,冯志伟娓娓道来。他告诫年轻学者,不要过分迷信目前广为流行的基于语言大数据的经验主义方法,不要轻易忽视目前受到冷落的基于语言规则的理性主义方法,而是要努力综合运用两种方法,把机器翻译研究推向深入。
学人小传
冯志伟,1939年生于昆明。1957年考入北京大学地球化学专业,1967年从语言学专业研究生毕业,后到天津、昆明的中学任教。1978年考入中国科技大学研究生院,公派至法国留学,学习数理语言学和机器翻译。回国后到中国科技信息研究所工作,后调入国家语委语言文字应用研究所(现属教育部)任计算语言学研究室主任、研究员。研制了世界上第一个从汉语到多种外语的机器翻译系统、世界上第一个中文术语数据库。曾获得奥地利维斯特奖、中国计算机学会NLPCC杰出贡献奖。用中外文出版《现代术语学引论》《自然语言计算机形式分析的理论与方法》《自然语言处理综论》等著作及译著40多部。
从昆明到北大
1939年4月,冯志伟生于云南昆明一个贫困家庭。他的稚幼岁月是在跑警报躲轰炸的战火中度过的。
1944年11月24日,防空警报骤响,只有5岁零7个月的冯志伟和母亲一起跑向城外,慌忙奔跑的人群把这对母子冲散了。这是日军对昆明的第140次轰炸,投弹100多枚。天黑尽了,冯志伟还没有回家。第二天,父母在城里城外穷找了一天,也不见他的影子。母亲哭得死去活来,以为宝贝儿子被炸成了碎片。直到黄昏时分,冯志伟竟自己摸进了家门。原来,他在轰炸声中跳进了稻田里一个大炸弹坑。紧接着,近旁炸弹爆炸的泥土覆盖住他的全身,他休克了将近一夜,直到天亮才醒来。冯志伟挣扎着爬出炸弹坑,随后又昏倒在田埂边。一位好心的农民发现了他,把他抱回家洗浴、喂饭,直至傍晚,把他送上回家的大路。
1946年7月15日,7岁的冯志伟跟着舅舅到云南大学至公堂参加李公朴先生追悼会,一位长者正在那里慷慨激昂地演讲:“人民的力量是要胜利的,真理是永远存在的……反动派,你看见一个人倒下去,可也看得见千百个人继起的……我们不怕死,我们有牺牲的精神!我们随时像李先生一样,前脚跨出大门,后脚就不准备再跨进大门!”此人就是闻一多。当天下午,闻一多在回家途中遭国民党特务伏击,中弹牺牲。这场演讲给冯志伟留下了深刻印象,对闻一多先生的崇敬之情一直伴随着他。长大之后他才知道,舅舅是中共地下党员。
冯志伟著《自然语言计算机形式分析的理论与方法》
1957年,冯志伟以优异成绩考取了北京大学地球化学专业。昆明一中的校长和老师都无比高兴,表扬他为学校争了光。可回到家,父亲却不同意冯志伟到北京大学读书,要他先工作养活自己,然后再多挣点钱补贴家用。父亲那时是昆明市蔬菜公司的会计,要用自己微薄的工资养活家中的7个孩子。这样的安排,也是无奈之举。
母亲一听,断定这将会毁了聪明儿子的前途,和父亲吵了起来。第二天一早,母亲带着冯志伟到左邻右舍、亲戚朋友家化缘、借贷,终于凑齐了从昆明到北京的路费。
从理科到文科
从云南边疆进入北京大学,冯志伟深知这个机会来之不易,学习非常刻苦。课余时间,他喜欢钻进北大图书馆,探寻学术前沿。有一次,他在外文图书室看到了美国语言学家乔姆斯基的论文《语言描写的三个模型》。这是一篇语言学论文,却发表在自然科学的信息论杂志上,冯志伟感到特别好奇,怀着极大的兴趣通读了全文,认识到这是乔氏应用数学中的“马尔科夫链”来描述自然语言的生成过程,为语言建立了一套独特的数学模型。
冯志伟下定决心要学习这种崭新的语言学理论,于是向学校提出申请,要求转到中文系语言学专业学习。校方认为,这种从理科到文科的跨专业转系没有先例,因此未予批准。此后近一年,冯志伟一而再、再而三地向学校恳求,最终如愿,但条件是从理科二年级转到文科一年级,从头学起。父亲盼着他早日毕业挣钱养家,他却从理科转到文科,白学了两年,父亲气得直骂:“愚蠢!”
冯志伟由此开始了跨学科的学术研究。转入语言学专业一年之后,这个“愚蠢”的儿子写出论文《“语法”定名胜于“文法”》,刊于《中国语文》1961年第2期。《中国语文》是语言学界的顶级刊物,大学二年级的学生在这样的刊物上发表文章,实属罕见。
冯志伟在国际会议上与外国专家讨论。
1960年11月,《文汇报》刊发了陈望道、吴文祺、邓明以撰写的文章《“文法”“语法”名义的演变和我们对文法学科定名的建议》,12月又登载了傅东华的文章《“文法”定名优胜于“语法”》。冯志伟读了这两篇文章,认为学术界已经使用“语法”多年,语法定名胜于文法。双方的意见针锋相对,于是引起了一场学术争论。这场学术争论的结果,“语法”的定名取代了“文法”。冯志伟的名字在北京、上海传开了,可是许多人不知道他只是一个大学二年级的学生。
1964年,冯志伟考取了北大研究生,师从岑麒祥教授学习现代语言学流派的理论。他仍然迷恋数学与语言学的跨学科研究,把毕业论文题目定为《数学方法在语言学中的应用》。岑麒祥教授认为,这个题目偏到理科方面去了,不像传统的语言学研究,未予批准。冯志伟向王力教授汇报了自己的想法,王力教授主张中文系的人也要学习数理化,认为用数学方法进行语言学研究有道理,可以大胆尝试。睿智而豁达的岑麒祥教授改变了想法,同意了冯志伟的选题。
于是冯志伟精心撰写这篇论文,顺利完成,准备答辩了。可是,1966年5月“文革”开始,答辩无法进行。冯志伟等待又等待,最后还是不能答辩,到1967年8月下旬,他领到了北京大学研究生毕业证书,被分配到天津唐口三中教英语。
手工计算汉字的熵
在天津教了三年英语,1970年8月,冯志伟调至昆明五中当物理教师,他的语言学专业已经没有用武之地了。但是,他没有放弃跨学科研究,经常到云南省科技情报研究所和云南省图书馆,阅读外文书刊,密切跟踪国际数理语言学研究进展,利用业余时间写成长篇论文《数理语言学简介》,发表在1975年第4期的《计算机应用与应用数学》杂志上。这篇文章犹如空谷足音,使人们认识到,在极其艰苦的条件下,仍然有人继续进行着跨学科的探索。
那段时间,冯志伟还研究了汉字的“熵”。熵是物理学术语,用于量度某些物质系统的状态,英语字母所含信息量的大小也可用“熵”来表示。信息论的奠基人香农使用手工查频的方法,统计出英语26个字母在文本中出现的频度,经过复杂计算,确定英语字母的熵为4.03比特,奠定了信息论的理论基础。
香农又提出了“编码定理”,他指出:在编码时,码字的平均长度不能小于字符的熵。英语字母采用单字节编码,码字的长度是1个字节,相当于8比特,大于英语字母的熵,符合香农的“编码定理”。因此,采用单字节来给英语字母编码,是符合数学原理的。
20世纪70年代,国外已经广泛使用计算机了。冯志伟想,中国人将来也要使用计算机,那时,就必须要给汉字编码,使得汉字也可以在计算机上自由地输入、输出、传输。但是,汉字究竟要使用多少字节来编码呢?根据香农“编码定理”,要给汉字编码,首先就要计算汉字的熵,这是冯志伟最为关心的问题。他想,如果汉字的熵大于8比特,那就不能采用单字节编码了,我们就必须另辟蹊径,研制新的编码方式。汉字数量庞大、笔画繁多,汉字熵的计算特别艰难。首先要进行字频统计,然后再计算汉字的熵。冯志伟动员岳父和10位朋友一起工作,没有计算机,主要使用计算尺和算盘来手工计算。冯志伟岳父在云南省粮食厅工作,算盘打得非常熟,他打算盘,配合冯志伟拉计算尺进行计算。最后,冯志伟根据手工统计得出的1万多个汉字的频度,经过精心计算,确定汉字的熵值为9.65比特。这样,汉字只好采用双字节(2字节=16比特)来编码了。冯志伟的这项工作,为20世纪80年代汉字的双字节编码提供了可靠的理论基础。
冯志伟始终认为,9.65比特只是一个估测出的汉字熵值,还需要采用更加精密的手段进行检验。20世纪80年代,北京航空学院计算机系教授刘源使用计算机统计了汉字的频度,并计算出汉字的熵为9.71比特,与冯志伟通过手工计算估测的结果相差不大。
1978年春,全国科学大会召开了,在“尊重知识、尊重人才”的口号声中,北京大学开始行动,希望把远在昆明的冯志伟调入北大,而冯志伟在昆明五中教学成绩优秀,学校舍不得放他走,调动没有成功。
其时,中国科技大学研究生院正式在北京成立,开始招生,冯志伟抓住这个机会,经过认真准备,一举考中,昆明五中只好放他走了。1978年国庆节之后,这个39岁的壮汉又变成了学生,背着书包从昆明到北京去上学。
闯进机器翻译的迷宫
那一年,中国科大研究生院录取新生1015名,决定选派其中的150名公费出国留学,冯志伟就是其中一员。
1978年12月20日,冯志伟乘飞机到达法国巴黎,在中国驻法大使馆报到之后,先到维希的“嘉文澜”语言学院进修法语。1979年3月1日,冯志伟乘火车从维希抵达格勒诺布尔。一下火车,他就看到格勒诺布尔理科医科大学应用数学研究所“自动翻译中心”主任沃古瓦(Vauquois)教授亲自来火车站迎接。沃古瓦是数学家、天文学家、计算机科学和计算语言学家,又是国际计算语言学会议(COLING)的主席,他曾带领自动翻译中心研制了俄-法机器翻译系统,达到国际领先水平。
冯志伟在沃古瓦的悉心指导下,闯进机器翻译的迷宫,环顾细查,借鉴创新。他掌握了最新的计算机编程技术,学会了使用当时最先进的IBM4341大型计算机,开始研制“汉语-法语机器翻译系统”。
在机器翻译的研究中,冯志伟提出了多叉多标记树形图模型(Multiple-branchedMultiple-labeledTreeModel,MMT模型),用多叉树来改进直接成分分析法的二叉树,首先对源语言的字符串进行形态分析,把线性字符串转换成有层次的多叉树来表示源语言的句法语义特征,然后进行源语言多叉树到目标语言多叉树的转换,最后把目标语言多叉树转换为目标语言的字符串作为译文输出。对于多叉树中每一个节点上的信息,他还使用多标记来改进传统的单一标记,精心设计了一套复杂特征集(complexfeatureset)来描写语言的形态、句法、语义特征,并编制了计算机可读的形式化语法规则和机器词典。
为了完成这项艰巨工程,他给自己规定了“887自律规则”:每天8点上班,晚上8点下班,一周7天工作。“汉-法系统”试验成功之后,他又进一步研究“汉-法、英、日、俄、德”多语种翻译系统。历经冬去春来三个轮回,至1981年11月4日,这个系统终于研制成功。他在计算机上输入汉语,计算机立即自动将其翻译成五种语言。这是世界上第一个从汉语到多种外语的机器翻译系统。研究工作结束,冯志伟立即回到北京,并把他的研究成果写成了《自然语言机器翻译新论》在语文出版社出版。
从软件工程师到计算语言学家
从法国回国后,冯志伟被分配到中国科学技术信息研究所计算中心担任软件工程师。1982年,他去布拉格出席了国际计算语言学会议,介绍了他研究的多叉多标记树形图模型和“汉—法、英、日、俄、德”多语种翻译系统,他是第一个参加这个会议的中国学者。
1985年,冯志伟的老朋友,时任国家语委副主任、语言文字应用研究所所长陈章太登门拜访。陈章太告诉冯志伟,语文现代化就是要在语言研究中鸟枪换炮,不是换旧时的加农炮,而是要换最先进的火箭炮,“我们国家语委要搞鸟枪换炮,在语言文字应用研究所设置了一个机构,叫作计算语言学研究室。”陈章太希望冯志伟重启旧业,回到语言学队伍,担任语言文字应用研究所计算语言学研究室的负责人,这是他此行的主要目的。
冯志伟知道,语言文字应用研究所是一个文科单位,资金支持和计算机设备都比中国科技信息研究所差得多,到那里肯定很难开展像现单位这样的高水平研究,亲戚、朋友、计算机界的老同学也都对调动持反对态度。但冯志伟被陈章太的诚意感动了,更重要的是,他心里还牵挂着语言学。几经考虑,他想,自己在北京大学学习过多年的语言学,回到语言学界应该能够为国家做一些有意义的事情,就点头应允了。
不久之后,冯志伟调入了语言文字应用研究所,担任计算语言学研究室主任,同时在中国科学院软件研究所担任兼职研究员。同年9月,冯志伟被中科院软件所派往德国斯图加特的夫琅禾费研究院与德方合作,从事术语数据库的研究,研制成世界上第一个中文术语数据库GLOT-C。术语是科学知识在自然语言中的结晶,术语学是冯志伟从事语言跨学科研究的一个重要领域。根据术语数据库的研究成果,冯志伟撰写成《现代术语学引论》,受到国内外学术界的高度评价。2008年6月,联合国教科文组织奥地利委员会和国际术语信息中心给冯志伟颁发了维斯特奖,表彰他在术语学研究中作出的突出贡献。
1998年5月退休后,冯志伟仍然马不停蹄,退而不休。2001年他应聘到韩国科学技术院计算机科学与电子工程系担任客座教授,用英语为博士生讲授“自然语言处理”的高级课程。在备课中,冯志伟发现英文版的《语音和语言处理——自然语言处理、计算语言学和语音识别导论》覆盖面广,理论分析深入,是一本很优秀的自然语言处理的教材,决定把此书翻译成中文。他白天讲课,晚上加班翻译到深夜,连续工作了11个月,当翻译完14章的时候,他患了眼病,难于继续翻译,中国科学院软件研究所研究员孙乐把剩下的7章翻译成中文,帮助他迈过难关。2005年,全书翻译大功告成,由电子工业出版社以《自然语言处理综论》的书名出版。2018年,他们又合作翻译出版了此书的第二版。
我国制定的汉语拼音方案,已经在1982年成为全世界用罗马字母拼写汉字的国际标准,标准编号是ISO-7098。进入信息时代之后,在信息和文献工作中,这个标准已难以适应信息社会发展的需要,在2011年5月,国家教育部派遣冯志伟参加国际标准化组织第46技术委员会的会议,修订这个国际标准。修订一个国际标准需要通过5个步骤:工作草案阶段、委员会草案阶段、国际标准草案阶段、最终国际标准草案阶段、国际标准阶段。已是古稀之年的冯志伟被国际标准化组织任命为这个国际标准的国际工作组组长,先后奔波于悉尼、柏林、巴黎、华盛顿等城市,用英文起草了新的国际标准,在修订的过程中,在国际会议的会场和会外与各国代表的交流中,冯志伟熟练运用多种外语,积极有效地与会议主办机构、与会各国代表、国际标准化组织负责人进行沟通、协商和解释。他认真应对,机智处理,克服重重困难,出色完成了这项任务。
冯志伟还对国内外自然语言处理的研究成果进行了系统梳理,写成了专著《自然语言计算机形式分析的理论与方法》,被纳入“十三五”国家重点图书规划项目“当代科学技术基础理论与前沿问题研究丛书”,于2017年由中国科学技术大学出版社出版。此书是基于规则与基于统计的自然语言处理方法的专著,分别讨论了基于短语结构语法的形式模型、基于合一运算的形式模型、基于依存和配价的形式模型、基于格语法的形式模型、基于词汇主义的形式模型、语义自动处理的形式模型、语用自动处理的形式模型、隐马尔可夫模型、统计机器翻译的形式模型。此书获得中华优秀出版物奖,这是中国出版界三大奖之一。
2014年以来,神经网络的方法成了机器翻译的主流方法,有的神经机器翻译系统的正确率已经接近人的翻译水平,因而基于规则的理性主义方法受到冷落。冯志伟已经进入耄耋之年,他仍然密切关注着机器翻译的最新进展,坚持每天阅读和梳理国内外文献,先后撰写了多篇关于人工智能、统计机器翻译、神经机器翻译、词向量生成的论文。在这些论文中,他介绍国内外神经机器翻译的最新进展,在充分肯定神经机器翻译成就的同时,明确指出,我们这一代学者有幸赶上了基于语言大数据的黄金时代,在机器翻译研究中,采用神经网络的经验主义方法,那些处于机器翻译低枝头上的果实我们唾手可得,然而,由于神经机器翻译只关注语言大数据,忽视语言知识,很多问题难以根据语言规则从理性主义的角度进行解释,这样,在今后的机器翻译研究中,我们留给下一代的将是那些最难啃的、处于机器翻译高枝头上的硬骨头。在自然语言处理的研究中,基于语言规则的理性主义方法依然不可或缺,基于语言数据的经验主义方法一定要与基于语言规则的理性主义方法结合起来,才会通向自然语言处理发展的金光大道。
2018年,中国计算机学会授予冯志伟NLPCC杰出贡献奖,表彰他在自然语言处理(NaturalLanguageProcessing,NLP)和中文计算(ChineseComputing,CC)方面的成绩。冯志伟是一个来自人文学科的语言学家,却得到了中国计算机学会的嘉奖,这是非常罕见的现象。在这次颁奖仪式上,他深情地说:“现在我已经是近80岁的老人了,可是,我们从事的自然语言处理仍然是一门新兴学科,她仍然显得非常年轻,仍然充满了青春的活力,仍然有着无比广阔的发展前景。一个人的生命是有限的,而科学研究的发展是无限的,一个人的有限生命与科学研究这棵枝叶茂密的参天大树相比,显得多么短促,多么渺小,多么微不足道啊!”
(图片均由作者提供)
《光明日报》( 2021年12月20日11版)
作者:钱玉趾(四川省科学技术协会高级工程师);陈星蒙(四川省科普作家协会会员)