今天是:2019年12月04日 星期三 欢迎访问法新网!·首页·关于我们·杂志订阅·广告征订·理事单位·人员查询·联系我们
网站公告:讲述中国法治故事,传播中国法治声音,阐述中国法治特色,弘扬中国法治精神
突破自然语言处理瓶颈 需大数据与富知识双轮驱动
发布时间:2019-11-01 09:43 | 来源:科技日报


  “今年美国国家科技理事会发布的国家人工智能八大战略中,有三项与自然语言处理有关。”近日,北京智源人工智能研究院首席科学家孙茂松表示,“自然语言处理是全球人工智能战略之关键。”然而,当前与自然语言处理的相关技术远未成熟,许多问题亟待突破。那么,目前有哪些解决途径?

  “学术领域叫自然语言,其实指的就是人类语言。自然语言处理可以说是从人工智能这个词尚未出现前,就是一个重要研究对象。”孙茂松表示。

  “语言,是人独立于动物的重要特征之一。但是大家不要把自己看得太高明,更不要认为人的语言就是模板,动物的语言也很强大,其中不乏超过我们的。” 孙茂松指出,比如鲸鱼的神经细胞有370亿个,人有200多亿,本身它的神经系统就比我们发达,语言也极其丰富。而鱼在海洋光线不好的情况下,能够做很强的交流,到现在人类也对其语言的理解十分有限。尽管动物的语言和人的语言有很大不同,但共性即是语言是两个个体之间交流的桥梁,桥梁作用就是研究的关键。

  上世纪60年代,机器翻译系统已经出现。相关部门用《圣经》中的句子进行了测试,句子直译的意思是“精神是愿意的,但是肉体是虚弱的”,但用当时的机器翻译成俄文,再用俄文系统翻译成英文时,就变成“伏特加是好的,但肉却腐烂,酒喝不成了”。如今把这个英语句子用谷歌翻译系统翻译成中文,基本上可以保持语义保持完好,这就是显著的进步。

  但现在大数据驱动下的自然语言处理遇到的瓶颈,是一位著名机器翻译专家提出机器翻译中“pen”的问题。即“pen”有两个意思:钢笔和围栏,而无论是谷歌还是微软的机器翻译,都还不能很好地根据不同语境将其译成合适的意思。“如果见过这句话的情况机器可能会翻译准确,而没见过就需要知识的积累。大数据驱动下的自然语言处理有很大局限性,即运用知识处理问题的能力几乎没有。”孙茂松指出。

  近些年,自然语言处理在全球范围受到学术界的高度重视,美国国防高级研究计划局(DARPA)对基于知识的语言智能投入相当大,涉及到数据知识与行为、低资源语言处理、知识指导模式推理、自动知识获取等。

  据介绍,目前我国基于大数据驱动的深度学习已经取得显著进步,这些年来很多重要进展都是基于这个层面。有专家指出,今后自然语言处理需要通过知识驱动实现突破。孙茂松认为,“大数据与富知识双轮驱动”或成为解决问题的关键,即在大数据驱动的基础上加入富知识驱动,两者结合,缺一不可。他强调,这个知识是系统性的,而不是用破碎的知识。

  为此,北京智源人工智能研究院“自然语言处理”课题团队,将致力于解决多类型知识资源构建、自然语言深度理解、可控自然语言生成、融合知识的机器翻译、智能语言学习、对话系统等问题。



责任编辑:张彤
最新文章
明略科技发布数据中台战略 助力企… 北京拥有人工智能相关人才近4万人 … 识人、识车、识商品 视觉识别让生… 甘肃试水AI课堂 为教育插上人工智… 高文院士:10年后人类社会将进入智… 智能化是信息化高级阶段 无人作战如何冲击战争伦理 液态全柔性智能机器人:从未知而来…
推荐文章
欧空局未来三年重点投资深空与月球… 补给舰首次接受民船补给 “随营军校”加速孵化新型战训人才 强军路上,树起“生命线”的时代标… 打造“空地一体”的战斗小组 当海军10950天,老兵第一次登上军… 北约实战部署“联合地面监视系统” 武器进口变出口 印度转型有难度