首都师范大学教授、国家语委科研基地——语言智能研究中心主任 周建设
《国家语言文字事业“十三五”发展规划》,是今后五年国家语言文字事业发展的重要纲领,其在合理传承《国家中长期语言文字事业改革和发展规划纲要(2012—2020年)》的基础上,依据国家创新驱动发展新战略,适应国家语言文字事业发展新需要,科学地设计了一系列基本任务和重大工程。基于国家推进教育信息化,促进教育公平,倡导人人皆学,处处能学,时时可学的大背景,《规划》聚焦语言资源建设、语言信息处理技术突破、语言智能成果研发与应用,描绘了一幅语言文字信息化建设的宏伟蓝图。
一、注重基础,科学规划语言资源建设
大数据时代,对语言文字信息化建设提出了“数据要求”。开展语言文字资源建设,是应对“数据要求”的一项基础性工作。《规划》明确指出,语言资源是国家重要的文化资源、经济资源和战略资源,为了加强语言资源基础标准的制定,推动语言资源的共享,应当统筹协调,努力形成“有序开发、多元投入、社会共享”的语言资源建设与管理机制,重点建设语言文字资源库,建设国家语言文字资源服务系统,以促进语言文字资源的保护、开放与共享。
广泛收集、标注、抽取语言文字的各种要素,建设大规模语料库,对于促进语言文字对比研究,语言信息化建设和智能化发展,以及语言文字智能化产品研发具有重要意义。优质语言数据资源共享,大大避免了资源重复建设,减少了国家投入负担,提高了语言资源在全国乃至世界范围内的利用率,有助于发挥语言资源库在语言文字信息化和语言智能化进程中的基础性作用。
二、突破瓶颈,准确聚焦语言技术难题
语言信息处理是语言文字信息化和智能化发展的重要领域,也是语言文字信息化和智能化建设的重要途径。无论是语言文字信息化还是语言智能化,要想取得技术创新的重大发展,就要找准语言信息处理的技术难点,集中科研力量,重点突破。《规划》指出,要充分利用大数据、云计算、移动互联网等新的信息技术,支持自然语言深度理解、生成、处理与评价,推动语音识别与合成,文字识别,人机对话,多语种机器翻译等智能化理论研究和关键技术开发,推进“互联网+”环境下语言智能技术创新,以形成标志性成果,从而在语言文字智能辅助学习和语言文字评测技术和产品研发方面掌握主动权。
计算机科学、人工智能与语言学的交叉融合优势,为语言文字信息化和智能化提供了前提和基础,但机器理解人类语言还有很长的路要走。因为语言是一个复杂的系统,每种语言,包括方言、俚语以及伴随语言的情绪、语言交流环境等等,使得机器理解起来难度极大。云计算和大数据使人工智能由可能变为现实,丰富了慕课、微课、翻转课堂和个性化教学等交互认知手段,突破了“教”和“学”的时空限制,实现了个性化反馈和有效沟通。然而,当前,智能化、个性化交互方式还有很多技术上的难题需要解决,技术难题的破解又跟基础理论创新密切相关。《规划》聚焦语言文字信息化关键技术难题,加强语言处理的理论创新和技术突破,无疑将有力地促进语言文字信息化和智能化。
三、强化应用,全面提升语言智能服务
随着科技进步,人们对语言信息服务的依赖性越来越强,对语言信息服务产品的质量要求越来越高。国家语言文字信息化建设的目的是强化语言文字信息化的实际应用,不断提升语言信息化和智能化的服务水平。《规划》确定“政府主导、语委统筹、部门支持、社会参与”的管理体制,并积极创新社会参与机制,指出要充分利用语言文字信息化和语言智能研发成果,积极整合和发挥高校、科研院所和企业的力量,吸引和扶持语言文字及相关领域学术团体、社会组织及志愿者等投入到语言文字信息化和语言智能化的事业中,创新语言文字服务方式,提升语言文字信息化和语言智能服务能力,从而为保障国家战略和安全提供服务。这就为语言文字信息化和智能化工作如何高度重视用户需求,满足用户需要,促进产品广泛服务于国家和民生指明了方向。