一段包含中文、英语、韩语、日语、阿拉伯语、越南语等40种语言的文字如何理解?大多数人做不到的事情,经过训练的人工智能机器却能做到。
在近日举办的世界权威多语言理解评测XTREME(Cross-Lingual Transfer Evaluation of Multilingual Encoders)中,哈工大讯飞联合实验室(HFL)团队以总平均分84.1位列榜首,刷新世界记录。
XTREME评测旨在全面考察模型的多语言理解与跨语言迁移能力。与以往单语言自然语言理解评测任务不同的是,XTREME中的每一个任务都覆盖了多种语言,并且包含句对分类、序列标注、阅读理解、句子检索赛道,共四大类九个任务。
那么,机器是如何做到多语言理解的?比赛负责人、哈工大讯飞联合实验室核心技术研究员杨子清介绍,他们通过自主研发的跨语言对比学习技术,利用知识蒸馏技术进行自监督学习和知识迁移,鼓励模型学习不同语言中的语义相似性,与此同时,还创新性地融入了细粒度的语言学特征,帮助模型克服训练不足的困难,解决低资源语言学习不充分的问题,同时使之适应不同语言的形态学特点。
“这就意味着,通过本土语言学习,机器可以在少量其他语言语料的情况下,通过类比学会这门语言,减少了收集语料、语音标注等大量工作。”杨子清补充解释。
除了多语言,科大讯飞还在少数民族语言处理方面推出了预训练模型CINO(Chinese mINOrity pre-trained language model)。
杨子清介绍,“少数民族语言处理是中文信息处理中不可缺少的一环,也是中文信息处理多样性的一种体现。这项技术的进步将极大改善我国少数民族语言学习问题。”
国内少数民族语言语料稀缺、获取难度大等原因,相关技术研究相对匮乏,而主流的多语言模型也无法很好地处理国内少数民族语言文字。“希望未来能够进一步促进业内少数民族语言相关的技术研究,推动少数民族语言相关技术的应用落地。未来支持各少数民族语言的多语言搜索引擎等文字应用工具或将成为可能。”杨子清说。(思牧)
[ 责编:肖春芳]
张记麻辣烫加盟 刘记麻辣烫加盟
天富龙、锦江电子上交所IPO已问询
石榴快播丨推动国资国企高质量发展迈上新台阶 自治区区属国有企业座谈会今日召开
终极斗罗15:家丑不可外扬,传灵塔却反其道而行之
武汉地铁几点开班收班(武汉地铁几点开班)
河北启动干旱防御Ⅳ级应急响应 多措并举保障农业生产
新化:洋溪镇撬动行业协会力量,助推农村建筑安全、耕地保护和控违拆违工作良性开展
邓伦犯了什么事 邓伦被强制执行 基本情况讲解
华谊兄弟:《非诚勿扰3》已于6月开机制作
嘉峪关酒泉机场工程顺利通过行业验收 计划9月7日复航
马自达3昂克赛拉配置推荐,买2.0L入门版足够!
国产小爆款《火山的女儿》销量60万!Steam好评如潮
基金研究周报
禹洲集团上半年合约销售额约117亿元
GGII:6月全国备案154个储能项目 总规模达15.4GW/34.9GWh