
智东西(公众号:zhidxcom)
作者 | 程茜
编辑 | 漠影
智东西4月18日报道,这一周,2025年大阪·关西世博会(大阪世博会)上,本届世博会面积最大的外国自建馆之一中国馆无疑成为焦点。
从“嫦娥五号”“嫦娥六号”带回的月壤样本,到”蛟龙”号深潜器的体验舱,一件件代表中国科技实力的”大国重器”精彩亮相。而在AI领域,中国馆也带来了令人眼前一亮的互动展项——由科大讯飞联合打造的”AI孙悟空”。
中国第一部彩色动画长片《大闹天宫》中的”孙悟空”形象,是国人心中当之无愧的动画英雄。这一次,在讯飞星火大模型的科技赋能下,“AI孙悟空”用中日英三国语言实时与观众进行对话交流、传播中国文化,化身世博会中国馆的“导览小能手”,图文并茂地介绍中国地道美食以及意境深远的古诗词。
这些齐齐亮相的硬核科技和创新成果,正成为中国科技实力的生动注脚。
一、“AI孙悟空”化身中国馆宣传大使,三国语言自由切换
上个世纪60年代,上海美术电影制片厂出品的《大闹天宫》中,齐天大圣的形象深入人心。为了体现传统文化与AI大模型的结合,科大讯飞将身穿虎皮裙、手拿金箍棒的“AI孙悟空”搬到了世博会的中国馆里,此AI大模型展项由上影元联合共创。屏幕上的“AI孙悟空”出场效果惊艳,依托讯飞星火的技术,语言交互、AI作画功能让孙悟空“七十二变”的本领变得切实可感,引得不少观众交流互动。
话不多说,先来一览“AI孙悟空”在大阪世博会中国馆上的精彩表现。
走向国际舞台,“AI孙悟空”的外语能力自然不在话下,面对现场观众中、日、英三国语言的提问,“AI孙悟空”自如切换,流畅回答现场观众的问题。不仅多语言对话功底深厚,中日英三国语言的回答都完全忠于角色特点,即使说日语、英语时也能和动画片中角色风格保持一致。
自世博会开园以来,前来参观的观众络绎不绝,熙熙攘攘的会场里人声鼎沸,然而,即便在这样的嘈杂环境中,”AI孙悟空”依然可以精准捕捉到观众的声音,并快速给出准确的回答,可见孙悟空的“听力”功底也是非同一般。
光会说外语还不足以体现“AI孙悟空”的多才多艺,它还可以“写诗作画”。配合着屏幕进行图文并茂的展示,“AI孙悟空”直接将“大漠孤烟直”这句古诗词的景象“画”了出来。
郜静文称,科大讯飞团队对“AI孙悟空”重点打造的能力集中在数字人和星火大模型的问答能力之上。基于上影元为孙悟空构建的3D模型,科大讯飞进行了大量的AI化工作,既要让孙悟空动起来,还要结合大模型能力让其回复、动作表现、与人交互的方式方面更还原孙悟空形象。
科大讯飞为世博会定制的“AI孙悟空”,上知天文、下知地理、通晓三国语言,成为世博会上一个非常引人注目的“中国名片”。
二、拆解“AI孙悟空”背后的技术密码
“AI孙悟空”强大的能力背后,科大讯飞想要传递的正是中国在AI方面的深远积淀。当下全球科技圈内,大模型能力迅速崛起成为新一轮科技竞争与国际发展格局重塑中的关键变量。
惊艳众人的“AI孙悟空”背后,一系列前沿技术的支撑不可或缺。
首先是在人声鼎沸的场馆内,让“AI孙悟空”听得足够清楚的高噪场景语音识别技术。
语音已经成为人们在诸多场景的高频交互方式,但实际应用中往往会面临嘈杂环境识别不清、多人说话识别混乱等诸多问题,也就是语音识别领域的“鸡尾酒会”难题。解决这一难题的关键在于“抗噪”技术的处理,即如何在多人对话的场景中,精准识别出多位主讲人的声音。
而科大讯飞的技术团队早已突破这一难题。去年9月,在国际权威赛事、语音领域公认“最难语音识别任务”——CHiME-8中,科大讯飞在“会议室场景远场多人语音识别”(NOTSOFAR)任务中获得全部两个赛道的第一名,自2020年已连续五届拿下冠军,标志着“鸡尾酒会”难题已经取得了重大突破。据科大讯飞东北亚研究院院长孙庆华介绍,科大讯飞团队实现了在多重干扰噪声场景中,对多通道语音识别和说话人分离,多通道赛道上语音识别错误率(tcpWER)降低至10.8%,远远领先第二名的18.7%,且在细分的7个声学场景下的表现都优于其他团队。
孙庆华还介绍到,语音识别准确性提升的门槛集中于数据、模型算法、复杂环境处理三大方面。
具体来看,科大讯飞围绕着输入法、翻译机、智能座舱、虚拟人交互等相关场景积累了大量真实多语种语音数据;基于上述语音识别领域的数据积累,结合无监督预训练、多模态融合技术,科大讯飞在去年1月就率先发布了星火语音大模型;此外,基于“多通道语音信号时空分离建模方法”实现了说话内容和环境噪声的高度解耦,提升了复杂环境中的语音识别性能。
正是在这三个维度的深耕,使得科大讯飞在语音识别领域一骑绝尘,去年讯飞星火4.0的发布会上,一段三个人混叠说话的语音识别场景惊艳亮相。
孙庆华透露,目前,科大讯飞的语音识别在三人混叠说话场景也能实现86%的准确率。并且在噪声比人声大很多的-5dB信噪比高噪场景下,其识别准确率也能达到85%以上,远超OpenAI语音识别模型Whisper-V3。
大阪世博会期间,科大讯飞发布了双屏翻译机2.0新品,解决了高分贝噪音干扰、多语种混谈等痛点,其1米音障强降噪能力,让用户在嘈杂环境下也能进行实时翻译。
其次是多情感超拟人语音合成技术,高度还原孙悟空声线。
事实上,这一技术并不神秘,已经被用于地图导航、数字人声音等场景,讯飞星火也曾在去年4月推出“一句话声音复刻”功能,用户只需要用一句话就可以定制专属的AI助手声音,大幅降低了语音合成的采集成本。
孙庆华介绍说,“AI孙悟空”通过语音大模型音色解耦技术,控制合成语音的音色,完美复刻了86年版《西游记》前5集中孙悟空的配音演员李世宏老师的声音,并让孙悟空“学会了”把日语和英语也用同样的音色说出来。如此一来,实现了孙悟空的声音穿越时空,在今天的世博会上与观众对话。
同时,为了让“AI孙悟空”的对话内容更符合西游记中孙悟空的形象,研发人员在星火多语种大模型基础上,增强了多轮对话、角色扮演能力,从性格、人格、说话特点、口头禅、说话场景等维度实施解耦,用日语再现了中国人家喻户晓的那个孙悟空的形象。