明敏 发自 凹非寺
量子位 | 公家号 QbitAI
还记得冬奥会期间和墨广权battle的AI手语主播吗数字人 ?
如今,如许的手语数字人不只要在小荧屏上工做,还能到火车站、银行、病院那些公共场合上岗了数字人 。
喏,通过如许一台看似通俗的机器,AI手语数字人就能实时将语音或文字转化为手语,让听障人士与窗口工做人员无障碍沟通,词准率在96%以上数字人 。
那就是百度智能云曦灵刚刚推出的AI手语一体机,它可以间接摆设在各类办事窗口,成为工做人员的实时翻译官数字人 。
其背后撑持平台——AI手语平台也同步发布,它能停止实时手语曲播,还可搭载在各类 APP、网站、小法式中,生成手语合成视频数字人 。
在发布会现场数字人 ,我就感触感染了一下那位AI手语主播的功底:
那手速数字人 ,amazing~
线下虚拟手语翻译官来了此次推出的AI手语一体机,共有两个型号:V3和P3数字人 。
此中数字人 ,全离线一体机 V3型号撑持插电即用,可实现秒级摆设;
端云连系一体机 P3型号联网可用,能实现分钟级摆设数字人 。
也就是说,那个一体机可以充任工做人员的翻译官,实时把信息传递给前来打点营业的听障人士数字人 。
在发布会现场,百度还透露,不但是单向将语音转化为文本,在若何将手语转化为文本或语音的问题上,百度也在积极开展研究数字人 。
而可以搞定银行、病院、火车站等场景下的手语翻译,核心手艺来自百度智能云曦灵的AI手语平台数字人 。
它次要包罗以下4方面功用:
视频手语合成、曲播手语合成、文本转手语、语音转手语数字人 。
以曲播情况来举例,平台能够间接接入曲播地址,读取语音后转换为手语数字人 。
当然也能读取语音停止翻译,类似于微信语音输入后转文字数字人 。
那背后的流程次要能够分为3步:
起首数字人 ,要通过语音识别引擎将输入的语音或视频转换为汉语文本;
然后数字人 ,翻译引擎要将其进一步转换为手语码;
最初按照手语码,数字人动做交融算法来完成最初的视频合成数字人 。
整个过程中还需要保障语音识别明晰度、手语翻译准确度及精炼度、手语动做流利度数字人 。
识别明晰度方面,百度利用了SMLTA语音识别算法模子数字人 。
该模子是一个流式多级的截断留意力模子,它利用CTC(一种语音识别算法)的尖峰信息对持续语音流停止截断,然后在每一个截断的语音小段长进行当前建模单位的留意力建模数字人 。
也就是把本来的语音中整句Attention建模,酿成了部分语音小段的Attention的建模数字人 。
最末实现了在手机端近场语音识别率98%以上的效果数字人 。
百度暗示,基于百度自研的深度进修算法,还可针对诸如旅游、病院、司法等差别范畴的词准率停止针对性训练,词准率可达96%数字人 。
翻译准确度及精炼度上,百度研发了首个基于神经收集的精炼度可控手语翻译模子数字人 。
那是一个能将中文文本准确翻译成手语符号的模子,而且能够在包管手势准确度的情况下,进一步缩短译文长度,让文本信息可以及时转化为手语数字人 。
为此,百度还在专业手语专家指点下建立了大规模天然手语翻译语料库,使得模子能够从实在数据中进修手语翻译常识,从而生成契合听障人群习惯的天然手语数字人 。
最初则是手语流利度方面数字人 。
AI手语平台通过“动做交融算法”,基于《国度通用手语词典》标准精修近11000多个手语动做,让每一个动做都更接近实人手语表达数字人 。
再共同4D扫描手艺训练,最末AI手语数字生齿型生成准确度可达98.5%数字人 。
百度介绍,只需几小时的摆设,AI手语平台即可在视频、曲播、文本、语音等应用场景中添加手语翻译,可搭载在各类 APP、网站、小法式中数字人 。
让特殊人群“愈加平等享受资讯”目前我国听力语言残疾人到达2780万以上,而专业的手语翻译不敷1万人,庞大的需求缺口亟待补够数字人 。
尤其像在病院、车站等场景下,需要工做人员和听障人士无障碍实时沟通、准确传递信息数字人 。
或许有人想问数字人 ,那用文字不就行了吗?
现实上,因为种种现实因素的造约,比起文字,手语对听障人士而言愈加亲热,也能更快速地传递信息数字人 。
手语翻译关于特殊人群而言,也是一个“愈加平等享受资讯”的窗口数字人 。
发布会上数字人 ,百度集团副总裁吴甜暗示:
人工智能呈现交融立异和降低门槛的新特点,综合运用多手艺的数字人带来新体验,AI加持使数字人造做和运营成本与门槛降低,AI手语平台将让更多听障人士享受科技带来的便当数字人 。
— 完 —
量子位 QbitAI · 头条号签约
存眷我们数字人 ,第一时间获知前沿科技动态