百度AI专利赋能数字人平台 为无声沟通搭建“有声桥梁”

2022-03-11 17:20:00
科技进步如何转化为人类福利?这对企业的创新能力、社会责任提出了新的要求。

640?wx_fmt=png

编辑 | 玄袂

有一些人,世间所有动听的歌,对他们而言也只是沉默,他们是听力障碍人士,目前我国听障人群已达2780万,他们不仅面临着生活种种不便,也难以感受到有声世界的脉搏跳动。

听障人士与有声世界的主要沟通桥梁是手语,据统计,我国专业的手语翻译不足1万人,难以满足听障人士参与社会生活时的手语翻译、沟通、咨询等需求。可以设想一下,当他们去银行、去医院时,看球赛、演唱会时,没有高水平手语翻译的帮助,会面临怎样的窘迫与无助。这种状况已存在了漫长岁月,人们期待着打破困境的那一天,并将希望寄托于科技前沿技术的进步。

人工智能已经为这个难题提出了科技新解法。近日,百度智能云曦灵发布了“AI手语平台”,可实现分钟级生成手语合成视频、手语主播实时直播等能力,这意味着听障人士也可以在互联网中通过实时专业手语翻译,畅快地学习、交友、娱乐,甚至是无障碍感受冬奥会、冬残奥会的体育之美!

专利赋能手语与语音双向转换  搭建无障碍沟通桥梁

2021年11月,央视新闻迎来了一位手语主播,“她”有高颜值、好性格,却并非真人,而是由百度智能云曦灵数字人平台打造的一位AI手语主播。网友们好奇:她能实时准确翻译金句频出的精彩赛事解说,让听障人士看懂比赛、看好比赛吗?于是,有人对她来了一场“上岗考核”。

考核者是有“手语老师终结者”之称的央视主持人朱广权,他语速快,讲的段子必带韵脚,AI手语主播如能实时流畅翻译他的语言,那也能胜任绝大多数的赛事解说,结果AI手语主播还是用舞出残影的手速,准确同步了朱广权的贯口,让网友们惊叹不已。

640?wx_fmt=png

高精度手语表达的背后,是技术的创新与沉淀。实时手语翻译的技术实现,分为三个主要的步骤:通过语音识别技术将语音转换为汉语文本,再通过翻译技术将汉语文本转换为手语码,并进一步将手语码转换为手语动作。

640?wx_fmt=png

知易行难,不同格式内容的精确识别转化向来是行业中的老大难问题,例如语音识别为文本的技术,市场中多家公司都有研究,但多数都止步在了“最后一关”前,这一关是对上下文无关声音的精准识别。为解决这一问题,百度首创流式多级截断注意力SMLTA模型,通过截断注意力的实时语音识别专利中大致了解方案,以上下文无关的音节作为基本的声学建模单元,通过连接时序分类模型和注意力模型联合建模的方式实现端到端语音识别。

汉语文本转手语的阶段,为了让AI手语主播翻译的手语动作足够准确自然,符合听障人士习惯,百度联合多位手语语言学专家、特殊教育专家以及数百位天津理工大学和其他高校的听障学生做了大量基础性工作,通过他们建成的大规模自然手语标注及翻译语料库,百度神经网络翻译模型得以快速准确将文本转换为手语码,最终生成听障人士可信赖的自然手语。相关神经网络模型专利,百度在国家知识产权局第二十届中国专利奖评选中,获得了中国专利银奖。

不止于此,笔者在从知产宝专利库检索专利的过程中发现,百度还申请了名为手语与语音转换的专利,识别手语并将识别到的手语转换成语音,让正常人与听障人士进行实时无障碍交流。不难理解,这一过程与AI手语主播通过语音生成手语恰好相反,关键步骤是手语动作到汉语文本地转换。

无障碍环境建设是对企业创新能力、社会责任的考验

2012年,我国通过施行了《无障碍环境建设条例》,很多有社会担当和人文情怀的创新企业紧跟国家呼吁,开启了多元化、智慧化的无障碍环境建设之路,百度的道路可以概括为:坚定布局人工智能,相信细分领域的技术最终能融合创新,降低门槛,让科技进步成为社会总福利的惊喜增量。

多年来,百度在人工智能领域持续投入,积累了大量高质量人工智能相关专利,是世界上对人工智能研究最广泛、最深入的主体之一。

Questel在盘点近十年来全球范围内深度学习领域的专利申请及发展时指出,百度以2522件专利的申请总量排名全球第一,且增长率显著高于全球平均值,仅在2020一年内就增加了4倍。

640?wx_fmt=png

除了深度学习领域,从国家工业信息安全发展研究中心知识产权所发布的《2021中国人工智能高价值专利及创新驱动力分析报告》来看,百度在自然语言处理、智能语音等多个人工智能细分领域的专利申请数量和质量也处在领先地位。

640?wx_fmt=png

(从左到右分别为中国自然语言处理技术、智能语音技术前十创新主体专利申请量和授权量排名)

640?wx_fmt=png

(从左到右依次为中国自然语言处理技术、智能语音技术高价值专利及创新驱动力排名)

人工智能技术发展到一定阶段后,不同细分领域的前沿技术会呈现相互交融、促进的态势,以“AI手语平台”为例,同时融合了深度学习、智能语音、自然语言处理等先进技术,最终让听障人士距离“平等参与社会生活”跨进了一大步。

这些高质量专利从研发布局到社会化应用,体现了百度公司的前瞻性,更凸显了其不受外界声音干扰、坚持走自主创新的战略定力。

“AI手语平台”的技术效果,不止于分钟级生成手语合成视频、AI手语主播,还有“AI手语平台一体机”——可以通过规模化部署快速建立无障碍窗口,适用于医院、银行、车站等多种公共场合,缓解无障碍窗口短缺困境。

后者的大规模应用,成本远低于培养专业手语翻译,也比手语学习要更加快捷,是一道区别于传统思路的科技新解法,可以预见,将为我国无障碍环境建设增添重要助力。

2022北京冬奥会、冬残奥会主题口号是“一起向未来”,这与《无障碍环境建设条例》保障残疾人等社会成员平等参与社会生活的初衷不谋而合。在社会发展、技术进步的历史进程中,会有更多百度这样的创新企业,积极承担社会责任,奉献自身的专业力量,帮助社会弱势群体更好地享受生活,一起走向美好明天。

(图片来源 | 网络)

+1
0

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
评论区

    下一篇

    近年来,最高人民法院设立知识产权法庭,同时在地方设立了知识产权法院、知识产权法庭,统一审理专利等专业技术性较强的民事、行政知识产权案件,努力实现技术类案件的审理及时有效、标准统一。本文根据挂牌先后时间整理了各个地方的知识产权法院/法庭的管辖范围,以供读者参考、交流。

    2022-03-08 13:40:00