腾讯优图实验室AI手语识别研究白皮书

admin 科技 2023-12-31 09:10:35 0 识别 翻译

近日,腾讯Youtu实验室在人工智能手语识别领域取得突破性进展,推出了旨在通过人工智能技术缓解听力障碍者交流障碍的“Youtube AI手语翻译机”,发布了“腾讯Youtu实验室人工智能手语识别研究白皮书”,分析了目前听力障碍者的痛点、技术研究现状,深入解读Youtube AI手语翻译机的技术研发。该项目支持人工智能手语识别技术的进一步发展。下面是白皮书的全文。据北京听力协会2017年估计,中国听力受损人数约为7200万。根据世界卫生组织的最新数据,全球约有4.66亿人患有听力损失。听力受损的人可以用手语进行交流,但在机场和民政等公共服务环境中,他们面临着沟通障碍和其他紧迫问题。腾讯秉承“科学技术为善”的技术价值观,致力于通过人工智能等技术解决人类面临的社会问题。我们相信,技术将造福人类,人类应该利用技术来解决自身发展带来的社会问题。作为国内计算机视觉人工智能领域的领先研究团队,腾讯的Utu实验室近日致力于人工智能手语识别,并取得突破性进展,开发了一套基于结构化特征学习的端到端手语识别算法,能够识别日常手语,快速计算结果,将手语翻译成文本。我们希望它能为听障人士的正常交流提供更多的便利。目前,腾讯优图实验室正与深圳信息无障碍研究会合作,近日正式发布“优图AI手语翻译机”,探索在机场、高铁、民政等公共服务提供手语翻译服务。未来,我们将通过与聋人和手语用户的深度接触,扩大数据容量,完善数据规范,根据不同场景优化识别算法,构建一个完整的手语和聋人无障碍沟通系统和平台,并利用AI消除障碍。我们想做温度技术和非歧视技术。(1)听障人数已达7200万人,信息的接收和传递,这是包括人类在内的一切生物与世界交流的最基本方式,已经使听障者丧失了了解世界最重要的感知手段--听觉。根据世界卫生组织的最新数据,目前约有4.66亿人(占世界人口的5%以上)患有听力损失,据估计,到2050年,将有9亿多人(十分之一)患有听力损失。北京听力协会2017年公布的数据显示,中国听力障碍人数达到7200万[北京听力协会2017年估计],是北京常住人口(约2200万,2015年数据)的三倍多,是中国少数民族人口中最多的民族壮族(约1500万,2015年数据)的近五倍。

(资料来源:世界卫生组织官方网站)

(数据来源:(2)无障碍普及率有待提高,听障者的需求被忽视根据《2017年百城无障碍设施调查经验报告》,我国无障碍设施整体普及率仅为40.6%[数据来源:《2017年百城无障碍设施调查经验报告》]。除普及率低外,部分无障碍设施占用,维修不足,设计上存在问题。但与其他残疾人不同的是,在现实生活中,除了使用手语交流外,他们与普通人几乎没有什么不同,这也是他们容易被忽视的原因之一。目前的公共环境设施和产品设计往往忽视了听力受损者的特殊需求。听力受损的人不仅面临日常沟通障碍,而且还面临着沟通障碍所带来的诸多不便。

(听障人群痛点分析)《光明日报》报道曾指出[报道内容来源:光明日报http//epaper.gmw.cn/gmrb/html/20150117/nw.D110000gmrb_20150117_1-10.htm],由于交流障碍,大多数耳聋人生活在自己封闭的世界中,参与社会活动的程度极低,他们常常感到孤独。受过教育的聋人可以使用书面文字进行交流,但手语是一种更方便使用和接受的交流方式,目前只有约10,000人从事聋人专业服务,而大多数公共服务并不配备特殊设施。科学技术的进步给大众生活带来了许多便利,但随着听障人数的增加,他们的生活状况也需要得到社会的更多关注,迫切需要尖端技术来解决沟通障碍带来的诸多不便。2.手语表达与AI技术结合的产业探索(一)各研究机构都在开展探索尝试,但技术的着陆存在很多因素,限制手语翻译的核心技术是手语识别(SLR)该技术指的是计算机算法自动区分手语表达中的各种手势和动作,以及这些手势和动作之间的切换,最后将手语表达翻译成文本。传统的方法是为特定的数据集设计合理的特征,然后使用这些特征对动作和手势进行分类。由于人工特征设计和数据大小的局限性,这些方法在适应性、泛化性和鲁棒性方面受到了限制。近年来,大数据和深度学习极大地促进了人工智能算法的发展,特别是在计算机视觉、自然语言处理和语音处理领域,帮助人工智能算法在许多应用和场景中实现。许多研究人员和工程师正在尝试应用深度学习和数据驱动算法来解决SLR问题。然而,与大多数计算机问题不同,手语所特有的地理性、复杂性和多样性不仅增加了数据收集和清理的难度和成本,而且即使在深度学习的帮助下,这项技术也很难实现实际应用。目前,虽然有技术研究机构和单位致力于解决聋人交流问题,但研究方向主要集中在将字母转化为手语上,而“将聋人手语识别转化为字母”的方向在技术上较为困难,技术上的解决方案很少。(2)腾讯优图自主研发手语识别算法,推出“优图AI手语翻译机”腾讯优图结合听障人士的手语表达习惯收集手语数据,利用最先进的图像序列分析技术自主研发手语识别算法,推出“优图AI手语翻译机”。人工智能手语翻译器可以使用普通摄像头作为手语采集设备,执行高性能计算机辅助的背景运算,并实时将手语表达翻译成文字。用户不需要携带额外的设备,只要对着摄像机进行正常的手语表达,翻译器就可以提供识别结果的反馈。

人工智能手语翻译器的技术解读(1)算法的优势与传统的手语识别相关产品和技术解决方案相比,我们的手语识别算法主要能实现以下优势:1.基于纯RGB图像序列的手语表达非常复杂,手势或动作振幅的微小变化可能会对表达的意义产生重大影响。因此,许多传统的产品和方法都需要额外的设备,例如使用Kinect摄像头的多个传感器来预先获取手语使用者四肢的关节点信息,将传感器手套拿在手上,或者使用带有EMG和IMU传感器的手镯来处理手臂和手掌运动。这些额外的设备不仅增加了无形的使用门槛,而且也带来了一定程度的不便。相比之下,我们的翻译器不需要任何额外的设备,用户只需要用普通摄像头(如手机摄像头或普通网络摄像头)拍摄手语说话者的表达过程,翻译人员就可以完成识别翻译者的过程。2.支持多样性表达手语具有高度区域性和多样性。地域性是指同一个词在不同地区(如深圳、广州)的表达方式不同,根据个人习惯,即使在同一标准下,也可能有不同的表达方式。多样性反映在手语表达中,同一行为在不同语境下可能有不同的含义,同一词语在不同语境下也可能有不同的动作。虽然这些都很常见,但到目前为止,我们的产品和方法并没有考虑到多样性的问题。我们首次在算法识别的过程中考虑多样性的问题,支持常见的多样表现,用户不需要对翻译器学习某种特定的词和动作的映射,可以按照自己平时的表现习惯来表现。3.听觉障碍者的手语表现经常以句子为单位进行,表现完完整的句子后发生停顿,在一个句子中的不同单词之间很少出现停顿。然而,到目前为止,许多产品和算法实际上都是按单词识别的,这需要单词之间的明显停顿。此外,为了将句子分隔开来,可能需要将特定的开始和结束设置为在每个话语的开始和结束时用信号句子分隔的信号,这限制了使用的灵活性和流畅性。相比之下,Utu人工智能手语翻译器可以实现对整个句子的识别和翻译,当用户说话时,整个句子可以一致地表达。另外,不需要设定特定的结束或开始动作,直接判断用户动作的有无。(2)实现方法与聋人手语表达高度一致的数据集和先进的手语识别算法为实现翻译器提供了强有力的支持。

(总体手语识别算法框架图)1.更大、更完整的手语识别数据集我们通过与社会相关机构和听力障碍者的接触来理解手语表达的特征,并在此基础上收集了自己的手语识别数据集。经过对数据的进一步分析和归纳,目前人工智能手语翻译器的数据集涵盖了近千句日常表达句子和900个常用单词,是中国手语识别最大的数据集。它还考虑到手语的区域性和表达方式的多样性,并包括不同的表达习惯和速度。这为进一步提高我们算法的泛化能力提供了良好的基础。2.更强大的特征提取器为了充分提取手语复杂表示中识别所需的特征信息,我们结合普通二维卷积网络和三维卷积网络的优点,利用二维卷积网络提取手语手势和手势等静态信息。他们使用3D卷积网络来提取手语中普遍存在的精细快速运动的动态信息,最后将这两种信息结合起来以创建最终的特征表示。静态信息和动态信息的结合形成了良好的互补性,同时避免了信息的过早丢失,在我们的实验中有助于提高我们的认知能力。在充分利用视频中的运动和静态信息后,我们的算法还可以使用简单的RGB视频图像来达到识别目的,而不需要额外的传感器设备。3.句子表达中词层次信息的挖掘虽然聋人在进行手语表达时都以句子为单位,但由于句子是由不同的单词组合组成的,所以在语法上单词是手语表达中最小的单位。同时,单词的表达往往不是单一的动作或手势,而是一些手势或动作的变化。这个过程很长,很短,没有刻意的停顿,常常隐藏在整个句子的表达中。为了提取这些词表达信息,我们的算法在视频帧和最终输出之间添加了一个词级信息提取单元,利用长时间的网络充分考虑特征提取器提取的信息,并结合视频中的相邻信息计算出词级特征表达。该单元可以帮助算法更好地找到句子中单词表达的边界,提高各种区域表达的总结能力。4.充分考虑单句切分和句子中的上下文信息我们的算法除了提取词级信息外,还考虑了句子中的上下文信息的充分整合,输出最终的识别结果这对于识别手语中的多种表达非常重要,同样的行为只能在上下文中决定意义。同时,为了减少用户在使用过程中的限制,在手语识别之前增加了人脸检测和运动检测两个模块,利用人脸检测来定位手语表演者,并利用运动检测来判断他们是否正在进行手语表达。这三个模块协同工作,使翻译人员能够自适应地找到用户的位置,并对用户表达的范围有一致的认识。

(与其他算法在两个公共手语识别数据集中的表现相比,数据显示单词错误率(WER),越低越好)(3)着陆条件的约束和应用方向目前,UTP人工智能手语翻译器仍处于实际应用探索阶段。第一个是对高性能计算机的需求,第二个是对复杂环境背景的适应性,第三个是语料库的进一步扩展。因此,我们将进一步探索在机场、民政等公共服务领域等公共工程场所提供无障碍通信解决方案,以方便听力受损人士的日常交流。4.语义和视觉Umap AI手语翻译器是基于腾讯Umap先进的动作识别和视频分析算法的手语识别技术的扩展和优化。作为人工智能技术的探索者,我们认为解决和优化技术问题是团队的责任和责任,创造和传播人工智能的价值和温暖是团队的使命和信念。未来,我们将不断升级优化人工智能手语翻译机,将人工智能手语翻译机融入到聋人生活中,在日常服务窗口、手语教学等场合为聋人提供真正的便利。我们希望通过手语翻译机深入参与聋人社区,了解更多关于手语的知识,优化数据和识别算法,使翻译机能够覆盖更多的表达和场景。我们希望我们的人工智能手语翻译器能够为手语的普及和标准化做出贡献,提高社会对这一群体的关注度,让听障人士融入社会,像我们一样享受和体验技术创新和科技发展带来的红利。事实上,这并不是腾讯在AI+无障碍建设上的第一次尝试,腾讯一直坚持推动“一个也不少”和“信息无障碍”概念的传播和落地。2018年12月3日,腾讯荣获“联合国教科文组织残疾人数字技术赋权奖”。自2009年以来,腾讯率先在信息可访问性方面进行探索,迄今为止,QQ、QQ空间、微信、腾讯网、腾讯新闻、应用宝、企鹅FM等大部分产品都实现了针对残疾人的特殊优化。腾讯的各种产品从社会、娱乐、新闻等多方面入手,携手打造残疾人友好的信息社会。我们要感谢深圳市信息无障碍研究所以及所有参与Utu AI手语研究项目的团队和个人。

分享: