新闻动态

您当前的位置: 首页 > 新闻动态 > 公司新闻

开云真人(中国)官方网站,开云(中国)Kaiyun·官方网站-AI进入无障碍时代:手语识别翻译的应用意味着什么?

作者:开云真人(中国)官方网站,开云(中国)Kaiyun·官方网站 发布时间:2024-11-08 10:05:01 浏览:

本文摘要:坚信在人们的印象里,AI都是一个归属于“大多数”的技术门类。

坚信在人们的印象里,AI都是一个归属于“大多数”的技术门类。所谓大多数,第一意味著涉及数据量大、便于积累,限于于AI对海量数据极为倚赖的特性;第二意味著应用于场景普遍、便于所求重复使用成本,限于于AI研发的高门槛投放。目前我们身边经常经常出现的人脸识别、语音交互等等,只不过都合乎以上这些特征。不过这并不意味著,归属于“少数派”的AI是一片空白。

现在,我们不如把目光投向于那些需要助长“少数与多数”区别的技术发展,例如服务于听障人群的手语辨识,就是一个典型的例子。你我不懂的手语,为什么AI也很难背诵?手语是用手势比量动作,根据手势的变化仿真形象或者音节以包含的一定意思或词语,是听障人群独特的一种交流方式。但这种交流方式虽然能让听障人士之间彼此交流,或让解读手语的普通人与之交流,但依然无法符合听障人士与普罗大众之间的交流市场需求。

这之后意味在一些社会公共空间之中,例如政务场景或服务业场景,听障人士有可能都会遇上一些不便。而AI,刚好沦为了一种解决方案。我们在一些软件中,早已开始应用于到了AI的手势辨识能力,看起来照片时“比心”来启动时一些AR特效。将这种对于手势的捕猎,和手势语义对应一起,不就能构建对于手语的翻译成和分解了吗?这一逻辑是准确的,可从逻辑准确到应用于不切实际,却还隔着一段不较短的路程。

首先,手语的传达有一定的特殊性,想要展开捕猎并不更容易。我们告诉在“比划手势”这种不道德上,本来就不不存在意味著的精准度,加之一些手语词汇的传达十分相似,而且手语传达一般来说是以句子为单位,词与词之前会有显著的间隙。以往手势辨识中利用前置摄像头捕猎的方式,基本是不不切实际的。

于是很多科技和团队得出的解决方案是加以外设,例如中科大和微软公司发售了基于Kinect的手语翻译成系统,加州大学曾多次发售过的手语辨识手套等等就是这样。可这些外设要么便携程度较低,要么耗资便宜,推展一起有相当大的艰难。同时,手语传达某种程度也有国别性和地域性,在模型通用性上不存在着艰难。

手语中有“文法手语”和“大自然手语”两个概念,文法手语既是标准化的普通话,至于大自然手语则如同方言一般,在国别、地方甚至城市之间都具有极大的差异。这也造成了手语数据搜集、标示不会是一项成本高、工作量大的事情。

例如亚马逊曾多次明确提出过,对智能音箱Alex展开改建可以使其翻译出一些非常简单的信号。可是因为缺少大规模的训练数据集,目前这一功能不能辨识出有一些非常简单的美国手语,逗留在实验室阶段。手语破题没秘法,AI产业就让平权虽然探寻艰苦,但科技企业们和学界还是大大在手语AI上获得成果。

例如腾讯优图实验室发售的 “优图AI手语翻译机”、爱人奇艺发售的AI手语主播等等,都在手语AI的应用于上获得了极大的进展。手语AI的突破可以分成两条路线,一方面是手语AI本身技术的进展,另一方面是应用于场景的突破。在手语AI技术本身上,可以分成辨识模型和数据集两个解决问题路径。在数据集上,可以像优图一样,通过和社会涉及机构以及听障人士的认识自辟手语辨识数据集,并且针对手语传达的地方性差异,作出传达习惯和速度上的多样性扩展。

至于辨识模型上,业内也有全新的算法搭起概念,例如通过2D卷积神经网络和3D卷积神经网络分别萃取手势中静态和动态的信息,经由综合处理来提高视频辨识效果,完全挣脱其他传感器的桎梏。同时针对手语传达的整句简化的现象,在视频帧的最后重新加入了词级信息挖出,对特征提取器明确提出的信息展开核验,更进一步去确认手势对词语传达边界,除了提高辨识精准度以外,还能提高对大自然手语中地域传达的总结能力。在此基础上,还可以算法模型中引进了上下文理解能力,以便于面临更为简单的手语辨识翻译成市场需求。

不过技术虽然以求提高,应用于场景末端依然不会受到一些容许。例如手语辨识可能会倚赖较强劲的算力,短时间内很难便携化、消费化。但几乎可以通过和政府的合作,让手语辨识转入一些公共服务场景。或者像爱人奇艺一样,从手语分解方面应从,某种程度也能协助到听障人士。

只不过我们难于找到,可如果将技术合并来看就能找到,手语AI获得的变革,并不是因为在某项基础科学上忽然获得了什么难以置信的突破,而是有更加多的企业和学者在研发和数据积累上一贯长年的投放,才能众生于以往手语语料库短缺的困境,在算法上大大递归。换句话说,企业和学者们在“少数派”的AI技术中投放了完全与“大多数”AI技术相匹配的精力与财力。对于AI产业来说,这毫无疑问是一种平权精神。

从以人为本到科技为善:我们为何要对技术洋流的引领更为主动?腾讯优图在手语AI方面的投放,只不过也是AI产业中一种隐隐冒出有势头的洋流方向。几天以前,在福州的数字中国峰会上,马化腾首次提及了“科技为善”这一概念,明确提出“我们坚信,科技需要造福人类;人类应当讲求科技,防止欺诈,杜绝恶用;科技应当希望去解决问题自身发展带给的社会问题。

”无独有偶,李飞飞在重返斯坦福后,就著手创立了HAI研究所(以人为本斯坦福人工智能研究所),并在今年开始兼任所长。HAI的研究目标,就是推展AI技术向造福人类的方向发展,预测AI对人类生活的贯彻影响。科技巨头和学界旗帜都将目光投向了同一方向,是因为人们早已开始渐渐找到AI、5G、产业数字化等等技术力量的势头之强劲,早已到了被迫对其加以引领甚至约束的地步。

如同上文所说,科技企业在这一波技术发展的过程中,起着了相当大的促进作用,而逐利大自然是企业的本能和天性,因此企业不会首度投身于那些符合大多数人、应用于场景普遍、研发成本比较较低的技术。这种不道德本身无可厚非,但AI等等新技术带给的效率提高觉得过分明显,否会会对那些继续无法终端新技术的领域和群体展开断裂甚至边缘化,是很多人都在思维的一个问题。

例如随着英汉日法俄等等主流语种的机器翻译能力大大强化,那些语料库不充裕、应用于人数较少的小语种否不会因为得到技术赋能,而被更进一步的边缘化?某种程度的,当公共事务办理更加多的被语音交互、图像识别等等AI技术替代,听障、视障群体在提供服务时会会遇上更加多困难?类似于的情况只不过早已再次发生:2018年年底,联合国公布了对英国政府数字化成果的报告,结果是数据表明在英格兰,自2010年以来无家可归者减少了60%,确保住房的等候名单下有120万人,用来救济穷人的食品银行需求量快速增长了近四倍——因为很多贫穷人群并不知道如何在互联网上申请人贫穷补助金,甚至家里都没有办法相连互联网,最后不能在贫穷中越陷越深。很多时候,即使是无恶意的技术,也可能会经常出现无法预测南北。我们对于科技为善的引领,也许应当更加主动一些。结束语最后,我们不如来想到这样一组数字:据2017年北京听力协会预估数据,我国听障人群数量大约超过7200万。

在全球范围内,世界卫生组织公布的近期数据表明,全世界有总计大约4.66亿人患上残疾性听力损失。——你看,这世界上所谓“大多数”和“少数派”本来就是一个相对性的概念,并不不存在黑白独特的区隔。

特别是在对于AI这种擅于仿效人类能力的技术来说,它的不存在本可以拆掉妨碍各个群体沟通交流的空气壁,而不是让这种趋势愈演愈烈。我们关于利用技术搭起美好世界的目标,既然可以不丢下任何一个人,就不应丢下任何一个人。好在从服务于听障人群的手语辨识翻译成上,我们早已能看见这种趋势南北——善于计算出来的大脑不是AI唯一的仿真对象,还有人类的炙热心脏。我们坚信,在学界和巨头的引领之下,未来不会有更加多的企业注目到无障碍AI技术的发展,大大的超越各种隔膜妨碍。

爱人虽绝望,也有回响。AI虽绝望,也有回响。


本文关键词:开云真人(中国)官方网站,开云(中国)Kaiyun·官方网站

本文来源:开云真人(中国)官方网站,开云(中国)Kaiyun·官方网站-www.nbxiong.com


 

Copyright © 2001-2024 www.nbxiong.com. 开云真人(中国)官方网站,开云(中国)Kaiyun·官方网站科技 版权所有  备案号:ICP备74957417号-9

搜索