发布时间:2022-06-12 来源:十大赌博靠谱信誉的平台66797
该研究与未知的“鸡尾酒会效应(cocktailpartyeffect)”有关。所谓“鸡尾酒会效应”,所指的是人的一种听力自由选择能力,在这种情况下,注意力集中于在某一个人的谈话之中而忽视背景中其他的对话或噪音,该效应说明了了人类听力系统中令人惊讶的能力,即我们可以在噪声中谈话。同理,谷歌的这项研究可以让人工智能仿效大脑,在一个充满著阻碍的环境中(例如四处都有其他的人在说出),将注意力集中于在一个分开的物体(例如某一个人)的能力。
人工智能模型一般来说很无法完全相同的效果调整外部输出,尤其是当牵涉到包括多个声音的音频流时更是如此。这已被证明是语音辨识领域的主要挑战,这是当今神经网络的主要应用领域之一。谷歌回应,其研究人员通过研发一种考虑到有所不同类型信息的深度自学模型的作法解决了这一障碍:视觉输出。
该技术被设计用作处置视频,该人工智能可以分析剪辑中表明的人物的嘴部动作,以使每个人都能与他们收到的声音展开给定。一旦它创建起了适当的关联关系,模型就可以将单个的语音轨道分离。教会人工智能有效地已完成这项任务并不是一件更容易的事。谷歌的研究人员从YouTube上搜集了100,000个视频,萃取了每个包括每个发言人声音的音频片段,然后将这些片段拼凑成具备多个音轨的“制备鸡尾酒会”。
该小组用于这个数据集来训练模型,以便在各种条件下都需要将说出者的声音与其他声音分离。谷歌回应,结果是用户可以页面他们期望听见的人的脸部,并让视频中的其他说出的人自动静音。
该技术对这家搜寻巨头来说有很多潜在的用途。对于初学者来说,谷歌可以在YouTube中用于这个人工智能版本,让用户调至剪辑中的一些声音。对于在喧闹的环境中录音的视频来说,这有可能是一个尤其大的便捷,在这样的环境中有时候不会无法听见发言者的声音。
该人工智能也有可能会提高Hangouts和Meet——谷歌的视频会议服务——的用户体验,它需要让会议的参与者更容易地专心于特定的人的语音。该搜寻巨头甚至坚信这项技术可以应用于医疗领域,例如可以研发出更简单的助听器。
本文来源:全球十大网赌正规-www.bedbreakfastmaui.com
本文摘要:12月16日上午,国家邮政局监测数据表明,今年快递业第600亿件租车问世,标志着中国租车业务量倒数6年每年攀上一个百亿级台阶,转入一个新的规模量级时代。12月16日上午,国家邮政局监测数据表
本文摘要:炉石传说5月23日将展开改版,本次改版主要是对游戏展开平衡性调整,23日的改版中解决问题潜行者套牌强度和出场亲率过低的问题,并对档案员艾丽西娜作出调整。炉石传说5月23日将展开改版,本次改版
本文摘要:据美国媒体报道,当地时间23日晚,在美国加利福尼亚州的加州大学圣巴巴拉分校大学城再次发生枪击案,导致还包括枪手在内的7人丧生,另有7人伤势。据美国媒体报道,当地时间23日晚,在美国加利福尼亚
本文摘要:《日本经济新闻》9月21日刊出该报记者黑泽勇史相吻合新德里的一篇报导,为题《印度大幅度强化海军》,全文编译器如下:印度正在加快强化海军力量,打算在2027年之前将舰船减少大约40%至200艘