AI倾听了人们的声音 然后产生了他们的脸

2019-10-29 17:29:55

您是否曾经仅仅根据他们的声音来构造一个从未见过的人的心理形象?人工智能(AI)现在可以做到这一点,仅使用简短的音频剪辑作为参考即可生成人脸的数字图像。

这个名为“ Speech2Face” 的神经网络(一种以类似于人脑的方式“思考”的计算机)经过科学家培训,接受了来自互联网的数百万个教育视频,显示了100,000多个不同的人在说话。

研究人员在一项新研究中写道,Speech2Face通过该数据集学习了人声提示与人脸某些物理特征之间的关联。然后,AI使用音频剪辑对与语音匹配的真实感面部建模。

值得庆幸的是,人工智能还无法(仅)准确地根据一个人的声音知道特定的人。研究作者报告说,神经网络识别语音中的某些标记,这些标记指向性别,年龄和种族,是许多人共有的特征。

科学家写道:“因此,该模型只会产生看上去普通的面孔。” “它不会产生特定个人的图像。”

人工智能已经表明,它可以产生出异常准确的人脸,尽管坦率地说,它对猫的解释有些恐怖。

由Speech2Face生成的脸部-均面向正面并带有中性表情-与声音背后的人并不完全匹配。但是,根据这项研究,这些图像通常确实可以捕捉到正确的年龄范围,种族和性别。

但是,算法的解释远非完美。当面对语言变化时,Speech2Face表现出“混合表现”。例如,当AI收听亚洲人讲中文的音频片段时,该程序会产生亚洲人脸的图像。然而,据科学家报道,当同一个人用不同的音频片段讲英语时,人工智能产生了白人的面孔。

该算法还显示出性别偏见,将低音调的声音与男性面孔相关联,将高音调的声音与女性面孔相关联。研究人员写道,由于训练数据集仅代表YouTube上的教育视频,因此“它并不代表整个世界人口”。

Slate报道,当出现在YouTube视频中的人惊讶地发现自己的肖像已被纳入研究后,对此视频数据集产生了另一个担忧。旧金山的互联网安全公司Cloudflare的密码学负责人尼克·沙利文(Nick Sullivan)意外地发现他的脸是用来训练Speech2Face的示例之一(该算法已大致复制出来)。

Slatei表示,Sullivan并未同意出现在研究中,但该数据集中的YouTube视频被广泛认为可供研究人员使用而无需获得额外许可。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。