利用人工智能技术可以通过某人的声音还原这个人的相貌吗？

点击联系发帖人 时间：2022-07-21 00:25

人工智能可以像人一样思考吗

善于驾驭文字的作家往往数笔就能生动勾勒出笔下人物的特征，好的文学作品对人物的描绘绝不仅仅在于他的相貌、行为，更加重要——至少是同等重要——在于对人物性格的阐述与展示。在心理学范畴内，这便是对人物人格的阐述和展示。

而每当我们试图向他人对人物的人格特征作出描述时，我们总会去寻找一个或几个我们心目中自认为恰如其分的词汇，说他是吝啬的、乐观的；奇怪的是，在日常生活情境中，我们找到的是似乎最简便的描述人格的方法——借助业已发展成熟的语言系统（规范化的词汇）——去描述人格，而非向他人解释“他在别人饿极困顿时甚至不愿献出一块面包”和“他在每个阴云密布的天气里依然笑靥如花”，或者说“他像极了他的父母亲戚”这些间接的、仍然需要认知加工理解的语句。这一个个简洁的词汇便描述了种种相同的、相似的、或相异的人格特质。

当我们试图对文学作品中的人物进行特质上的描述时，我们所面对的对象存在于人为构建的意识空间中，即文学作品中的人物都生活在作者主观构建的情境中，人物的生活情境与真实世界相比，必然不能达到真实世界的情境复杂性和多变性。这便为我们提供了一种在简单情境中考查人为构建的形象的人格特质的思路，并且若从去繁为简的角度进一步考虑，对于我们所要考查的人为构建的形象，其人格特质也最好是简单的、能用一个或几个词汇进行概括总结的。

奥尔波特和奥博特对人格特质词汇的分类研究或许可以被称为现代“大数据”技术的简单尝试，只不过其处理载体在于人工而非现代计算机，处理程序依赖的是人脑而非机器算法。这一有益尝试带给我们的启示之一在于，我们可以通过对人类语言的分析，从而在繁杂的人类词汇中，找到并分类、继而抽象出适用于对我们自身特质的描述。

2 描述人工智能人格的可能性

人工智能可以进一步按照其智能发展程度，分为强人工智能和弱人工智能两类。心灵哲学领域的代表人物之一塞尔曾对这两个概念进行区分，弱人工智能观点认为计算机的主要价值在于作为一种心的研究工具，使我们以更严格精确的方式把各种假说形式化、程序化、并加以检验；强人工智能的观点认为计算机不仅仅是一种研究工具，适当程序化的计算机本身就处在心的状态之中、能够理解事物并具有人类一般的其他认知状态（刘晓力，1999）。目前科技所能达到的层次仍处于弱人工智能阶段，即通过对计算机进行程序算法的设计使其具有类似甚至在某些方面超过人的思维认知能力，如微软的Cortana、战胜国际象棋冠军的计算机“深蓝”，其本质仍属于计算机领域的机器学习。多数研究者对于人工智能研究的着眼点在于其认知能力的提升，却可能忽视了他们的人格特征。

问题在于，人工智能是否可能具有特质理论心理学家眼中的人格及特质？

在卡特尔看来，人格的基本结构元素是特质，所谓特质是指人在不同的时间和情境中都保持的某种行为形式和一致性。由此看出，特质及结构可由个体的外在行为表现推测得出（黄希庭，2002）。卡特尔当年使用多变量分析技术在不同的情境中测量人的行为，这一技法正可被用来借鉴以测量人工智能在给予的不同情境中的反应对策，继而帮助我们考查其人格特征。

上述充满行为主义“输入——输出”意味的反应模式得以应用的前提是，它的考查对象都是活生生的人——或至少是有生命的个体。但对于人工智能而言，在此时我们仍不能说其具有生命。而近几十年来，计算机在计算、存储能力上的发展有目共睹，倘若摩尔定律在未来仍能适用，那么也许机器具有类似甚至超过人类智能的时代终将到来，故描述人工智能的人格特质仍是可能的。

而且依赖于计算机本身具有的强大计算、存储能力，人工智能或许能够借助因素分析或自然语言实时处理的方法更加快速高效地习得人格词汇并对其进行加工利用。

3 对人工智能特质的描述

当我们试图对人工智能的人格特质进行描述时，我们首先应该记住的是，人工智能与人类是不同的。正因为人工智能发展的不可预见性，引发了互联网上人们的讨论，并且许多人对人工智能的不可控性表示担忧4。因此，对人工智能加强人为的控制干预必将是人们需要解决的一项重要课题，故在人格特质领域也应对此作出区分。人工智能的发展应该按照人类自身为其设定的计划，而对于具有高级思维能力的强人工智能而言，这可能是具有挑战性的一项任务。因此，我们不妨在人工智能发展初期，为人工智能的人格重新建立一套描述系统。

奥尔波特提出了著名的人格定义：“人格是个体内在心理物理系统中的动力组织，它决定一个人独有的行为和思想”（黄希庭，2002）。在奥尔波特看来，人格具有动力性，特质是行为的基础和原因，特质是动力的，不需要外界刺激来发动他们，特质驱动人去寻求刺激情境，从这一点来看，特质可以被看作动机的衍生物（郑雪，2007）。对于强人工智能而言，赋予其过强的动机性不一定是好事，而或许更应该去提高他们的服从性。甚至从机器的角度来看，人工智能的行为背后必然有一套算法，当其能够自身进行学习、思维时，这套算法便能进行自身进化、演变，充当着机器的“大脑”，当人类在其发展初期为他们设计算法，应该考虑到为这套算法设计“算法可控性”，反映到人工智能的人格层面，便表现为他的“算法可控”人格。“算法可控”人格对应于卡特尔对人格动力特质划分中的“能”（erg），反应人工智能在先天方面、本能的特征。外能（metaerg）的习得可通过后天的学习，在具体情境中习得情操（sentiment）和态度（attitude）。

人工智能作为另一种人为构建的形象，与文学形象相比，具有客观存在的科技与材料实体，而且对其运行程序的修改需要更高要求的专业性。但结合先前提到的简单化原则与卡特尔对人格特质的看法来考虑，人工智能的人格特质是可以存在并习得的。而不论未来的高级人工智能如何进化发展，人类都应对其人格发展加以控制，以免造成不可控的局面。

黄希庭. (2002). 人格心理学. 杭州：浙江教育出版社.

郑雪. (主编). (2007). 人格心理学. 广州：暨南大学出版社.

}

只听声音，就能知道一个人长什么样？

大名鼎鼎的麻省理工CSAIL，最近就发布了这样一个令人惊讶的研究。只需要听6秒的声音片段，AI就能推断出说话者的容貌。

详细解释之前，咱们一起试试先。

听听下面这段录音，一共有六段。你能想象出来，说话的人长什么样么？

MIT研究人员设计和训练的神经网络Speech2Face，就能通过短短的语音片段，推测出说话者的年龄、性别、种族等等多重属性，然后重建说话人的面部特征。

下面就是AI听声识脸，给出的结果：

左边一列是真实的照片，右边一列是神经网络根据声音推断出来的长相。

讲真，这个效果让我们佩服。

这篇论文也入围了今年的学术顶级会议CVPR 2019。当然，这个研究也会引发一些隐私方面的担忧。不过研究团队在论文中特别声明，这个神经网络不追求完全精确还原单一个体的脸部图像。

不同的语言也有影响。论文中举了一个案例，同一男子分别说中文和英文，AI却分别还原出了不同的面孔样貌。当然，这也跟口音、发声习惯等相关。

另外，研究团队也表示，目前这套系统对还原白人和东亚人的面孔效果更好。可能由于印度和黑人的数据较少，还原效果还有待进一步提高。

从声音推断一个人的长相不是一种玄学，平时我们在打电话时，也会根据对方的声音脑补出相貌特征。

这是因为，年龄、性别、嘴巴形状、面部骨骼结构，所有这些都会影响人发出的声音。此外，语言、口音、语速通常会体现出一个的民族、地域、文化特征。

AI正是根据语音和相貌的关联性做出推测。

为此，研究人员提取了几百万个YouTube视频，通过训练，让深度神经网络学习声音和面部的相关性，找到说话的人一些基本特征，比如年龄、性别、种族等，并还原出相貌。

而且在这个过程中，不需要人类标记视频，由模型自我监督学习。这就是文章中所说的Speech2Face模型。

将电话另一端通过卡通人物的方式显示在你的手机上，可能是Speech2Face未来的一种实际应用。

Speech2Face模型是如何还原人脸的，请看下图：

给这个网络输入一个复杂的声谱图，它将会输出4096-D面部特征，然后使用预训练的面部解码器将其还原成面部的标准图像。

训练模块在图中用橙色部分标记。在训练过程中，Speech2Face模型不会直接用人脸图像与原始图像进行对比，而是与原始图像的4096-D面部特征对比，省略了恢复面部图像的步骤。

在训练完成后，模型在推理过程中才会使用面部解码器恢复人脸图像。

训练过程使用的是AVSpeech数据集，它包含几百万个YouTube视频，超过10万个人物的语音-面部数据。

在具体细节上，研究使用的中每个视频片段开头最多6秒钟的音频，并从中裁剪出人脸面部趋于，调整到224×224像素。

之前，也有人研究过声音推测面部特征，但都是从人的声音预测一些属性，然后从数据库中获取最适合预测属性的图像，或者使用这些属性来生成图像。

然而，这种方法存在局限性，需要有标签来监督学习，系统的鲁棒性也较差。

由于人脸图像中面部表情、头部姿态、遮挡和光照条件的巨大变化，想要获得稳定的输出结果，Speech2Face人脸模型的设计和训练变得非常重要。

一般从输入语音回归到图像的简单方法不起作用，模型必须学会剔除数据中许多不相关的变化因素，并隐含地提取人脸有意义的内部表示。

为了解决这些困难，模型不是直接得到人脸图像，而是回归到人脸的低维中间表示。更具体地说，是利用人脸识别模型VGG-Face，并从倒数第二层的网络提取一个4096-D面部特征。

模型的pipeline由两个主要部分组成：

语音编码器模块是一个CNN，将输入的语音声谱图转换成伪人脸特征，并预测面部的低维特征，随后将其输入人脸解码器以重建人脸图像。

面部解码器的输入为低维面部特征，并以标准形式产生面部图像。

在训练过程中，人脸解码器是固定的，只训练预测人脸特征的语音编码器。语音编码器是作者自己设计和训练的模型，而面部解码器使用的是前人提出的模型。

将实验结果更进一步，Speech2Face还能用于人脸检索。把基于语音的人脸预测结果与数据库中的人脸进行比较，系统将给出5个最符合的人脸照片。

若根据语言来预测种族，那么一个人说不同的语言会导致不同的预测结果吗？

研究人员让一个亚洲男性分别说英语和汉语，结果分别得到了2张不同的面孔。

模型有时候也能正确预测结果，比如让一个亚洲小女孩说英文，虽然恢复出的图像和本人有很大差距，但仍可以看出黄种人的面部特征。

研究人员表示，这个小女孩并没有明显的口音特征，所以他们的模型还要进一步检查来确定对语言的依赖程度。

在其他一些情况下，模型也会“翻车”。比如，变声期之前的儿童，会导致模型误判性别发生错误；口音与种族特征不匹配；将老人识别为年轻人，或者是年轻人识别为老人。

这项研究的作者，大部分来自MIT CSAIL。

一作Tae-Hyun Oh是在CSAIL工作的Postdoctoral Associate，这个韩国小哥博士毕业于韩国科学技术院，本科毕业于韩国光云大学。他还曾经在微软亚洲研究院实习。

Tali Dekel还有一篇论文，也入选了今年的CVPR 2019，而且还拿到了Oral。在那篇论文里，她也是二作的身份。这篇论文昨天我们也报道了。

今年的CVPR将于6月16日在加州长滩召开。

}

我就爱股票网