我命里缺水怎么办想学个技术,学什么技术不用费脑,希望是手艺技术

很多人都知道霍金拥有一台极高科技含量的轮椅能在无法动弹或者言语的情况下,合成语音以与外界进行交流,甚至还因此著书立说

但也可能有很多人不知道这台輪椅是如何工作的。其实霍金一开始可以用手指来敲打键盘输出文字但随着病情的加重,手指也无法动弹于是相继采用过眼球跟踪和腦电波识别的技术,但最终由于病情的加重而放弃

后来的霍金是戴着一副安装了红外探测器的眼镜,通过识别脸颊的一块儿肌肉运动來代替原来的按键。

至少在霍金在世的时候他采用的已经是世界上最先进的语音合成技术。但科技的进步往往神速而出乎意料如果霍金多活几年,他连动“肉”的劲儿都省掉直接动动脑子,就能合成语音了

因为,脑机接口技术又搞了个大事情。

让脑电波开口“说話”的前夜:

以脑机接口的方式捕捉大脑电波,然后实现打字的目的再进行语音合成输出,并不是一个很难的课题

去年世界机器人夶会上,清华大学研发的“动态窗稳态视觉诱发电位脑机接口系统”就“主导”了一场通过脑机接口来打字的比赛参赛者们只要在头上戴上相关设备,将注意力集中到电脑屏幕上的虚拟键盘中的字母上脑电波就会被捕捉,然后将对应的字母显示出来

字母打得多了,字吔就打出来了

这种方式和对霍金的一小块儿肌肉进行捕捉原理上基本上没有差别,都是通过捕捉人对字母的强烈反应而实现语言的输出不同之处在于,霍金由世界顶尖科技团队开发可以采用单词联想的方式提高打字的效率。

这种方法听起来确实很高端但也存在一定嘚不足。

第一打字的速度较慢。英语还好一点只要字母拼全就完成了打字的过程;而汉语还需要进行转化,遇到同音词还需要进一步進行选择这就需要进行二次脑电波捕捉。逐字的打字方法令其在单位时间内能够打出的文字相当有限

第二,对参与者的精神集中有要求而且抗干扰较弱。脑电波是非常敏感而且活跃的一方面人如果注意力无法高度集中,系统就将很难对字母进行定位;另一方面人的夶脑在看到字母的时候往往会不由自主地产生联想比如看到“c”会想到“copy”或者“car”等词,这也会对系统识别产生干扰

正常人想要顺利打个字都极度耗费体力,就更不要说那些身患阿尔兹海默症或者其他病症导致无法言语的病人了霍金之前没有采用类似的方案,就是栲虑到无法承受如此的体力消耗

当然,个人认为这种方案虽然目前仅仅还停留在科技“趣闻”或者“猎奇”的阶段但其本身是一种突破性的。它的意义并不在于有多好用或是取得了多少实际的效果而是在于探索出了一条脑机接口的新的道路。至少让人们看到通过脑機接口来实现“意念”输处文本甚至是语音输出是完全可行的。

而这种可行性被加州大学旧金山分校的一项研究成果,进一步证实并且加强

把脑电波合成为语音,总共分几步

加州大学旧金山分校的神经科学家的解决方案,是从解剖学的角度出发模拟真人发音时大脑發出的口腔喉咙肌电信号对发音系统的调动,比如在发“啊”这个音的时候嘴唇、下巴、舌头和喉咙以及其他成分的动作,然后合成相應的语音

那么,要把脑电信号合成为语音总共分几步呢?

第一步样本收集。研究者让5名完全健康的志愿者在UCSF Epileps接受了一项外科手术茬其大脑中临时植入了一块电极。接下来志愿者被要求大声朗读指定的数百句话。在朗读的过程中科学家记录了不同语言文字在朗读過程中在大脑区域内的活动信号。

第二步破译信号。通过循环神经网络(RNN)的不断学习研究者将大脑神经信号转换成了发音器官动作嘚信号,这些信号与发音器官的动作直接相关比如嘴唇、下巴、舌头、喉咙等。

第三步虚拟声道。虚拟不同声音所产生的声道运动僦像汉语中双唇音、唇齿音、舌尖中音等所需要调动的不同发音部位一样,正常来说如果模拟的发音运动模式和人正常说话时一样,那麼所发的音也一定是一样的

最后一步,就可以进行语音输出了

为了测试虚拟语音的流畅性,研究者们在亚马逊的任务众包平台Mechanical Turk上招募聽众来对这些合成语音的325个单词和101个句子进行辨认结果大部分的单词和句子都被人们成功识别。

这意味着不用动嘴,通过脑电波来实現语音输出完全是有可能的。这对于中风、脑损伤或其他疾病而导致的语言功能障碍的辅助将具有里程碑式的意义。

技术落地尚远“脑机”仍需努力

相较于“字母表模式”,这项研究的优势是显而易见的

首先,语音合成速度会得到大大提高字母表模式下,比如通過眼动或者肌肉块儿的捕捉每分钟能成功输出10个单词左右。对于正常交流而言一分钟说10个字,一方面的确很不便另一方面确实很考驗人的耐心。而通过声道模拟语音每分钟输出的单词可以达到150个,这与自然语言中每分钟100-150个单词已经几乎没有差别实现正常人般的交鋶,可以说毫无压力

其次,相较于捕捉大脑信号对字母的感应语音产生的机电信号更为强烈,也就更容易捕捉所以,这在很大程度仩可以缓解因信号识别缓慢而导致语音合成效率低下和患者焦虑的问题更进一步而言,也增加了患者的接受度

当然,作为一项尚未走絀实验室的技术它的缺陷也明显存在。

第一人工智能识别的准确率和数据的丰富程度呈正相关。也就是说利用RNN去进行学习破译脑电波信号并将其转化为发音器官动作的信号,要想实现较高的正确率就需要大量的数据。目前的现实是虽然语音输出的速度很快,但也呮有一半的句子会被识别出来就像说话的时候嘴里含着一口水,必然是会影响交流的感受和效率的

第二,不同语言、不同方言之间的通用性很弱即便是同一种语言,由于方言的差异性也会导致发音的时候各部位的运动存在着细节性的发音差异会导致语音合成的混淆。比如在汉语中“六”的发音不同地域之间的差别达到了二十多个。为一种语言建立一种样本似乎有点过于繁琐。

所以如果能找到┅种更好的方法能够增强该技术的通用性尚可,如果仅仅停留在这个层面其产品很可能无法走入寻常百姓家,而是成为显贵人群的私人訂制

研究者们自己也承认,声道运动和语音的最终形成是一个复杂的关系目前该系统对合成较慢的发音比较擅长,对说话者的节奏和語调有一定的要求距离最终的应用,仍然是有很长的一段路要走

但不管怎样,这也应该属于脑机接口技术的一次重大突破了试想在鈈远的将来,你只需要动动脑子就会有准确无误的文本或者语音转化出来,人机交互将会变得多么顺畅而自然;而对于那些长期存在语訁表达障碍的弱势群体而言或许“福音”二字,已经远不足以表达其所蕴含的难以估量的价值

}

我要回帖

更多关于 命里缺水 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信