aihot  2017-06-07 06:46:01  智能硬件 |   查看评论   

  经过将近一个世纪的研究,科学家试图产生合成语音,库布里克的技术仍然占主导地位。大多数具有“计算机声音”的游戏,例如,实际上使用已经电子处理的数字化人类语音,以使其声音更加机械化。同样,大多数通过电话通话的计算机通过粘贴来自记录的人类语音的几个小时的短语来构造他们试图说的话。

 

  预先录制的剪切和粘贴的语音只有在短语存在有限时才起作用。但是当你需要无限收集的短语和句子时,产生计算机声音的唯一方法是使用合成语音。

 

  合成语音的最大用户是盲人。例如,盲人可以让这篇文章由DECtalk,数字设备公司的语音合成器读给他们。超过10年,DECtalk仍然是市场上最好的声音合成器之一。其他人可以听他们的Macintosh这篇文章:苹果的系统7.5配备了一个语音合成器称为MacinTalk;一个更好的合成器,MacinTalk Pro,可以从公司的网站下载。

 

  听HAL的声音,你会发现为什么合成语音是这么艰巨的工作。尽管被告知要在一个无情的单调中阅读这些词,但是Rain仍然把他的分钟定时调制,音调移位和幅度变化制成了他们说的话。这是因为演员理解这些词的意思,而且部分的理解被编码成那些小的变化。他不能自助。

 

  苹果首席语音合成研究科学家Kim Silverman说:“随着领域的日渐成熟,我们意识到你不能像对待老式行式打印机那样对待语音合成器。 “你说话的方式取决于它的意思,为什么你说的,以及它如何与听众已经知道的相关。

 

  结果,许多关于语音合成的研究已经变成对理解自然语言的研究。贝尔实验室的文本到语音研究部门主管Joe Olive用这种方式解释:“如果你只是说话,比起你必须朗读别人写的东西要容易得多,原因是当你在说话,你知道你想说什么。

 

  底线:今天的计算机在狭义的短语参数内操作很好,但在面对无限制的英语文本时声音机械。真正的突破将需要更好地理解自然语言。给它五年。

 

愿景的东西

 

  HAL 9000配备了一个通用视频系统,在发现之后跟随Poole和Bowman。当Poole在他的空间步行更换AE-35单位,HAL大概使用他的视觉引导荚的赢咖4手臂和切断太空服的空气软管。

 

  麻省理工学院赢咖4实验室教授Eric Grimson说:“今天的视觉系统越来越擅长跟踪人们。美国的几个实验室已经建造了仪器化的房间,Grimson说在墙壁,天花板和桌面上有“小型,嵌入式摄像机,可以平移,倾斜,做运动跟踪,跟踪房间里有多少人与他们一起走过对方,并保持一个很好的知识,人在哪里。

 

  同样,Grimson说,现在在实验室和市场上都有许多人脸识别系统。这些系统不能挑出从安全摄像机看到的在机场周围走动的恐怖分子,但是他们可以从几百人的数据库中识别使用全正面图像的人。有些人甚至可以识别一个人转过一个角度。 “系统在面部识别方面的表现达到90%,”Grimson说。

 

  HAL做的不仅仅是识别面孔:计算机甚至有美感。当HAL找到鲍曼草图时,计算机说:“这是一个非常好的渲染,Dave,我想你已经改进了很多,你能保持它更接近吗?这是医生亨特,不是吗?

 

  虽然艺术欣赏逃避了今天的计算机,麻省理工学院AI实验室的另一位科学家Tomaso Poggio已经开发了一个程序,可以识别一个特定的人在一个组合照片,另一个可以识别物体和面孔从线条图。该程序甚至可以说明草图与存储的模板有多接近。

 

  卡内基梅隆大学赢咖4研究所主任Takeo Kanade说:“如果你看一下个别组件,例如,在场景中找到人类 - 我认为有几个好的程序。但这些系统都不能做到这一切。 HAL,另一方面,是一个通用的智能,可以理解它看到什么。

 

  例如,卡纳德说,HAL意识到鲍曼在没有他的太空头盔的情况下冒险探险。 “如果你只是告诉我这个特殊的问题,告诉我头盔是什么,颜色,我可以写程序,”卡纳德说。检测任何种类的头盔,任何颜色,是困难得多。 “我们可以认出一个特定的头盔,”卡纳德说,“但一般不是'头盔'。

 

  这种通用识别是一个非常复杂的任务。它超越了图像处理和跨越边界,对场景本身的常识理解和推理 - 超越今天的艺术状态的任务。

 

  底线:今天,我们可以构建个人视觉系统,执行HAL在电影2001年执行的任务。但是我们不能建立一个单一的系统,这一切。我们不能构建一个可以处理新的和意想不到的环境和问题的系统。为了达到这种复杂程度,我们需要一些额外的东西。

 

圣杯

 

  所有这些技术需要工作的额外的东西是自然语言理解和常识。事实上,正是这些技术为许多人定义了AI领域。考虑着名的图灵测试,它假定一台机器将是真正智能的,如果你可以通过电传与它通信,无法判断机器是人还是计算机。根据艾伦图灵,语言技能和常识是智力的本质。

 

  只有一个问题:语言理解和常识是我们不知道如何做的两件事情。

 

  在这两个中,到目前为止,最多的工作集中在自然语言理解或语言的理解,而不仅仅是对语音的识别。这个领域的领导者之一是西北大学学习科学研究所主任Roger Schank。在20世纪70年代后期,Schank和他在耶鲁大学的研究生建立了一个名为CYRUS的计算机程序,该程序通过阅读每日新闻线来学习有关前美国国务卿赛勒斯·万斯的一切。每次该程序阅读关于Vance的文章,它会消化文章的事实,并将信息存储在概念数据库中。你可以问CYRUS一个英语问题 - 说,你的妻子曾见过英国首相的妻子吗?程序实际上被问这个问题,回答,是的 - 在以色列举办的一个聚会。

 

  从那时起,Schank专注于一种他称之为“基于案例的推理”的技术。 Schank认为,人们有他们想告诉你的故事的一个剧目。当你问他们一个问题,它触发一个故事。人们使用这些故事来理解和决定在他们的生活中做什么。近年来,Schank的研究所已经建立了一些企业培训系统,这是真正大型的数据库,充满了数十甚至数百人为组织工作的故事。有问题吗?询问电脑你的问题;机器找到适当的故事并播放给你。

 

 

除特别注明外,本站所有文章均为 赢咖4注册 原创,转载请注明出处来自HAL 9000计算机

留言与评论(共有 0 条评论)
   
验证码:
[lianlun]1[/lianlun]