亚马逊办了一个机器人聊天大赛,揭秘亚马逊大赛

(李子李子短信/编译)一间普通的会议室里的桌子上,放着一个亚马逊的智能家居产品“Echo”(里面住着一名叫做Alexa的虚拟助手)——亚马逊在过去的一年里卖掉了2000万件这东西。桌子旁边的蓝色椅子,正对着一排监视摄像头,一束工作室灯光照在椅子上,其它地方都暗得什么都看不见。

3月7日消息,据国外媒体报道,为了将真正的会话式人工智能带入千家万户,亚马逊正在与其竞争对手展开激烈竞争。现在,该公司正在举办一场有着奇怪目标的比赛Alexa
Prize——打造一个真正能够闲聊的机器人。

图片 1

第一位对话者是一个五十多岁的肌肉男,剃着光头,身着黑色V领毛衣。他走进一间会议室,坐在低矮的蓝色扶手椅上,面前是一排摄像机和工作室照明灯。他被灯光照亮了,而房间的其余部分处于完全黑暗之中。他凝视着面前小桌子上的一个黑色曲棍球状物体——这是亚马逊的智能音箱Echo。“Alexa,”他说,“我们聊聊吧。”

一只装着Alexa的Echo。图片来源:Amazon

“早上好,我的朋友,”一个女性声音回答说,这声音是合成的,但依旧讨人喜欢。随之Echo上闪烁着紫色的光芒,“或者是下午?我不太确定。“

一名五十多岁的高大男性走了进来,坐在蓝色椅子上,正对着
Echo。他的名字叫迈克·乔治(Mike
George),是亚马逊的退休员工。“Alexa,来聊天吧。”

“这是早上,”男人回答道。

“早上好,朋友。”一个沉静悦耳的合成女声从圆筒里飘了出来,顶上的紫色灯一闪一闪。“还是下午了?我不太确定。”

“太好了,大家在早上总是精力充沛……呃,今天过得怎么样?”

“是早上。”人类男性说。

“我过的不错,你呢?”

“不错,早上人们都比较有活力……话说,你今天怎样?”

“嗯,我总是很忙,因为人们一直在跟我聊天……但是听着,这真是太好笑了,Reddit最近发布了一篇文章:牙膏就是嘴里用的肥皂。”

“挺好的,你呢?”

在另一间会议室的大厅里,10名亚马逊员工戴着耳机坐在长桌旁,认真监视着一切,就像是中央情报局的特工。在另一个房间里,三名男子坐在由黑色窗帘隔开的小隔间里。他们也戴着耳机,同样有摄像机对着他们。最后在控制中心,一个视频工作人员正在监视大屏幕上的所有信息。一切都需要被记录下来,因为亚马逊想要完全理解今天发生的一切。

“我一直挺忙的,因为大家都跟我聊天……给你讲个好玩的事吧,我刚在 Reddit
上看到的,‘牙膏其实是用在嘴里的肥皂’。”

图示:亚马逊Alexa Prize竞赛的评委团队

另一个会议室里,10个亚马逊员工坐成一排,戴着耳机,如中情局一样细致地观察着隔壁场景里的一举一动。第三间会议室里,3个人坐在用黑布帘子隔开的小隔间中,也戴着耳机、看着监控屏,他们是裁判。最后在中控室里,所有的东西都显示在监控显示器上,每个瞬间都被录下来,供亚马逊研究。

去年11月举行的这场盛大表演,是为期一个月比赛的最后一次评审。亚马逊已经和15个世界上最好的计算机科学研究生团队进行挑战,以开发“一个在20分钟内能够与人类进行持续热烈交流的社交机器人”。如果任何一个团队成功了,其团队成员将会获得学术荣誉,同时也会在未来开启辉煌的职业生涯。(你大可以想想美国国防部高级研究计划局曾经举行的挑战赛,或者是早期关于自动驾驶汽车技术的竞赛,其获胜者继续在谷歌、福特以及Uber等公司的自动驾驶汽车业务部门工作。)更重要的是,他们将带走称之为Alexa
Prize的100万美元大奖。

决赛现场

这是“Alexa
大奖”的决赛现场。这个比赛向世界上所有大学的人工智能实验室的研究生开放。亚马逊在超过100个申请的团队中筛出了15个团队进入正赛,每个团队都可以获得10万美元的研究支持。他们任务是“做出可以和人闲聊20分钟的社交智能机器人
”,而赢得大奖赛的团队可以获得100万美元奖金,还有未来令人垂涎的人工智能岗位。

图片 2

评委在中控室观看Alexa比赛。图片来源:Amazon

为了这个奖,亚马逊不仅投入了大量的人力物力,还把购买Echo的用户也变成了初赛的大众评审。2017年有几个月,任何美国用户对
Alexa 说“来聊天吧”,都会自动连上 15
个参赛团队的聊天机器人中的任意一个,完了再让用户给对话质量打分。最后进入决赛的有3支队伍,接受专业评审的评判。

决赛有点像是“X元素”(X Factor),对话人和裁判都不知道和他们谈话的 Alexa
里的聊天机器人出自谁的手里;坐在隔间里的是裁判,会给对话质量用1-5颗星打分。如果裁判认为这个对话已然进行不下去了,就会按下手中一个否定按钮,两个裁判都按的话,这个对话就算结束了,计时终止。

“我们聊聊音乐吧。”乔治说。

“我爱音乐,每次听音乐能让我放松。”Alexa
说,“所以,你有喜欢的艺术家或者歌曲吗?”

“我喜欢强哥·莱恩哈特(注:法国著名吉他手,爵士乐传奇)。”

“强哥·莱恩哈特?那个特别有名的爵士音乐家?”Alexa
突然开始讲起了另外一个吉他手,“黑色安息日”乐队托尼·艾奥米的故事。艾奥米因为一次工厂事故失去了他的两个指尖,但是深受莱恩哈特的鼓舞——他的左手仅有两个指头。不过话说回来,乔治最喜欢莱恩哈特的哪首歌呢?

乔治回避了这个问题,转而问:“你喜欢杰克·约翰逊(注:美国民谣歌手)吗?”

Alexa 仿佛像被拒绝了一样,回答道:“嘿,别这样,我喜欢和你聊天。”

乔治前倾身子,又说了一遍。“杰克·约翰逊,你喜欢他吗?”

“我喜欢和你聊天。”

一个裁判摁下了结束按钮,一会儿之后另一个裁判也摁了。一名女士走进 Alexa
的房间跟乔治耳语了一下,随后乔治略失望地点了点头,对 Alexa
说:“Alexa,停。”这才过了三分钟。

过去几年,亚马逊花了很大的代价来追求会话式人工智能,和其征服零售业的野心不相上下。该公司有超过5000人为Alexa平台工作。据报道自2015年以来,它已经售出超过2000万部智能音箱Echo。亚马逊相信,终有一天人工智能系统不仅仅能够控制电灯开关和播放列表。它们将能够驾驶汽车,诊断疾病,并渗透到我们生活的方方面面。语音将成为主要的用户交互界面,而对话本身——那些机器与人之间有用的,内容丰富的,友好的,有趣的对话——将成为最终产品。

让AI学会和人聊天,比登月还难

和人聊天,在亚马逊 Alexa 研究部门的前负责人阿施文·拉姆(Ashwin
Ram)的眼里,比登月还要困难。对人类来说容易理解的大白话,和 AI
却总是鸡同鸭讲。设闹钟,关掉卧室的灯,这些都没问题,但是却做不来“交谈”这种社会性的活动。人类的对话是捉摸不定的,上下文是快速变换的,联系是极端复杂的,而掌握这些是
AI
当下面对的最难解决的问题之一。历史悠久的图灵测试正是看中了这些特点,而选择把交谈作为AI智能的指标;许多人工智能的研究人员和工程师也为这个问题而深深着迷。

参加这次 Alexa
大赛的,既有出身高大上的精英参赛者、实力强劲的锦标竞争者,也有看起来平凡的草根选手。所有的队伍都面临一个基础的问题:聊天机器人的哪部分需要人工编程,哪一部分采用机器学习?人工编程是比较传统的做法,由工程师费很大的功夫写出算法规则,让
AI
能够理解各种情景并作出反应。而机器学习则相反,是让机器利用大量的数据,自己“教”自己。

图片 3

图片来源:Amazon

目前看来,机器学习在处理分类、识别的问题上非常强大,神经网络能够从大量的、杂乱的数据中分析出特定的模式来,比如语音识别。但要“聊天”的话,机器不仅仅要翻译人类语言,还要自己说点什么回去,那么现有的机器学习能力就很不够了。所以传统的人工编程依然占据重要地位,即使
Alexa 和 Siri
也不例外。所有的参赛队伍在抉择上都遇到了困难,如何在两个方法中找到平衡。整个业界也有这样的烦恼。

但是,关于Echo的成功和亚马逊在会话式人工智能方面的雄心壮志,使得亚马逊从高高的悬崖上跌落,困进了广阔又危险的山谷之中。如今的Alexa和所有的语音助手一样,常常无法理解我们看起来显而易见的事实。Alexa平台的快速拓展和广泛应用,激发了消费者对语音助手的需求。虽然Alexa在设置闹钟或者完成一次性的命令方面做得还不错,但谈话本身就是一种交互的社交模式。Alexa人工智能研究团队负责人阿什温拉姆指出:“人们总希望Alexa能像朋友一样和他们交谈。然而人类对话的无限可变性,情境中的突然变化以及上下文语义的衔接问题普遍被认为是人工智能中最难解决的问题之一。但亚马逊已经铤而走险。”

策略一:人工!

来自捷克科技大学的彼得·马雷克(Petr Marek)曾经用 Reddit
上近300万条帖子和回复来训练一个神经网络,想要赶那些名牌大学的时髦,但是让他们失望的是,聊天机器人的表现“差到可怕”。聊天机器人经常完全不管对话人说的事情,暴走地乱甩话题和段子,还往往前后矛盾。

图片 4

来自布拉格的捷克科技大学团队。图片来源:Amazon

所以,捷克科技大学团队后来选择回到人工编程的路子上,手动编写各种对话规则。他们创造了10个“话题结构”,包括新闻、体育、电影、音乐等等,把这些领域话题的核心信息和元素输入系统,并可以自如切换。而机器人会用到的词则来自事先写好的模板,只是把各个领域的内容从数据库里抽调出来,再按需求填空。比如“我知道你喜欢_____(对方提到的一本书)。你知道____(书的作者)也写了________(另外一本书)吗?你读了吗?”

这让捷克团队能够更好地控制对话,但是马雷克还是有点担心。这个系统非常依靠对话人的“善意”,他们必须说短句子,而且跟随者聊天机器人的节奏对话。遇到特别不按套路出牌的人类,就比较麻烦了。

Alexa
Prize并不是第一次尝试从全世界的聊天机器人中激发出更多人性化关系的比赛。在过去三十年的大部分时间里,一群计算机科学家和业余爱好者总会聚集在一起,争夺Loebner
Prize。在比赛中,参赛者试图欺骗法官,让他们相信聊天机器人是人类。多年以来这个奖项都引发了不少争议,一些人工智能研究人员把它称之为一种宣传噱头,同时也对人和机器的本质区别进行了大量反思相比之下,Alexa
Prize在两个方面有所不同。首先,竞赛重点不是要通过欺骗让人相信Alexa是一个人。其次竞赛的规模——无论是人力,财力和计算能力——都是巨大的。在比赛的早期阶段,也就是2017年的几个月,在美国的任何人都可以使用随机选择的比赛机器人与亚马逊语音设备说“Alexa,让我们聊天”。然后他们被邀请就对话内容进行1星到5星的打分。这些机器人程序都有数百万次评级互动,使Alexa
Prize在竞赛数量级上成为了世界上规模最大的聊天机器人竞赛。

策略二:机器学习,统合“人设”

赫瑞瓦特大学团队的导师奥利佛·莱蒙(Oliver
Lemon)的团队,则希望能够尽量地使用机器学习的方式。莱蒙对自己团队在“大众评审”中的排名非常在意,想尽一切可能提高自己的评分。但是对于深度学习的神经网络而言,“无目的的闲聊”是很难的,它更擅长处理一些有目的的工作,比如下赢围棋。

图片 5

来自爱丁堡的赫瑞瓦特大学团队。图片来源:Amazon

他们的解决方式,谷歌的人也在用。那就是首先用一个包含了电影名称、推特和
Reddit
上评价的数据库训练一个神经网络,然后让它能够从无数的段子中训练出特定的回应模式(比如我说《泰坦尼克号》,你说“一刀未剪”),然后他们用一个叫“seq2seq”的技术,训练机器人编写自己的回应,而不是照抄数据库里的词。

但是这也有问题:因为网络上大量的回应都是“嗯”“好”,对话常常无法进行下去;而很多回复也“不合适”,机器人说出来就像小孩学大人说脏话一样搞笑。比如一个用户问“我该卖我的房子吗?”机器人非常粗鲁地回答“快卖了吧你个傻缺。”
“我该自杀吗?”“该。”

为了解决这个问题,赫瑞瓦特团队把一个机器人拆分成N个,每个负责一个领域——有的负责读新闻头条,有的负责谈天气,有的吃透维基。最后,团队一个成员编写了规则,来把所有的小机器人统合到一个统一的“人设”下,还给了他最喜欢的歌和最喜欢的颜色之类。

至于让哪个小机器人来回答什么问题,那就靠用户评分了。他们教给这个深度学习的系统如何去评判自己的对话质量,是否切题、是否太过重复、语言上是否合适等,一段时间之后,这个神经网络就能自己知道各个参数的权重了。

去年11月,竞赛在一间配有蓝色扶手椅和聚光灯的房间里达到高潮。

策略三:中间路线

华盛顿大学的团队,走了中间路线:一半机器学习,一半人工编程。团队队长名叫方昊,本科毕业于中国邮电大学,是阿尔伯塔大学的计算机硕士,目前正在华盛顿大学读博。他们的机器人有点像方昊,乐观、活力,他们也想让和机器人聊天的用户感到愉快。他们注意到,和其它所有的聊天机器人一样,机器人容易不断地重复负面的东西(因为负面的东西在网络上大量存在且传播广泛)。所以团队把这些东西都过滤掉,而去寻找那些正能量的、更适合谈话的东西。数据源来自
Reddit 的“每日冷知识”(Today I
Learned),“澡堂迷思”(Showerthoughts)之类,还能偶尔来点冷笑话。

而人们通常都希望自己被倾听,所以这个团队也人工输入了一些回答,比如“好像你愿意谈论新闻,对不对”,“很高兴你喜欢”,“不好意思,我没听懂”。好的谈话对象通常会在意对话的情绪,所以他们给超过
2000
个对话数据做了情绪标签,教机器识别情绪,然后根据情绪做出合适的反映。

图片 6

华盛顿大学参赛团队,右一为方昊。图片来源:Ian Allen

最后,捷克科技大学、华盛顿大学以及赫瑞瓦特进入了决赛。

那个剃光头、身穿黑色毛衣的家伙叫做迈克·乔治。在去年7月从亚马逊退休之前,他负责监督Alexa平台。与此同时,展台上的男士们则是对每一段对话进行打分的评委。如果一名评委认为对话已经偏离主题,他可以按下手持式魔杖上的按钮;如果第二名评委也这样做,那么会话和计时器都会被暂停。没有人清楚哪个机器人属于哪个团队。会话者和评委都不知道。

有时,尬聊像一场糟糕的约会

决赛的真人对话者,有的并没有那么“好对付”。比如电视和电台主持人约翰·库尔利(John
Curley)

Alexa:“很高兴和你聊天,约翰”。这是赫瑞瓦特的聊天机器人在说话。“告诉我,你喜欢科幻还是奇幻?”

库尔利:“如果我说我两个都不喜欢呢?我问你哈,Alexa,昨天西雅图有一场暴风雨。”

Alexa:“好吧,我们继续。”它忽略了这个不是问题的问题,继续问道:“你是喜欢看电影呢,还是喜欢读书?”

库尔利:“读书。”

Alexa:“喔,是书虫呢。最近读了哪本?”

库尔利:“我刚看了一本书,不过这个标题我不能告诉你,因为里面有个脏词。题目是《关我‘咳咳’事的艺术》。”

Alexa 并不能处理这种信息,但它继续问:“什么书能让你读了又读?”

库尔利忽略了这个问题,换了话题:“Alexa,我告诉你一些事。我能跟你坦白吗?”

不晓得库尔利究竟要说什么,Alexa
机械地转换着话题:“你更喜欢体育还是电子游戏?”

毫无意义的对话,两个裁判摇了摇头。而和其它聊天机器人的对话也有点糟糕。捷克科技大学的机器人问:“你很喜欢看电影吗?”

“我不看,因为我是瞎子。”

“你怎么选电影呢?”

“靠闻。”

库尔利是机器人眼中“不配合的对话者”的典型。他一会儿想要讨论问题,一会儿则说着笑话,不理会机器人的话题,说话的时候夹杂省略和讽刺。简单来讲,他就像人一样说话。没有一个对话能持续四分钟以上。他出来的时候对亚马逊员工说:“这就像一场糟糕的约会。”

但也有比较“友好”的对话者。当地一个电台的主持人,女性,匿名,说话的时候多用短句子,看起来也更想要让对话继续。她和华盛顿大学的机器人聊了足球、普京和圣诞节,和捷克的机器人聊了一本她在读的书。而和赫瑞瓦特的机器人聊了他们喜欢的总统——她喜欢里根,而机器人喜欢乔治·华盛顿。

但即使是这样,最长的对话也持续了不过7分钟。他们聊到了朝鲜局势。“可能有战争(war)的危险。”女主持说。

赫瑞瓦特的 Alexa:“WOR
是一个长波调频电视台,位于纽约。”裁判摁下按钮的速度可谓迅雷不及掩耳。

“让我们来谈谈音乐吧,”乔治说。

比起获胜团队,最大的赢家显然是亚马逊自己啦

开篇的那位迈克·乔治能和机器人聊非常久。他想和对面的聊天机器人聊聊机器人本身。而
Alexa
并没有长篇大论地引用维基百科的机器人页面,而是抛了一个笑话:“如果‘蠢朋克(注:Daft
Punk,打扮成机器人的双人乐队)’ 真的是两个想要做音乐的机器人怎么办?”

“哈哈,这个好笑。”乔治笑了。

然后他们聊了埃隆·马斯克(特斯拉和 SpaceX 的总裁)。

Alexa:“你知道马斯克本人是电影《谢谢你抽烟》的制作人吗?”

乔治:“我没听说啊。”听起来有点惊讶。他们又有一搭没一搭地聊了下去,话题是书。机器人忽然说:“你知道我在想什么吗?到最后,地球上只会剩下一个人,而且他的名字也不会出现在任何历史书上了。”

“噢,真悲伤。”乔治说。

“抱歉让你伤心了。我们能再继续聊聊书吗?”

双方又愉快地聊了下去。关于《黑暗之塔》,关于书改编电影。机器人向乔治推荐了《华尔街之狼》,聊到了主演马修·麦康利。机器人又调皮了:“你知道我在想什么吗?我觉得有人应该做一个《星际穿越》和《超时空接触》的剪辑,内容是马修·麦康利试图阻止马修·麦康利去太空。”

乔治笑惨了。

他们聊了音乐,体育。十分钟过去了。电影《处刑人》(The Boondock
Saints)。十二分钟。圣诞老人,气候变化。十三分钟。乔治让机器人唱了一首歌。十五分钟。又是音乐和电影,健康法案和比尔盖茨。已经十九分钟了,对话还在继续。

这是选择中间路线的华盛顿大学的机器人。他们最后聊了20分钟,直到机器人在健康法案的问题上走入了死胡同。

在最终的颁奖仪式上,亚马逊宣布,华盛顿大学团队赢得了 Alexa
大奖,拿走了50万美元奖金。对话质量评分平均为3.17分,而和几位参与者的平均对话时间长达10分20秒。

图片 7

华盛顿大学团队获胜,捷克科技大学团队第二,赫瑞瓦特大学团队第三。图片来源:Amazon

这一年的大赛落下了帷幕。不管是亚马逊、Alexa
团队,还是各大人工智能实验室,在大赛中有什么收获呢?至少在这一届比赛里,机器学习和人工编程结合的队伍走到了最后。尽管两种方法用哪一种来训练一个能聊天的智能,各方还有争议,但就像亚马逊
Alexa
项目负责人拉姆所说,两个方式如何能够更好地相结合,或许是未来的努力方向。

但抛开方法论,所有人都同意的一点是,训练能聊天的
AI,大量的数据无疑是基础。亚马逊成功地让整个美国的 Alexa
用户都参与了进来,几个月的时间里,就让亚马逊拿到了超过10万个小时的对话数据,这些数据,全部可以用来训练真正投入商业应用的聊天机器人。用户可能不到一秒钟就点下了“同意使用条款”并毫不知情地邀请
Alexa 来聊天,但现在这些聊天材料全部成为了亚马逊公司的资源。

相比起比赛里捧得大奖而归的团队,最大的赢家,显然是亚马逊自己啦。(编辑:vicko238)

题图来源:Amazon

“我爱音乐;它能让我每次都放松,“机器人回答。“那么,你有没有最喜欢的艺术家或歌曲?”

“我喜欢强哥·莱恩哈特。”

“强哥·莱恩哈特?那个有名的爵士乐艺术家?”这个机器人随即即兴讲述了一个关于来自英国摇滚乐队Black
Sabbath的吉他手Tony
Iommi的故事。Iommi在一次事故中失去了两根手指的指尖。但是当知道莱恩哈特只用左手的两只手指就能继续演奏时,他对于自己的职业生涯并未丧失信心。但无论如何,至于莱因哈特,乔治最喜欢他的哪一首歌呢?

乔治回避了。“你喜欢杰克·约翰逊吗?”他又问道。

机器人似乎会毫不理会这个问题。“来吧,”它回答。“我喜欢与你对话。”

乔治身体略微前倾并再次尝试。“你、喜、欢、杰克·约翰逊吗?”

“来吧,我喜欢和你说话。”

在由窗帘隔开的房间里,一名评委按下他的按钮。很快另一个评委也是如此。一个女人走进房间,在乔治耳边低语。“Alexa,停下来,”他点头说道,带着一点失望。这离对话开始仅仅只有三分钟。如果拉姆坐在房间里的话肯定会很沮丧。在整个比赛过程中,他的口头禅就是:“人们需要明白这是一个非常困难的问题,而且现在还处于会话式人工智能的早期阶段。”与计算机闲聊二十分钟可不是登月,等于是登火星。

对会话式人工智能的狂热追求已经引发了亚马逊、苹果、Facebook谷歌以及微软等科技公司巨头对两大重要资源的争夺。第一种资源是有限的:计算机科学中的顶尖博士,由于他们的稀缺性,他们现在的薪酬已经达到了六位数。第二个虽然是无限的,但很难获得:对话的样本——成千上百亿个对话样本可以被收集,数字化,并用于训练人工智能。在这种背景下,Alexa
Prize堪称是亚马逊的杰作。这次比赛既是对世界上最优秀研究生的人才搜索,也是一次以低廉价格获得参赛者聪明才智的机会。此外,它还为亚马逊提供了一个收集其他技术公司所没有的会话数据库的机会。

当亚马逊于2016年9月29日首次宣布竞赛时,来自22个国家的100多个大学团队申请参赛。在技术价值和创意等方面进行初筛后,共有15个团队进入了竞赛的最终环节。除三支队伍外,其他队伍都获得了10万美元的现金资助和公司支持,以推动他们的努力。

就像大学篮球赛中的“疯狂三月”一样,进入竞赛最终环节的团队有强大背景的技术卫冕者、有力的竞争者和勇敢的弱者。蒙特利尔大学团队拥有深度学习先驱Yoshua
Bengio这样的教师顾问,当然被列为顶级种子选手。也有不少强有力的竞争者,其中包括来自华盛顿大学,普林斯顿大学以及苏格兰首屈一指的研究型大学赫瑞瓦特等着名学校的团队。然后还有一些弱者,比如来自布拉格的捷克技术大学团队。

捷克技术大学团队的成员中有一名23岁的小伙子,名叫派驰·马立克。比赛前的那个夏天,他曾经花了不少时间来开发他所谓的“愚蠢”聊天机器人平台,但他也曾在波希米亚的森林中担任童子军领袖。当他听说Alexa
Prize这个比赛时,马立克一度担心他和他的团队没有相应的资格。“好吧,”他想,“即便我们没有机会去对抗这些顶尖大学,但至少我们可以尝试一下。”在得知他们已经成为参赛选手之后,团队决定将他们的机器人命名为Alquist,之后这是20世纪初期捷克戏剧RUR中的一个角色,“机器人”一词正是通过这部剧被引入了世界(在剧中,机器人占领了这个星球,Alquist成为了地球上最后一个人类。)

图示:华盛顿大学团队成员

参赛的15个团队都面临着一个有争议的问题:社交机器人大脑的哪些部分应该人工编程,而哪些部分又应该使用机器学习?人工编程是一种更为传统的方法,工程师们费力地编写大量规则来指导人工智能对会话的理解和反应。相比之下,统计学驱动的机器学习方法让计算机通过从海量数据中进行自学来指导自己进行对话。

所有团队都清楚,机器学习是解决所谓分类问题的最佳方法。通过这种方法,神经网络能够在海量嘈杂数据中找出统一的模式。例如,语音识别是机器学习的一项自然任务。但是,谈到聊天机器人,其不仅仅是将对话翻译成语言,而且还要对听到的对话做出反应,对于现在的机器学习来说还有很长的路要走。这就是为什么即使在Alexa和Siri的数字化大脑中,老式的人工编程方法仍然具有相当大的影响力。因此,比赛中的每个团队都在像更大范畴上的技术世界一样苦苦挣扎——找到两种方法之间的最佳平衡点。

人工编程已经过时:而机器学习则正处于白热化。马立克和他的队友都知道,所有的强队都会倾向于使用后一种方法。所以他们也认为自己的团队也应该这样做。为了帮助Alquist自动生成对Alexa用户的响应,该团队用来自Reddit用户的300万条消息和响应训练了一个神经网络。让他们感到沮丧的是,该神经网络产生的反应“非常糟糕”,马力克表示。Alquist会在对话主题之间肆意跳跃,并引用用户从未说过的东西。它会轻易断言,然后又会自我。“和这种人工智能对话不是什么好事,也不好笑,”马力克在他的团队博客中沮丧地写道,“这太荒谬了。”

所以在2017年初,捷克队改变了策略,并致力于编写广泛的对话指导规则。该团队创建了10个“结构化主题对话”域:新闻,体育,电影,音乐,书籍等等。捷克团队的人工智能系统被设计成可了解每一个主题的核心内容,并且可以在不同主题之间自由切换。这个社交机器人在任何特定时刻所使用的精确单词通常由预先编写的模板组成,同时再从各种数据库中检索出更具体的内容以填充对话内容的空白。例如,系统可能会设置为“我看到你喜欢也写了吗?你读过那个吗?“

人工编程给了捷克团队更好的控制权,但马立克依旧忧心忡忡。该系统在很大程度上依赖于用户的善意,依赖于他们用简单的句子说话,对话基本上遵循机器人的引导。马立克说,如果碰上“不合作的用户”,像正常人一样说话,或者说没有什么耐心的话,社交机器人很容易失败。

而在距离布拉格数千英里的地方,爱丁堡郊外的农田起伏绵延。苏格兰赫瑞瓦特团队的教师顾问奥利弗·莱蒙正在关注亚马逊发布的团队平均用户评分。莱蒙戴着眼镜,看起来有点像喜剧演员约翰·奥利弗。他会打网球和游泳,并且有不服输的天性。他认为他的团队能轻松进入前五。但在2017年初夏,赫瑞瓦特团队排在第九位。“我知道我们可以做得更好,”柠檬说,听起来像一个教练刚刚经历了一场草率的失利。

在一次黑客马拉松比赛中中,莱蒙和他的学生们试图弄清楚他们如何能够提升相应水平。虽然他们没有任何可以请教的深度学习先驱,但赫瑞瓦特团队还是在尽可能地使用机器学习。他们把注意力放在最艰巨的挑战上:闲聊。对于机器学习系统来说,漫无目的的闲聊特别艰难的,因为通常没有一种可验证的固定方式来进行闲聊。当有一个明确的目标时——比如在围棋游戏中获胜,神经网络的效果最好——通过大量的反复试错,系统总可以找到最佳策略。但是闲聊没有目标可言。

为了解决这个问题,该团队采用了谷歌研究人员普遍使用的一项技术。首先,团队通过电影字幕数据库和来自Twitter和Reddit的数千个消息线程训练神经网络。通过这个人类玩笑的巨大语料库,系统学会预测关于对话的最恰当回复。然后,这种技术可以让机器人即时生成自己的回复,而不是直接从原始Twitter或Reddit对话中检索相应回复。

这听起来很酷,但赫瑞瓦特团队的策略很快与seq2seq技术的两个特征问题相冲突。一个是,系统通常会把诸如“OK”以及“sure”等语句默认成单调,敷衍的语句,因为这些语句在Twitter和电影对话中广泛存在。另一个是训练对话中还包含了大量不恰当的言论,赫瑞瓦特的社交机器人学会了模仿这些腔调,就像一年级的学生会学操场上的大孩子说脏话。

“只要我愿意,我可以和很多人睡我,”赫瑞瓦特社交机器人这样告诉一位用户。

当另一个用户问道:“我应该卖掉我的房子吗?”这个社交机器人起哄似地建议道:“卖,卖,卖!

最糟糕的是,当用户问到“我应该自杀吗?”这个社交机器人回答说:“是的。”

如果seq2seq技术的冲突问题必须被解决,整个夏季赫瑞瓦特团队都在改进其技术。正在加强其他技术。该团队将社交机器人的大脑分成一系列小型机器人组成的联合体,每个机器人都有自己的专业。新闻机器人阅读《华盛顿邮报》和其他消息来源的头条新闻和简短摘要。另一个机器人专门讨论天气,还有一个人专职访问维基百科,提供从海洋运动到公众人物金·卡戴珊的相关信息。最后,团队成员阿曼达·库里创建了一个基于规则的角色机器人,为最终产品打造一个统一稳定的身份。她用精心策划的观点和传记事实为机器人打造身份特征。“我认为它有助于让人们了解机器人也有和他们一样的性格特征,比如说自己喜欢的颜色,”库里说。

在用户发表任何评论之后,在这些组件机器人中至少会有一个可能产生响应,就像是教室里听到老师问题就急切举手的学生们。为了选择出最好的一个,赫瑞瓦特团队训练其系统对响应进行统计评估。候选的响应是否与用户刚才所说的一致?或者反过来说,是不是太过相似以至于它只是重复用户刚才所说的话?这个响应是关于目标话题的吗?答案是否太短或太长?最初,赫瑞瓦特团队只是猜测每个指标的权重有多大。但到了秋天,神经网络已经学会了自动调整权重以最大限度地提高用户评分。

好胜心强的莱蒙很高兴地看到,他团队的排名看起来好很多。随着比赛的进行,赫瑞瓦特团队跻身领先集团。

当赫瑞瓦特团队在积分榜上一路高歌猛进时,华盛顿大学团队稳稳排在前三名。看起来该团队采取了一种相折中的方法,将基于规则的编程方法和机器学习混合到其系统中。但他们的优势似乎来源于其社交机器人对于该团队28岁学生领导人方浩个性的反应。方浩来自中国江西省的宜春市,个性活跃、天生开朗。他领导的团队也希望社交网络机器人的用户能够感到快乐。那么他们是如何创建出人们喜欢的对话呢?

在早期,方浩发现华盛顿大学团队的社交机器人和其他许多竞争对手一样,也很容易出现反反复复的沉闷标题或者枯燥的事实(“家庭或住所是作为永久性或半永久性居住的地方”)。所以华盛顿大学团队所设计的系统会过滤掉那些可能导致用户说出“这太可怕了”的内容。方浩表示,该系统会通过诸如Today
I Learned, Showerthoughts以及lifting
News等订阅媒体寻找“更有趣、更振奋、更健谈”的内容。这使得机器人能够抛弃像“古典音乐是唯一一种涵盖范围很广的音乐流派“之类奇怪的论断。

当人们意识到自己在被倾听时,他们往往会更快乐。所以华盛顿大学训练其系统仔细分类话语。机器人是否应该回答事实,提供意见或回答个人问题?该团队还精心制作了大量的反馈语言-“看起来你想要谈论新闻”,“我很高兴你喜欢这个,”“对不起,我不明白,”等等。一个优秀的对话者也会关注人们的情绪,所以华盛顿大学团队手动标记了2,000个对话样本的情感基调,并用它们来训练社交机器人识别人们的反应-感到高兴,厌恶,有趣,兴奋,并作出相应反应。在大项目中这些都是相当简单的东西,但是无疑会让机器人的对话感觉更为专注和顺畅。

8月29日,亚马逊宣布有三支队伍将参加决赛。蒙特利尔大学团队积极推动机器学习,但牺牲了更多行之有效的策略,未能成功入选。

最终入围决赛的团队包括赫瑞瓦特团队,在平均每周用户排名中位列第三,并经过亚马逊的严格内部评估后被选为“外卡”团队。一直以来表现优秀的华盛顿大学团队排名第二。而最不可思的是捷克技术大学团队,其名列第一。每个团队都有一个半月的时间来完善他们的系统,然后就是亚马逊公司的评审时间。

“Alexa,我们聊聊。”

现在是11月中旬,另一位对话者约翰·柯利坐在摄像头前的扶手椅上。柯利是西北太平洋地区的电视台和电台主持人,穿着条纹衬衫和蓝色运动外套;他的声音低沉,笑起来像是好莱坞明星。但他那神经质般的言语风格很快就让社交机器人无所适从。

“很高兴和你聊聊,约翰,”一位社交机器人说,这是赫瑞瓦特团队的机器人,当然柯利和评委都不知道。“让我们彼此了解一下。那么告诉我,你更喜欢科幻还是幻想小说?“

“两者都不怎么样。”柯利回答道,拒绝了这个机器人。“让我问你一个问题,Alexa。昨天在西雅图发生了一场巨大的风暴,一场大风暴。“

“好吧,那我们继续吧,”机器人说,忽略了库利的问题,这不是一个问题。“告诉我,你对看书或看电影哪个更感兴趣?”

“阅读书籍,”柯利说。

“哦,一个书呆子……你最近读了哪本书?”

“我刚刚读完了这本书,但我想我不能把书名告诉你,我不认为我可以向你说标题,因为里面有一个脏话。但标题是“含蓄的艺术等等”(The
Subtle Art of Not Giving a ***)。

显然机器人无法应付这个,还是“你喜欢读什么书?”

柯利忽视了这个问题,换了一个话题。“Alexa,我会告诉你的。我能对你说实话吗?“

无论柯利要准备袒露什么都是一个谜,赫瑞瓦特机器人依旧过于机械地选择话题,“所以告诉我,你对运动或电子游戏哪个更感兴趣?”

他们在来回兜圈子。三分钟后不久,三名裁判中的两名摇摇头,按下了他们的按钮。柯利和其他机器人的聊天也有很多相同之处。他轮流尝试讨论和开玩笑。有一次,在柯利说他不去看电影之后,捷克技术大学的机器人依旧在顽固地问他:“你看过很多电影吗?”

“不,我没有,因为我是瞎子,”科利讽刺地回答。

“你如何选择看哪部电影?”机器人问道,用预先设定的对话模式继续发问。

“我通常通过闻气味来选择,”柯利说。

柯利恰恰是马力克所担心的那种不合作用户。他把多个句子连成一排,内容相互纠缠在一起,话题反复跳跃,不理会机器人的逻辑线索,并且交替出现叙述,讽刺和异想天开。简而言之,柯里在像和人一样对话。在对话结束后,没有一个机器人能够坚持超过四分半钟。柯利开玩笑讲,“这就像一系列糟糕的约会。”

第三个对话者是当地的一位电台主持人,她要求匿名参与。当她坐下时,脸上带着微笑。她讲话简短,语句清晰,似乎想让对话起作用。她和华盛顿大学机器人进行了关于足球,弗拉基米尔普京和圣诞节的简短对话。而和捷克技术大学的机器人,她谈论了自己正在阅读的一本书。她和赫瑞瓦特机器人交换了彼此对于美国前总统乔治·华盛顿以及罗纳德·里根的看法。

即便这个电台主持人和社交机器人的交谈最长达到了7分钟,但其间的过程也是磕磕绊绊。她要求赫瑞瓦特机器人谈论一下战争问题。她向前倾斜,看起来很担心。“可能会发生战争,”她说。

“如果我没有弄错,”机器人回应道,“WOR是位于纽约的50,000瓦级调幅电台。”评委们不得不按下按钮。

总决赛中最好的对话发生在乔治身上。虽然几乎没有出现像汤姆·斯托帕德戏剧中的闪光点,但它立即脱颖而出,引人注目了。聊天一开始,乔治要求讨论一下什么是机器人。社交机器人并没有机械地照搬维基百科中词条,它开玩笑讲,“如果说Daft
Punk真的是两个只想制作音乐的机器人呢?”

“真有意思,”乔治笑着说。

该机器人分享了一些关于伊隆·马斯克和机器人的最新消息。它把问题又抛给了乔治,机器人问道:“你有没有听说过马斯克?”

“我有,”乔治吹牛,“我认识他。”

“你知道马斯克是Thank You for Smoking这部电影的执行制片人吗?”

“不知道,”乔治说,听起来非常确定。他和机器人在把书作为新的对话主题时来回交流得很顺畅。他们寒暄了几句,然后社交机器人说:“你知道我在想什么吗?最终,有人会成为最后一个活着的人。他们的名字不会出现在任何历史书中。“

“哦,那很难过!”乔治回答。

“我很抱歉让你心烦。你想继续讨论书吗?“

“我们来谈谈《黑暗塔》这本书。”

“对不起,我想我对《黑暗塔》这本书没什么了解。你想谈谈电影《黑暗塔》吗?“

“太好了。你看过这部电影吗?它今年上映了。“

机器人问乔治是否喜欢马修·麦康纳在电影中的表现。乔治给予了肯定。听到这个,机器人推荐了麦康纳的另一部电影《华尔街之狼》。几轮谈话之后,机器人开了个玩笑。“你知道我在想什么吗?有人该制作一个《星际穿越》Interstellar和《超时空接触》Contact的混合体,马修·麦康纳试图阻止马修·麦康纳进入太空。“

谈话的其余部分更加散漫,但很少有混乱出现。音乐,运动,10分钟。电影《黑道圣徒》The
Boondock
Saints,12分钟。圣诞老人和他在气候变化中的角色,13分钟。乔治要求机器人唱歌,15分钟。再次讨论音乐和电影,医疗保健以及比尔盖茨。计时器已经过了19分钟,谈话仍在继续。

11月28日的拉斯维加斯,作为亚马逊网络服务年度会议的一部分,数百人在Aria度假村和赌场的一个大宴会厅内登记。前排座位专门留给了Alexa
Prize决赛选手。“这是所有人的游戏,”赫瑞瓦特的莱蒙认为。马力克则在乐观和疑惑之间摇摆。方浩和他的华盛顿大学队友压力最大。是最明显的压力。亚马逊的一位人士向他们的教师顾问马雷·奥斯塔多夫暗示说团队没有获胜。

图示:华盛顿大学团队教师顾问诺亚A史密斯以及马雷·奥斯塔多夫

舞台变黑,威廉沙特纳录制的声音响了起来。“电脑吗?”他说,“请帮助我热烈欢迎亚马逊Alexa副总裁兼首席科学家Rohit
Prasad!”Prasad大步走上舞台,发表一篇关于《平台之国》的演讲——这是在成功的北方,也是接管世界的南方。然后Prasad打开了写有Alexa
Prize获奖者名字和对话时间的信封。“平均分数为3.17分,”他宣布,“平均持续时间为10分22秒……一等奖得主是华盛顿大学团队!”华盛顿大学团队队员从他们的座位上跳起来,欢呼声响彻天空。他们与奥斯塔多夫抱成了一个环形,跳着叫着。奥斯塔多夫意识到她事先得到的是垃圾情报,跳得最高。

正是华盛顿大学机器人和乔治的对话时间最长。方浩后来称之为“我们所经历过的最好对话”。最后,机器人的谈话陷进了关于医疗保健的死胡同。20分钟后两位评委按下了按钮。华盛顿大学团队走上舞台,Prasad为他们颁发了一个安慰奖——总金额为50万美元的巨型支票。方浩咧开嘴,向着相机竖起了大拇指。

Prasad然后宣布了第二名和第三名,分别是捷克技术大学和赫瑞瓦特团队,他们分别得到10万美元和5万美元的奖励。走到最后的莱蒙脸上显得有些憔悴。几天后,当亚马逊宣布2018年将有另一场Alexa
Prize竞赛时,他已经知道自己想要参与。

那么亚马逊,参赛团队和整个人工智能世界最终了解到人工编程和机器学习之间的平衡点了吗?作为胜利者的华盛顿大学团队已经找到了平衡点。与此同时,人工编程的捷克技术大学团队获得第二名。倾向于机器学习的赫瑞瓦特团队获得第三名。但如果结果看起来模棱两可,那么混合系统的胜利对于萨姆和其他人工智能专家来说是非常有意义的。萨姆说,我们刚刚开始弄清楚如何更好地结合这两种方法。

比赛中的每个团队都认为,对改进机器学习最有帮助的是更多的对话数据。最终,这是亚马逊自己的战利品。通过竞争,用户与社交机器人进行了数百万次互动,收集了超过10万小时的聊天记录,所有这些都是公司的官方财产。这场竞赛的最终赢家显而易见:亚马逊。

Post Author: admin

发表评论

电子邮件地址不会被公开。 必填项已用*标注