Master连战60场不败神话刮起的旋风,带给人类的思考才刚刚开始。
2016年12月29日晚起到2017年1月4日晚,一个名为“Master”的神秘账号对战人类围棋界顶尖高手,战绩是60胜0负。
截至2017年1月3日夜,挑落“当今围棋第一人”之称的柯洁后,master已经斩获了50连胜,击败15位世界冠军。2017年1月4日,Master第52盘以和棋结束,并不是Master不敌对手,是因为网络掉线的原因系统判为和棋。
2017年1月4日,“Master”继续在野狐围棋网上挑战顶尖高手,久不出山的“棋圣”聂卫平下午应战,同样告负。比赛结束时,Master甚至打出了“谢谢聂老师”。
1月4日晚,谷歌DeepMind发布公告,正式承认,网络账号Master(之前叫Magister)背后正是AI机器人AlphaGO。
最终统计结果是,大师(Master)击败60胜0败,战胜的棋手名单中,包括11位中国世界冠军,5位韩国世界冠军。
谷歌DeepMind 团队发布声明,表示这次挑落过半围棋世界冠军的挑战行动“是一次非正式测试”。
围棋界的灭顶之灾
在这次的新闻轰炸中,吸引我注意的是围棋界人士对这次灭顶之灾的反思。
柯洁:人类数千年的实战演练进化,计算机却告诉我们全都是错的。我觉得,甚至没有一个人沾到围棋真理的边。
檀啸:颠覆过去的走法,我没有下好,很快就不行了。如果是慢棋,让先还可以下;要是快棋,让先也赢不了。电脑的走法我们过去没有想过,可能会继续提升思考的空间,总结一下它为什么这么下。其实到现在,很多下法我们仍然不太理解。
古力:那些经验有可能是错的,但也并非全部,可能有些地方是错的。围棋中,有很多定式,这些定式延续了很多年。近几十年来,日本围棋发明了一些定式,但到我们现在的棋手看来,有些定式会有些问题。但这次的人工智能,把很多定式都颠覆了。
聂卫平:Master颠覆了多年的定式,而且最后证明他的选择都成立。
经验可能是错的/颠覆以前的认知/很多下法我们都不理解/把很多定式都颠覆了/抉择是错误的……这说明了什么?
棋路本质是运算;人类没有穷尽所有可能的“定式”;人工智能展现的超强学习和思考能力。
人类已知的围棋“定式”,并不是围棋的所有“定式”。简单说,就像日本棋圣藤泽秀行九段的话是:“棋道一百,我只知七。”
围棋一度被视为人类智慧最后的堡垒,原因是围棋的变化极为复杂,19*19个交叉格子上361个点位上的所有变化,人类是难以穷尽的,从各位棋手的点评就可以看出来。也就是说,人类总结的经验都是不完全信息上的经验。
在人类没有尝试的其他更多的“定式”中,却隐藏着可能获胜的机会。而“算计”正是计算机的强项,而人类大脑同时处理的信息是有限的,思考的棋路也是有限的,现代计算机却可以超越人类的计算速度。
人工智能中的人类智慧
阿尔法狗的背后首先是英国人工智能公司DeepMind开发的神经网络系统,这是一个由许多个数据中心做为节点相连,每个节点内有着多台超级电脑的神经网络系统,就像100亿个人脑神经神经元所组成链接一样神经网络在工作。除此以外,这套系统还借鉴了深度强化学习(Deep Q-Learning,DQN)技巧,依据的是心理学中行为主义理论,人类面在接受外在刺激时,在不同的奖励或者惩罚机制下,强化学习行为和结果。
比如在奖励和鼓励情况下,人就更加努力的学习,学习的结果就更好。不仅如此,AlphaGo 还借鉴了蒙地卡罗树状搜索演算法(Monte Carlo Tree Search),在判断当前盘面的效用函数(value function)和决定下一步的策略函数(policy function)上,更加有效。
在结合人类专家的信息处理体系并在不断的和自己下棋(Self-Play)中使用着精良的算法不断强化学习,你让人类怎么办?
人类认知和思维的不完全
人类的理性和智慧是自己引以为傲、凌驾于万物之上的资本,事实如此吗?
人类出生起就在开始认识这个世界,经常使用的就是“假设-验证”过程,不完全归纳法也是是人类最常用“假设-验证”方法。
最简单的例子是,人们一直认为:天鹅是白的。直到1697年,探险家在澳大利亚发现了黑天鹅,现在人们知道了天鹅有白色的和黑色的。但是这对不对呢?如果有一天发现了世界上有粉天鹅呢?
我们经常使用不完全归纳法。很多的公理、定理、模型、理论,大部分还是在不完全归纳的基础上。
为了更好地认识世界,我们人类借助经验、观察、类比、实验进行推理,并且建立一系列“知识体系”。概率和统计、几何、微积分,物理三大定律等等,看起来严密数学理论,依然是在不完全归纳的基础上。从地心说到日心说,从微观世界的量子理论刷新了宏观世界的经典物理理论,伟大的哥德巴赫猜想,任何一个偶数都是由两个质数组成的,还没有完全被证明。所有这些知识,只是描述世界的一种理论模型,而不是世界万物本身。
虽然人类的认知还包括语言理解、感觉、判断、社交等,看起来人类思维非常复杂,似乎难以超越。但是这些看起来高大上的思考过程,其实充满了无数的认知偏见。诺贝尔经济学家卡曼妮总结了数十种,比如基本归因错误、自利偏见、锚定效应、控制错觉、易得性偏见等等。
就目前的理论,我们人类的大部分认知都是后天习得的,既然是后天习得的,那么机器人为什么不可能?AI掌握国际象棋用了接近10年,学习围棋已经不到10个月,人类的进化速度是否赶超AI的进化与学习?
AI已经入侵的人类顶级工作领域
1、投资交易领域。
人类使用经济数据和决策模型进行投资分析,人工智能应该早有涉猎。2016年上半年,Ben Goertzel和他的创业公司Aidyia将他们管理的对冲基金里所有的股票交易完全交给人工智能来完成,上线的第一天就获得了2% 的回报。文艺复兴基金等已经开始大量使用机器学习技术进行策略建模,而他们使用的技术和阿尔法狗的人工智能技术是类似的。
美国旧金山Sentient Technologies公司开发的自动交易系统。
系统会从网上的数据中心、网吧、游戏服务器等地几百万个处理器中抓取闲置的计算能力来进行学习和计算,从中选出”优秀学生”,再用他们的“基因”创造出一个最好的“学生”,万亿次的竞争与淘汰后,就可以获得一批聪明的交易员来帮基金进行交易。
2、疾病诊断与治疗方案。
依靠经验的名医们也将面临挑战。在美国北卡罗来纳大学医学院,IBM的Watson能够在99%的情况下推荐与人类专家相同的癌症治疗方案,甚至在30%的病例中提供了医生先前没有提出的治疗选择。据专家分析,Watson的强项包括但不限于理解自然语言、大数据分析、动态分析各类假设、精细的个性化任分析能力、优化解决方案以及迭代学习能力。一句话,人类能做的似乎它都能。
3、机器人写手。
美国加州周2014年3月18日当地时间早晨发生4.4级地震,《洛杉矶时报》是第一家报告这次地震的媒体。据悉,《洛杉矶时报》能拔得这个头筹则是靠了“机器人写手”,将数据输入事先准备好的模板,三分钟就完成并发表在《洛杉矶时报》的网站上。雅虎和美联社相当一部分财经报道和体育新闻都是机器人写的,使用的是WordSmith系统,只要导入最新的数据,1 分钟最快可以生成2000 篇报道。2015年9月10日,腾讯也曾经发布机器人撰写的稿件。
国内开发的写作软件,不是已经成就了很多名作家名编剧吗?没准你现在正在读动辄的200万字的小说,就是写作模板的杰作。
4、诗歌和小说。
如果你说以上新闻写作有套路,很容易。那么请看:据悉,获得雨果奖的科幻作家刘慈欣,曾在2006年设计出一款写诗软件。
日本由人工智能创作的4部作品,参加了“星新一文学奖”评选,其中部分创作的短篇小说通过了日本文学奖初审,虽然最终并未获奖。
Moogfest音乐科技节上,谷歌的Magenta团队现场展示人工智能的作曲能力;百度人工智能将美国艺术大师罗伯特·劳森伯格《四分之一英里画作》的其中两联分别谱成了20余秒的钢琴曲。微软小冰萌演唱的《隐形的翅膀》听过没?小冰为湖南卫视演唱的《夏日甜心》主题曲已经获得了近50万的观看量。俄罗斯开发的Prisma的应用程序,模仿梵高(Vincent Van Gogh)和爱德华·蒙克(Edvard Munch)技巧。
如何帮助人类
Master让我们感受到了人类能力的极限和人类的不完美。各位棋手感受到了人工智能超越人类计算和思考的所能达到的范围之外,普通人不知道是不是能够感受到这一切?我们对世界的认识仍然不完美,我们接受和处理信息的容量和速度有限,我们有情绪和心理干扰影响,我们的决策充满各种风险甚至带来灾难性的后果。在理性层面,我们整个的认知、思维、决策中存在很多缺陷,我们大多数时候还是生活在懵懂无知中。
人类的学习过程,每个人几乎都是从零开始,由于知识积累和要学习的东西越来越多,人类成熟的年龄越来越大。人类的寿命也是有限的,博士妈妈不可能把自己拥有的知识和能力一键转移到婴儿的头脑里。
而人工智能的发展速度是惊人的,2014年AIE实验室研究团队从信息知识的输入,输出,掌握和创新等4个大类,对世界50个搜索引擎进行了”人工智能智商测试“,测试结果发现最高的谷歌只有26.5分,但是2016年2月再次测试的结果是已经达到了47.28分,与人类6岁儿童的智商差距也由29分缩小至8.22分。
创意和灵感,看似是AI不具备的,不可学习不可传授,其实也只是一个文化神话而已。音乐机器人、写作机器人都可以做到。另外,对于一件事物是否具有创意,人类的评价能力也还不能达到足够的高度,创新事物是否被认可和流传下来,是由很多其他因素决定的。
那么好好利用AI,服务人类的学习和成长,是不是可能呢?
比如教育。已经有围棋界人士在探讨AI进入围棋教育的可能性,那更大范围内的教育呢?因材施教,这不是几千年依赖人类梦寐以求的事情吗?现代学校不过是为了适应工业化生产的类似车间的“人才工厂”,早已被诟病。利用AI数据处理和认知、心理知识,广泛搜集学习者过去的学习数据,为他们搭建基于个人的刺激-反应模式、学习风格、思维方式的学习框架,搜索相关课程和学习资料库,甚至跟随学习者个人成长,实时跟踪学习者的成就感受、疲劳程度、动机强弱,进而调整学习计划。甚至像小冰一样,及时安慰你的失败,抚平你的情感,激发你的热情。