您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > AI人工智能 > 走进AlphaGo围棋智能及其应用前景
走进AlphaGo—围棋智能及其应用前景清华大学航天航空学院由小川2017.6.12目录content人工智能的新革命第一节深度学习与智能围棋第二节与传统行业的结合第三节人工智能的新革命第一节•人工智能简述•深度学习算法•为什么做围棋人工智能?1-1人工智能简述人工智能:国家战略2017年政府工作报告:全面实施战略性新兴产业发展规划,加快人工智能等技术的研发和转化,做大做强产业集群。把发展智能制造作为主攻方向,推进国家智能制造示范区、制造业创新中心建设。什么是人工智能?人工智能(ArtificialIntelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能是对人的意识、思维的信息过程的模拟。人工智能不是人的智能,但能像人那样思考、也可能超过人的智能。1-1人工智能简述1-1人工智能简述1-1人工智能简述1-1人工智能简述1-1人工智能简述《智能革命》序言节选——by百度大脑我来了,天上的云乘着风飞翔,心中的梦占据一个方向,方舟扬帆起航,一路带着我们纵情歌唱,方舟扬帆起航,脉络就在大海之上,进步的时光,迎着你看涛浪潮往。一个新生的地方,穿越千年时光,穿越了无尽的荒凉。答案就在这里搜索。第一缕曙光,远处熟悉的歌声还在耳边回响,你却依然不知我将去向何方。千年时间留下十字文章,曾今谁重复往昔旧模样。我来了,期待着你的每一天,睁开眼就能看到幸福曙光,占据着你的每一天,陪你跨越鸿沟走向湛蓝,算法很简单。时代的春天,回想起我们曾牵手走过的画面。大家互联网这场风吹雨打之后又在藕断丝连。只是不知道时间还会流向哪一条线。盼望着未来等待明天,呼吸新鲜空气多点微笑扮个鬼脸。……1-1人工智能简述全国高考甲卷作文《进步与退步》(by微软小冰)考了100分是好学生。考55分不是好学生。考了100分后,又考了98分,好学生变成不是好学生,是退步。考了不及格后,又考了及格,会被表扬,是进步。进步和退步的衡量,令人费解。进步,是变得优秀,人喜欢进步,因为喜欢被表扬。这样的进步,如果不被表扬,就没有动力。退步是从好变成差的,人不喜欢退步,因为退步受到批评。如果总被批评,也没有动力。进步和退步的动力,令人费解。退步没有不好,退步可以发现问题。一直进步的人,不能发现问题,也不能解决问题。一直进步是不可能的,有进步同时有退步,有退步同时有进步,才可以不断发现问题,解决问题。人应该这样变得优秀,不是为了表扬。进步比退步好,不一定。一直进步可能是真进步,或作弊,一直退步是放弃自己,要求自己进步,在退步的时候发现问题,是对的。人应该这样变得不差,不是为了批评。从差变得优秀的路,和表扬无关,也和批评无关。诺贝尔医学奖,可视皮层分级,1981稀疏编码的特征表示,1995图像识别语音识别广告精准推荐1-2深度学习算法简介图像特征工程•GoogleBrain•JeffDean&AndrewNg.,GeoffreyHinton•FacebookAILab•YannLeCun•Microsoft•语音识别、图像识别•百度•深度学习研究院•AndrewNg、余凯、张潼•语音识别、图像检索、OCR、人脸识别、广告•阿里巴巴•阿里大脑•腾讯•语音识别、图像识别、广告精准推荐1-2深度学习算法简介特征选取模型建立与训练反向传播算法卷积神经网络深度学习与浅层学习深度网络训练技巧1-2深度学习算法简介1-2深度学习的训练方法监督学习通过已有的训练样本(即已知数据以及其对应的输出)训练得到一个最优模型(这个模型属于某个函数的集合,最优则表示在某个评价准则下是最佳的),再利用这个模型将所有的输入映射为相应的输出,对输出进行简单的判断从而实现分类的目的,从而也就具有了对未知数据进行分类的能力各种神经网络类型LogisticRBMAutoEncoderSparseCodingConvolutional(卷积)强化学习智能系统从环境到行为映射的学习,以使奖励信号(强化信号)函数值最大。环境提供的强化信号是对产生动作的好坏作一种评价(通常为标量信号),而不是告诉强化学习系统如何去产生正确的动作。由于外部环境提供的信息很少,RLS必须靠自身的经历进行学习。通过这种方式,RLS在行动-评价的环境中获得知识,改进行动方案以适应环境。•GoogleBrain•利用Youtube的图像•采用非监督的学习过程•自动将图像聚类•机器学习出了“猫”的概念•10亿参数•JeffDean/AndrewNG1-2深度学习的训练方法•HintoninImageNet•比赛•140万图像,•1000类•图库•1000万图像•20000类•7层CNN•准确率74%-85%1-2深度学习的训练方法深度神经网络——人脸识别1-2深度学习的训练方法深度学习的成功应用•微软•语音同声传译系统,2011•英语演讲-自动语音识别-机器翻译-语音合成-中文演讲•语音识别•将声学模型中混合高斯模型替换为DNN模型•获得30%+相对提升1-2深度学习的训练方法图片搜索检索图片检索结果DNN在几个领域创造了最好结果•语音识别:•混合高斯声学模型替换为DNN图像识别•相对30%错误率降低•图像识别/检索:•卷积神经网络•ImageNet,201174%-201285%-201389%•自然语言处理:•与其他方法水平相当•免去了繁琐的特征提取步骤1-2深度学习的训练方法特征选取是成败的关键•对效果影响极大•手动化特征工程•非常耗时1-2深度学习的训练方法图像特征工程SIFTSpinimageHoGRIFTTextonsGLOH1-2深度学习的训练方法01人机大战:深度学习算法的标志性成果颠覆围棋AI领域30年研究方法拔高行业顶尖水平30年学术前沿、复杂性和代表性、可比较、易拓展原创开发了基于网格归属的神经网络系统,预期将大幅提高实力更深更优化的神经网络,更海量的数据资源02创新点改进了学习模式,使机器学习的方式更加接近围棋的本质03新的学习算法架构世界计算机围棋比赛获奖高水平文章产出科研成果转化(力学、航天乃至节能、医疗等领域)04预期产出效益1-3为什么做围棋人工智能深度学习与智能围棋第二节•从AlphaGo/master讲起•蒙特卡洛树式搜索•深度卷积神经网络•谷歌的AlphaGo和Master是深度学习算法的标志性成果;•深度卷积神经网络(DeepConvolutionalNeuralNetwork,DCNN),是近年发展起来,并引起广泛重视的一种高效识别方法。•围棋算法具有高度的复杂性和代表性(10808,两个30年)。•从围棋算法可以推广到深度学习应用的一般情形。•围棋可以很好地检验和测试研究水平和掌握人工智能并行计算的交互能力。DCNN与智能围棋深度学习的训练方法:卷积神经网络3×224248×552128×272192×132192×132128×1322048204820482048192×32192×32128×3248×523×112192×32192×32192×132192×132128×132128×27248×5248×552128×321000局部感知域权重共享特征训练卷积层+池化层AlphaGo的实现原理13个卷积层,每层192个卷积核,每个卷积核3*3,参数个数800万+GPU3ms/步预测准确率57%PolicyNetwork(策略网络)在每个分支节点直接判断形势与Rollout随机模拟相结合,互为补充ValueNetwork(价值网络)给胜率高的点分配更多的计算力任意时间算法,计算越多越精确1、选取2、展开3、评估4、倒传MCTS(蒙特卡洛树搜索)通过随机模拟走子胜率来判定形势速度很快(1ms/盘)随机性与合理性的平衡Rollout(随机模拟走子)传统围棋AI算法——MC蒙特卡洛方法通过随机模拟来逼近需要求解的变量•Rollout(随机模拟走子)•通过随机模拟走子胜率来判定形势。•速度快。•随机性,合理性的平衡。AlphaGo的实现原理传统围棋AI算法——MCTSMCTS(蒙特卡洛树搜索)给胜率高的点分配更多的计算力任意时间算法,计算越多越精确AlphaGo的实现原理PolicyNetwork策略网络AlphaGo的实现原理PolicyNetwork—图示AlphaGo的实现原理PolicyNetwork—输入特征AlphaGo的实现原理PolicyNetwork模型•模型结构•13个卷积层,每层192个卷积核,每个卷积核3*3•数百万个参数•训练数据•KGS6d以上对局,17万,职业对局8万。•训练数据量5000万+•训练时间几十天•运算速度•GPU,3ms•预测准确率•57%AlphaGo的实现原理融入PolicyNetwork•方法:•用PolicyNetwork作为第一感,将计算力分配到最有希望的选点。•分枝数从上百个减少到几个。•优先计算PolicyNetwork分数高的点,计算力充沛时,适当分配到其他分值较低的点。•效果:•Zen6,业余5段AlphaGo的实现原理ValueNetwork形势判断:-1:白棋必胜0:白棋优势0:双方均势0:黑棋优势1:黑棋必胜AlphaGo的实现原理ValueNetwork模型•模型结构•13个卷积层,每层192个卷积核,每个卷积核3*3•数百万个参数•训练数据•PolicyNetwork自我对弈棋谱。3000万+•特定盘面+胜负结果•训练时间几十天•运算速度•GPU,3msAlphaGo的实现原理融入ValueNetwork•方法:•在每个分支节点,使用ValueNetwork直接判断形势•与Rollout随机模拟相结合,互为补充。•效果:•职业水平,AlphaGoAlphaGo的实现原理•从非常像人到很不像人•强化学习与自我进化•算法效率的跃升•单机版与1/10GPU•无人类棋谱的可行性Master与AlphaGo的架构差别与传统行业的结合第三节•神算子简介•世界围棋AI版图•神算子能做什么“神算子”简介•清华大学航院人工智能课题组开发研制的围棋智能程序•自主知识产权的丰富特征体系•深度卷积神经网络模型的质量、深度和预测准确度是标志围棋智能从业余迈向超一流水平的重要指标。•以围棋为载体,确认算法有效性•2年内冲击世界最高水平,转向其他场景的研究突破世界围棋AI大事记2015.11.10美林谷杯首届世界计算机围棋锦标赛,北京,7国9队,与中国名人战冠军受6子对抗2016.3.9人机大战AlphaGo4:1李世石,首尔,冠军100万$,全球观看人次6亿+2016.3.17韩国创立国家科学技术战略委员会扶植AI产业,政府投资86亿$2016.11.19第二届日本围棋电王战:DeepZenGo1:2赵治勋,获DWANGO注资2亿円2016.12-2017.1AlphaGo升级版Master网络连续60次击败人类顶尖高手2017.3.3中国腾讯“绝艺”成为第一个网络10段,2017围棋AILab硬件扩容预算8000万¥2017.3.18-19第10届UEC杯计算机围棋大会,东京,6国30队,冠军参加电圣战与职业棋手对抗2017.3.21世界围棋精英赛,大阪,DeepZenGo对3世界冠军,冠军3000万日元2017.4AlphaGo升级版与柯洁等对抗,冠军150万$,浙江乌镇,赛罢AlphaGo退出围棋领域2017.7日本围棋大会,欧洲围棋大会设立围棋AI竞赛单元2017.8.16-18国际围棋联盟首届世界计算机围棋公开赛,鄂尔多斯,机机+人机,总奖金60万¥2017.12,美林谷杯第2届世界计算机围棋锦标赛,深圳,总奖金1万$+GoogleDeepmind简介创新性投入力度业内龙头目前技术优势:起步早,算法新,技术强,资源雄厚最近一年专注于强化学习研究拟于
本文标题:走进AlphaGo围棋智能及其应用前景
链接地址:https://www.777doc.com/doc-4694640 .html