您好,欢迎访问三七文档
当前位置:首页 > 机械/制造/汽车 > 综合/其它 > 先进制造-ALPHAGO
先进制造·ALPHAGO计算机学院陈冬秦明阳周海龙1939年美国纽约世博会上展出了西屋电气公司制造的家用机器人Elektro。它由电缆控制,可以行走,会说77个字,甚至可以抽烟,不过离真正干家务活还差得远。但它让人们对家用机器人的憧憬变得更加具体。1942年美国科幻巨匠阿西莫夫在《IRobot》一书中给机器人赋予了伦理性纲领,提出“机器人三原则”。虽然这只是科幻小说里的创造,但后来成为学术界默认的研发原则。1954年美国人乔治·德沃尔制造出世界上第一台可编程的机器人,并注册了专利。这种机械手能按照不同的程序从事不同的工作,因此具有通用性和灵活性。20世纪60年代中期开始,美国麻省理工学院、斯坦福大学、英国爱丁堡大学等陆续成立了机器人实验室。美国兴起研究第二代带传感器、“有感觉”的机器人,并向人工智能进发。1948年诺伯特·维纳出版《控制论》,阐述了机器中的通信和控制机能与人的神经、感觉机能的共同规律,率先提出以计算机为核心的自动化工厂。机器人的分类工业机器人家用机器人智能机器人目前机器人最新发展水平AlphaGo人工智能的胜利?人类已被机器打败?AlphaGo原理简析•AI中的围棋•卷积神经网络•蒙特卡洛树搜索背景知识•走棋网络•快速走子•估值网络•蒙特卡洛树搜索AlphaGo四大结构•AlphaGo•评价系统整合背景知识蒙特卡洛树搜索(MCTS)Montecaroltreesearch掀起围棋领域革命•2006年,雷米·库洛姆(RemiCoulom)描述了蒙特卡洛方法在游戏树搜索的应用并命名为蒙特卡洛树搜索•Multi-armedbanditProblem.四个步骤selectionexpansion四个步骤simulationupdatepros•没有任何人工的feature,完全依靠规则本身,通过不断想象自对弈来提高能力。•MCTS可以连续运行,在对手思考对策的同时自己也可以思考对策。cons•初始策略太简单,低效。AlphaGo四大结构•走棋网络•快速走子•估值网络•蒙特卡洛树搜索走棋网络(SL)policynetwork•结构:深度卷积神经网络•Width:192Accuracy:57%•SL,Non-search•Trainingset:KGSGoserver高手对局•把当前局面作为输入,预测下一步的走棋。它的预测不只给出最强的一手,而是对棋盘上所有可能的下一着给一个分数。•目标:符合高手出棋•Pros:棋感•Cons:无谓劫杀、对杀出错。(原因:没有价值判断功能)左右互博,自我进化•强化学习(RL)Agent通过和环境s的交互,选择下一步的动作a,这个动作会影响环境s,给Agent一个reward,Agent然后继续和环境交互。根据游戏结果迭代更新转移概率和评估函数。走棋网络(RL)policynetwork•结构:深度卷积神经网络(与SL完全相同)•训练方法:自我对局•目标:校正价值导向•将SL权值作为初始值,自我对弈更新权值,从而提升棋力•Pros:棋艺更高(win80%ofthegameswithSLpolicynetwork)•Cons:走法集中,不适应MCTS多搜索范围的需求快速走子fast-rollout•原因:1.走棋网络的运行速度较慢(3ms)快速走子在2us2.用来评估盘面。•在同等时间下,模拟走子速度快乃至使用随机走子,虽然单次估值精度低,但可以多模拟几次算平均值,效果未必不好。提升棋力。•结构:局部特征匹配+线性回归•特征:围棋专业知识•Accuracy:24.2%•Level:3dan估值网络valuenetwork•目标:预测当前局面取胜可能性•结构:深度卷积神经网络•Trainingset:RL走棋网络生成的自我对局每一盘棋只取一个样本来训练以避免过拟合•评估当前局面下双方的胜败可能性。•与快速走子对盘面估计互补开局:和气,估值网络会比较重要复杂局面:通过快速走子估计盘面•完全没有做任何局部死活/对杀分析,brute-force蒙特卡洛树搜索MCTS•基本使用传统方法•将整个系统连接起来•改进“随机掷骰子”:先考虑DCNN认为比较好的着法•探索足够多次数后,选择更相信探索得来的胜率值优点:灵活、避免漏着。•Detail:搜索到叶子节点时,没有立即展开叶子节点,而是等到访问次数到达一定数目(40)才展开,这样避免产生太多的分支,分散搜索的注意力,也能节省GPU的宝贵资源,同时在展开时,对叶节点的盘面估值会更准确些。AlphaGo的算法秘密棋局评估器(PositionEvaluator)阿尔法围棋(AlphaGo)的第二个大脑相对于落子选择器是回答另一个问题。不是去猜测具体下一步,它预测每一个棋手赢棋的可能,在给定棋子位置情况下。这“局面评估器”就是“价值网络(ValueNetwork)”,通过整体局面判断来辅助落子选择器。这个判断仅仅是大概的,但对于阅读速度提高很有帮助。通过分类潜在的未来局面的“好”与“坏”,AlphaGo能够决定是否通过特殊变种去深入阅读。第一大脑:落子选择器(MovePicker)阿尔法围棋(AlphaGo)的第一个神经网络大脑是“监督学习的策略网络(PolicyNetwork)”,观察棋盘布局企图找到最佳的下一步。事实上,它预测每一个合法下一步的最佳概率,那么最前面猜测的就是那个概率最高的。这可以理解成“落子选择器”。左右两个大脑阿尔法围棋(AlphaGo)是通过两个不同神经网络“大脑”合作来改进下棋。这些大脑是多层神经网络跟那些Google图片搜索引擎识别图片在结构上是相似的。它们从多层启发式二维过滤器开始,去处理围棋棋盘的定位,就像图片分类器网络处理图片一样。经过过滤,13个完全连接的神经网络层产生对它们看到的局面判断。这些层能够做分类和逻辑推理。这些网络通过反复训练来检查结果,再去校对调整参数,去让下次执行更好。这个处理器有大量的随机性元素,所以人们是不可能精确知道网络是如何“思考”的,但更多的训练后能让它进化到更好。
本文标题:先进制造-ALPHAGO
链接地址:https://www.777doc.com/doc-4693424 .html