AlphaGo的学习 *** 则迥然不同 。它通过一种双管齐下的深度学习 *** “学习”,用“价值网络”评估局面,用“策略网络”选择走棋 。
深度学习神经网络的训练,一部分通过使用人类高手对弈数据集的监督学习进行(总出棋数约为3000万步),另一部分通过对自我对弈非监督强化学习进行(模拟成千上万场随机比赛) 。它不使用预测搜索,走棋是单个“围棋局面”整体评估的结果 。
2017年5月,在中国乌镇围棋峰会上,AlphaGo的升级版AlphaGo Zero,与世界排名第一的围棋冠军柯洁对战,结果以3∶0的总比分完胜 。
令人震惊的是,AlphaGo Zero一开始并没接触过人类棋谱 。它使用了新的强化学习 *** ,从单一神经网络开始,通过神经网络强大的搜索算法,进行自我对弈训练 。随着自我对弈次数的增加,神经网络逐渐调整,提升预测下一步的能力,最终成为具备超强棋力的“选手” 。更为厉害的是,随着训练的深入,AlphaGo Zero还独立发现了游戏规则,走出了新策略,为围棋这项古老游戏带来了新见解 。
目前,深度学习在许多领域取得了技术性突破,并展示了极佳效果 。然而,它仍存在一些局限:理论研究缺乏、无监督学习能力弱、缺少逻辑推理和记忆能力等 。
深度学习对未来社会发展具有重要意义,需要不断深入研究,从多方向多角度更全面地开发深度学习的潜在价值 。面对复杂的战场,以深度学习为代表的人工智能技术也已逐步渗透到军事领域,深刻影响着人类战争 。
可以推断,未来作为“左右互搏术”的深度学习,必将继续升级演化,开启更高深的境界 。
来源: *** 报
推荐阅读
- 荣耀v30跟nova6屏幕有什么区别,哪个好点?
- 汽车的传感器有哪些?汽车的传感器坏了对车有什么影响
- 湖南自考网 湖南自考网成绩查询入口
- 河南省高考志愿填报系统入口 湖南高考志愿填报系统入口学生版
- 硕士论文开题报告查重吗 硕士论文开题报告模板范文
- 广东省自学考试管理系统
- 如何看待大街小巷药店越开越多?对医院有影响吗?
- 女孩圆脸适合什么发型 圆脸女孩适合的发型没有刘海
- 冯巩相声小品全集朋友欢迎您 冯巩相声小品全集高清