小故事:AlphaGo事件
2015 年深秋 • 深度学习 + 监督学习 ‑ AlphaGo 以 5:0 拿下欧洲冠军樊麾,首次在无让子正式赛中击败职业棋手,宣告“围棋堡垒”出现裂缝。
2016 年早春(3 月 9–15 日) • 深度学习 + 蒙特卡洛树搜索(MCTS) ‑ 与韩国李世石鏖战五局,4:1 胜出;李世石第四局“神之一手”成为人类最后的倔强,全球两亿观众见证历史。
2016 年冬末至 2017 年元旦 • 强化学习自我对弈雏形 ‑ 化名“Master”上线,60:0 横扫中韩日顶尖棋手快棋,人类心理防线彻底瓦解。
2017 年端午(5 月 23–27 日) • 策略-价值网络 + 分布式 MCTS ‑ 乌镇 3:0 击败世界排名第一的柯洁;柯洁泪洒现场,赛后 AlphaGo 宣布退役。
2017 年深秋 • 纯强化学习(无人类棋谱) ‑ AlphaGo Zero 论文发布:仅用 4 个 TPU、自我对弈 3 天,以 100:0 击溃所有前辈版本,实现“从零到封神”。
11.1万2715
01:30:29
【纪录片】阿尔法狗【双语特效字幕】【纪录片之家科技控】
纪录片之家字幕组· 2019-10-23
时间线的故事结束,来补点名词解释:
用一句话定义 + 一句话比喻 + 一句话应用场景,让你秒懂它们各自在 AlphaGo 里的角色。
1. 监督学习 • 定义:用大量“人类高手棋谱”作为正确答案,训练网络去模仿下一步落子。 • 比喻:老师手把手教你背棋谱,先学会“像人类”下棋。 • 场景:AlphaGo 早期策略网络的“启蒙教材”。
2. MCTS(蒙特卡洛树搜索) • 定义:在庞大的决策树里用随机模拟快速估算每条分支的胜率,挑胜率最高的走法。 • 比喻:闭着眼睛快速下完一万盘“假设局”,统计哪一步赢得多。 • 场景:AlphaGo 每下一步前,用 MCTS 把“深度学习预测”变成可解释、可控的搜索过程。
3. 强化学习 • 定义:不给标准答案,只给“输赢奖励”,让智能体自己摸索策略。 • 比喻:把狗放进迷宫,走到终点给骨头,狗会越跑越聪明。 • 场景:AlphaGo Zero 完全放弃人类棋谱,就靠输赢信号自学。
4. 策略-价值网络 • 定义:两个神经网络合体——策略网络输出“下一步落子概率”,价值网络输出“当前局面胜率”。 • 比喻:策略网络像“直觉”,价值网络像“大局观”。 • 场景:AlphaGo 用它们给 MCTS 提供“先验直觉”和“局面评估”。
5. 分布式 MCTS • 定义:把一次树搜索拆成成千上万份,放到多台机器 / 多块 GPU 并行模拟,再汇总结果。 • 比喻:1 个人想 1 万盘太慢,让 1 万人同时各想 100 盘,然后投票。 • 场景:正式比赛时,AlphaGo 背后 40-50 块 TPU 并行做分布式 MCTS,保证 2 秒内给出高质量落子。
6. 纯强化学习(无人类棋谱) • 定义:只给棋盘规则与最终输赢信号,完全从零开始自我对弈,自己发现围棋真理。 • 比喻:不给任何教材,让 AI 自己跟自己下一百万盘,结果比人类所有老师加起来还强。 • 场景:AlphaGo Zero 与之后的 AlphaZero 系列,彻底摆脱人类经验,甚至走出人类从未见过的定式。
国际米兰宣布签下瑞典中卫阿坎吉,25号球衣延续蓝色传统
罗德里成为首位夺得金球奖的90后球员