AI的演进:从AlphaGo到ChatGPT及更远

2024年11月17日
15 min read

AI的演进:从AlphaGo到ChatGPT及更远

过去八年见证了人工智能前所未有的加速发展。从2016年AlphaGo的历史性胜利,到2022年ChatGPT的病毒式爆发,再到2024年的推理突破,我们经历了一场从根本上改变了技术、社会以及我们对机器能力理解的革命。

这是那场革命的故事——一条将我们带到今天的突破性时间线。

2016年:AlphaGo时刻

2016年3月:当AI掌握了直觉

全世界目睹了AlphaGo以4:1击败历史上最伟大的围棋选手之一李世石。这不仅仅是另一场比赛——围棋长期以来被认为是人类直觉的终极考验,其可能的棋局数量超过宇宙中的原子数。

为什么重要: AlphaGo结合了深度神经网络和蒙特卡洛树搜索,证明AI可以掌握需要创造力和直觉的任务,而不仅仅是暴力计算。这是DeepMind的登月时刻,而且成功了。

影响: 激发了全球对深度强化学习的兴趣,展示了深度学习与传统AI技术的结合可以实现超人类表现。

2017年:Transformer革命

2017年6月:注意力机制就是一切

Google的一个团队发表了一篇标题大胆的论文:"Attention Is All You Need"(注意力机制就是一切)。他们引入了Transformer架构,用自注意力机制取代了循环神经网络。

为什么重要: 这篇论文为之后的一切奠定了基础——GPT、BERT、T5以及每一个现代大语言模型。Transformer的并行处理使得在海量数据集上高效训练成为可能。

影响: 一夜之间改变了整个NLP领域。2017年以来的每一个主要语言模型都基于Transformer。

2018年:预训练范式

2018年6月:GPT-1诞生

OpenAI发布了GPT-1,展示了在大型文本语料库上进行无监督预训练,然后进行监督微调,可以在各种NLP任务上取得强大性能。

为什么重要: 开启了GPT系列,建立了将主导NLP的预训练+微调范式。

2018年10月:BERT的双向突破

Google发布了BERT(Bidirectional Encoder Representations from Transformers,来自Transformer的双向编码器表示),在11个NLP任务上取得了最先进的结果。

为什么重要: 第一个有效使用双向上下文的模型,实现了对语言的更深理解。BERT的掩码语言建模方法产生了巨大影响。

影响: 在NLP领域设立了新基准,影响了无数后续模型。

2019年:规模化开始

2019年2月:GPT-2与"太危险"时刻

OpenAI发布了拥有15亿参数的GPT-2,最初因担心滥用而保留了完整模型。它可以生成非常连贯的长文本。

为什么重要: 展示了扩大语言模型规模会带来涌现能力。"太危险而不能发布"的决定引发了关于AI安全的重要讨论。

影响: 向世界展示了AI可以生成类人文本,既引发了兴奋也带来了担忧。

2020年:巨大飞跃

2020年5月:GPT-3改变一切

OpenAI推出了拥有1750亿参数的GPT-3。它可以仅用几个示例(少样本学习)执行任务,无需任何微调。

为什么重要: 证明了扩展到1750亿参数会解锁质的新能力。GPT-3可以编写代码、创作诗歌、回答问题等等——所有这些都只需要几个示例。

影响: 改变了公众对AI能力的认知。启动了围绕LLM的API经济,激发了无数应用。

2020年11月:AlphaFold 2解决生物学的重大挑战

DeepMind的AlphaFold 2解决了50年之久的蛋白质折叠问题,以原子级精度从氨基酸序列预测3D蛋白质结构。

为什么重要: 解决了生物学的重大挑战之一,准确度可与实验方法媲美。

影响: 对药物发现、疾病理解和生物学研究具有革命性意义。获得了2024年诺贝尔化学奖。

2021年:多模态时代

2021年1月:CLIP连接视觉与语言

OpenAI发布了CLIP(对比语言-图像预训练),在4亿图像-文本对上训练,从自然语言学习视觉概念。

为什么重要: 第一个具有强大零样本能力的大规模视觉-语言模型。实现了通过文本理解图像。

影响: 成为DALL-E、Stable Diffusion和整个文本生成图像革命的基础。

2021年1月:DALL-E从文字创造艺术

OpenAI推出了DALL-E,使用120亿参数模型从文本描述生成高质量图像。

为什么重要: 开创了大规模文本生成图像,展示了AI可以具有创造力。

影响: 民主化了AI艺术,激发了Stable Diffusion、Midjourney和无数其他工具。

2021年7月:Codex驱动GitHub Copilot

OpenAI发布了Codex,一个在代码上微调的GPT模型,在HumanEval基准上达到37%。

为什么重要: 第一个真正有效的实用AI编程助手。

影响: 推出了GitHub Copilot,改变了软件开发。数百万开发者现在使用AI辅助编程。

2022年:ChatGPT革命

2022年3月:InstructGPT与RLHF

OpenAI发表了InstructGPT,使用人类反馈强化学习(RLHF)使GPT-3与人类意图对齐。

为什么重要: 确立了RLHF作为AI对齐的标准,使模型更有帮助、更诚实、更无害。

影响: 使GPT-3真正有用,为ChatGPT奠定了基础。

2022年8月:Stable Diffusion开源

Stable Diffusion作为开源文本生成图像模型推出,效率足以在消费级GPU上运行。

为什么重要: 第一个开源的竞争性文本生成图像模型,民主化了AI艺术。

影响: 实现了广泛采用,催生了无数应用,从艺术工具到视频生成。

2022年11月30日:ChatGPT病毒式传播

OpenAI推出了ChatGPT,将GPT-3.5与RLHF结合创建对话式AI。5天内达到100万用户。

为什么重要: 将AI带入主流意识。历史上增长最快的消费应用。

影响: 改变了数十亿人对AI的思考和互动方式。引发了当前的AI热潮,改变了无数行业。

2023年:竞争与开源

2023年2月:LLaMA推动开源AI

Meta发布了LLaMA模型(70亿-650亿参数),与GPT-3竞争,同时更小且开源。

为什么重要: 推动了开源AI运动,民主化了LLM研究。

影响: 催生了Alpaca、Vicuna和无数开源模型。使AI研究对所有人开放。

2023年3月:GPT-4提高标准

OpenAI发布了GPT-4,第一个接受文本和图像的多模态GPT模型。它在律师资格考试中排名前10%。

为什么重要: AI能力、推理和安全性的重大飞跃。展示了相比GPT-3.5的显著改进。

影响: 为各种任务的AI性能设定了新标准,从编程到创意写作到复杂推理。

2024年:推理与实时AI

2024年3月:Claude 3匹敌GPT-4

Anthropic发布了Claude 3系列(Haiku、Sonnet、Opus),上下文窗口高达20万。Opus在大多数基准上匹敌或超越GPT-4。

为什么重要: 展示了非OpenAI模型可以匹敌GPT-4,增加了竞争。

影响: 推动了创新,为用户提供了更多高质量AI助手的选择。

2024年5月:GPT-4o带来全模态AI

OpenAI推出了GPT-4o('o'代表omni全能),原生处理文本、音频和视觉,实现实时语音对话。

为什么重要: 第一个真正的全模态模型,具有自然的实时能力。

影响: 实现了具有情感理解的自然语音对话和高级多模态应用。

2024年9月:o1引入推理时间

OpenAI发布了o1,第一个具有扩展推理能力的模型,使用思维链解决复杂问题。

为什么重要: 新范式——推理时间vs训练时间。在物理、化学和生物学上达到博士级表现。

影响: 展示了给模型时间"思考"可以显著提高复杂任务的性能。

关键主题:我们学到了什么

1. 规模定律有效

从GPT-2的15亿到GPT-3的1750亿参数,我们了解到更大的模型会解锁新能力。但这不仅仅关于大小——还关于正确的架构、数据和训练方法。

2. 注意力机制是基础

2017年引入的Transformer自注意力机制仍然是所有现代AI的基础。它优雅、可并行化且极其有效。

3. 迁移学习强大

在海量数据集上预训练然后微调已成为标准方法。模型首先学习通用知识,然后专业化。

4. 多模态是未来

从CLIP到GPT-4o,我们已从纯文本转向视觉、音频及更多。未来是全模态的。

5. 对齐很重要

RLHF和其他对齐技术对于使AI有用和安全至关重要。该领域已从"我们能构建它吗?"成熟到"我们应该构建它吗?"

6. 开源推动创新

LLaMA、Stable Diffusion和无数开源模型民主化了AI,以前所未有的规模推动创新。

对社会的影响

AI革命已经改变了:

  • 工作: 从编程助手到内容创作,AI正在增强人类能力
  • 创造力: AI艺术、音乐和写作工具民主化了创意表达
  • 教育: 大规模个性化辅导和学习援助
  • 研究: 从蛋白质折叠到药物发现,AI加速科学进步
  • 沟通: 实时翻译和转录打破语言障碍

未来展望

展望未来,几个趋势正在出现:

  1. 推理模型: o1展示了推理时间很重要。期待更多在回应前"思考"的模型。

  2. 多模态集成: 在单个模型中无缝集成文本、视觉、音频和视频。

  3. 个性化: 从你那里学习并适应你需求的AI助手。

  4. 专业化模型: 针对医学、法律、科学等的领域特定模型。

  5. AI代理: 从聊天机器人到可以计划、执行和学习的自主代理。

  6. 效率: 在设备上运行的更小、更快的模型,而不仅仅在云端。

结论

从AlphaGo的直觉游戏到ChatGPT的对话能力再到o1的推理能力,我们见证了非凡的演进。每一个突破都建立在前一个之上,创造了一个复合效应,加速了超出大多数人预测的进步。

我们还没有到达这段旅程的终点——我们仍在早期章节。下一个突破正在世界各地的实验室中开发。问题不是AI是否会继续进步,而是我们将如何利用这些能力造福人类。

AI革命已经到来。而且才刚刚开始。


想要了解最新的AI突破?关注AIPOD获取精选的AI研究、工具和见解。