生成型AI：一个充满创新力的新世界

2022年可以称为生成型机器智能的元年，以Stable Diffusion, ChatGPT等为代表的内容生成型机器智能模型都可以输出有实质内容的文字，视频等，水平可以达到甚至超过人类初等作手的创作水准。受‘摩尔定律’的支配，算力成本还是会在将来以指数级数下降，人们估计，在三五年之内，机器智能在内容生成方面应该能够产达到熟练工的水准；在2030年左右，可以达到顶级专业人才的水准。这里，我们分享一篇红杉基金刚刚发表的文章，较好地概括了在这一领域的发展趋势。有趣的是，红杉基金的人员透露，其实这篇文章的基本框架也是由机器智能生成的，再由红杉基金的人员在此基础上作了一些修改和润色而得以完成。

人类善于分析事物，但是计算机其实作得甚至更好。机器可以分析一组数据并在其中为多种应用案例找到模式，无论是金融欺诈还是垃圾邮件检测，或者是预测您的交付时间，或是向您推荐下一个要展示的抖音视频。他们在这些任务上变得越来越聪明。这被称为“分析人工智能”或传统人工智能。但人类不仅善于分析事物——我们也善于创造。我们写诗、设计产品、制作游戏和编写代码。直到最近，机器还没有机会在创造性工作中与人类竞争——它们只能从事分析和死记硬背的认知劳动。但是这一切在最近这几年得到了改变，机器才刚刚开始善于创造感性和美丽的事物。这个新类别被称为“生成型人工智能”，这意味着机器正在生成新的内容，而不是仅仅分析已经存在的内容。生成型人工智能不仅变得更快、更便宜，而且在某些情况下比人类手工创造的更好。每个需要人类创造原创作品的行业——从社交媒体到游戏、广告到建筑、编码到平面设计、产品设计到法律咨询、市场营销到销售——都将会需要重塑。某些功能可能会被生成型 AI 完全取代，而其他功能则更有可能在人机之间紧密的协作迭代的创意周期中蓬勃发展——但生成型 AI 应该在广泛的终端市场中解锁更好、更快和更便宜的创作。

我们的梦想是生成型人工智能将创造和知识工作的边际成本降至零，产生巨大的劳动生产率和经济价值——以及相应的市值。生成型人工智能解决的领域——知识工作和创造性工作——雇佣了数十亿工人。生成型 AI 可以使这些员工的效率和/或创造力至少提高 10%：他们不仅变得更快、更有效率，而且比以前更有能力。因此，生成型人工智能有可能产生数万亿美元的经济价值。

为什么现在？生成型 AI 与更广泛的 AI 具有相同的“为什么是现在”：更好的模型、更多的数据、更强的算力。这一领域的变化速度远远快于我们可以感受或者捕捉到的速度，但值得粗略地回顾一下最近的历史，以便将当前时刻放在背景中。

第 1 波：大量小型模型的建立和优化（2015 年之前） 5 年多以前，小型模型被认为是理解语言的“最先进”技术。这些小型模型擅长分析任务，并被部署用于从交货时间预测到欺诈分类的工作。然而，它们对于通用生成任务的表现力不够。生成人类水平的写作或代码仍然是一个白日梦。

第 2 波: 应用普及的狂飙突进 (2015年2022年) Google 研究院的一篇具有里程碑意义的论文（Attention is All You Need）描述了一种用于自然语言理解的新神经网络架构，称为 Transformers，它可以生成高质量的语言模型，同时具有更高的可并行性，而且要求训练时间明显减少。这些模型是少样本学习型，可以相对容易地针对特定领域进行定制。果然，随着模型变得越来越大，它们开始提供人类水平，然后是超人类的结果。在2015 年至 2020 年间，用于训练这些模型的计算量增加了 6 个数量级，其结果超过了手写文字、语音和图像识别、阅读理解和语言理解方面的人类性能基准。 OpenAI 的 GPT-3 脱颖而出：该模型的性能是对 GPT-2 的巨大飞跃，并提供了从代码生成到恶作剧写作等任务的诱人 Twitter 演示。尽管所有的基础研究都取得了进展，但这些模型并不普遍。它们体积庞大且难以运行（需要用到大量的 GPU 编排组合），无法广泛访问（不可实用或仅限封闭测试版），并且用作云服务的成本很高。尽管有这些限制，最早的生成型 AI 应用程序开始加入竞争。

第 3 波：更好、更快、更便宜 (2022年以后) 计算变得更便宜。扩散模型等新技术可降低训练和运行推理所需的成本。研究界继续开发更好的算法和更大的模型。开发人员访问权限从封闭测试版扩展到开放测试版，或者在某些情况下，开放源代码。对于那些一直渴望获得源代码的开发人员来说，闸门现在已经打开，可以进行探索和应用程序开发。申请开始大量涌现。

第 4 波：杀手级应用出现（现在开始）随着平台层的巩固，模型不断变得更好/更快/更便宜，以及模型访问趋向于免费和开源，应用层已经成熟，可以爆发创造力。正如移动设备通过 GPS、相机和移动连接等新功能释放出新型应用程序一样，我们预计这些大型模型将激发新一波生成型 AI 应用程序。正如十年前移动的拐点为少数杀手级应用创造了市场空缺一样，我们预计杀手级应用也会出现在生成型 AI 领域。这一领域的激烈比赛开始了。

可能的AI模型

文本是迄今为止发展最成熟的领域。然而，自然语言很难准确，语义的质量尤其重要。今天，这些模型非常擅长通用的短/中型写作（但即便如此，它们通常用于迭代或初稿）。随着时间的推移，随着模型变得更好，我们应该期望看到更高质量的输出、更长格式的内容和更好的细分领域的特定调整。

代码生成。正如 GitHub 的CoPilot 模块所示，代码生成可能在短期内对开发人员的生产效率产生重大影响，它还将使非开发人员更容易创造性地使用代码。

图片的生成越来越简单快速，输出内容却越来越复杂成熟。越来越多的人们在Twitter 上分享由机器生成的图片，这比分享文字有趣得多！我们看到了具有不同美学风格的图像模型的出现，以及用于编辑和修改生成图像的不同技术。

语音合成已经存在了一段时间（如苹果公司的 Siri），但消费者和企业应用程序才刚刚起步。对于像电影和播客这样的高端应用，对于听起来不那么机械的而是近似于人类的语音质量来说，标准是相当高的。但就像图像一样，今天的模型为进一步完善或实用应用程序的最终输出提供了一个起点。

视频和 3D 模型正在迅速上升。人们对这些模型打开电影、游戏、虚拟现实、建筑和实体产品设计等大型创意市场的潜力感到兴奋。正如我们所说，研究机构正在发布基础 3D 和视频模型。

其他领域：从音频和音乐到生物学和化学（是否有人愿意在生成蛋白质和分子领域作一番探索？），许多领域都在进行基础模型研发。

可能的应用领域

以下是一些让我们感到兴奋的应用程序案例。

文案写作：对个性化网页和电子邮件内容的需求不断增长，以推动销售和营销策略以及客户支持，这些都是语言模型的完美应用。措辞的简短形式和程式化性质，加上这些团队面临的时间和成本压力，应该会推动对自动化和增强解决方案的需求。

细分领域的特定写作助手：今天的大多数写作助手都是通用型的写手，有时候他们离开专业化的要求会有一定的差距；我们相信有机会为特定的终端市场构建更好的生成应用程序，从法律合同编写到编剧。这里的产品差异化在于针对特定工作流的模型和用户体验模式的微调。

代码生成：当前的应用程序可加速开发人员并提高他们的工作效率：GitHub Copilot 现在在安装它的项目中生成近 40% 的代码。但更大的机会可能是为消费者开放编码。学习提示可能会成为最终的高级编程语言。

艺术品生成：整个艺术史和流行文化世界现在都编码在这些大型模型中，允许任何人随意探索以前需要一生才能掌握的主题和风格。

游戏：梦想是使用自然语言来创建可操纵的复杂场景或模型；最终状态可能还有很长的路要走，但有更直接的选择，在短期内更具可操作性，例如生成纹理和天空盒艺术。

媒体/广告：想象一下自动化代理工作并为消费者即时优化广告文案和创意的潜力。多模态生成的绝佳机会将销售信息与互补的视觉效果配对。

设计：制作数字和实体产品的原型是一个劳动密集型的迭代过程。草图和提示的高保真效果图已经成为现实。随着 3D 模型的出现，生成型设计过程将延伸到制造和生产——从文本到对象。你的下一个 iPhone 应用程序或运动鞋可能是由机器设计的。

社交媒体和数字社区：是否有使用生成工具表达自我的新方式？随着消费者学会在公共场合创作，像 Midjourney 这样的新应用正在创造新的社交体验。

生成型 AI 应用剖析和趋势预测

生成型 AI 应用程序会是什么样子？这里有一些预测。

智能和模型微调生成型 AI 应用程序构建在 GPT-3 或 Stable Diffusion 等大型模型之上。随着这些应用程序获得更多的用户数据，他们可以微调他们的模型以：1）针对他们的特定问题空间提高模型质量/性能； 2) 减小模型尺寸/成本。我们可以将生成型 AI 应用程序视为 UI 层和位于大型通用模型“大脑”之上的“小大脑”。

构成因素如今，生成型 AI 应用程序主要作为现有软件生态系统中的插件存在。代码补全发生在您的 IDE 中；图像生成发生在 Figma 或 Photoshop 中；甚至 Discord 机器人也是将生成 AI 注入数字/社交社区的工具。还有少量独立的 Generative AI 网络应用程序，例如用于文案写作的 Jasper 和 Copy.ai、用于视频编辑的 Runway 和用于记笔记的 Mem。插件可能是引导您自己的应用程序的有效楔子，它可能是克服用户数据和模型质量“先有鸡还是先有蛋”问题的明智方法（您需要分发以获得足够的使用率来改进您的模型；您需要好的模型才能吸引用户）。我们已经看到这种分销策略在其他市场类别中得到了回报，例如消费者/社交。

交互范式如今，大多数生成型 AI 演示都是一次性的：你提供一个输入，机器吐出一个输出，你可以保留它或扔掉它，然后再试一次。模型的迭代性越来越强，您可以在其中使用输出来修改、优化、升级和生成变体。如今，生成型 AI 输出被用作原型或初稿。应用程序非常擅长吐出多个不同的想法来推动创意过程（例如，徽标或建筑设计的不同选项），并且它们非常擅长建议需要用户精心设计才能达到最终状态的初稿（例如博客文章或代码自动完成）。随着模型变得越来越智能，部分脱离了用户数据的支持，我们应该期望这些草稿会变得越来越好，直到它们足够好用作最终产品。

持续地在细分领域保持领先地位最好的生成人工智能公司可以通过在用户参与/数据和模型性能之间的飞轮上不懈地执行来产生可持续的竞争优势。为了获胜，团队必须通过 1) 拥有出色的用户参与度 → 2) 将更多的用户参与度转化为更好的模型性能（及时改进、模型微调、用户选择作为标记的训练数据）→ 3) 使用出色的模型性能以推动更多的用户增长和参与。他们可能会进入特定的问题领域（例如，代码、设计、游戏），而不是试图成为所有人的一切。他们可能会首先深入集成到应用程序中以进行利用和分发，然后尝试用 AI 原生工作流替换现有应用程序。以正确的方式构建这些应用程序以积累用户和数据需要时间，但我们相信最好的应用程序将经久耐用，并有机会变得庞大。

障碍和风险

尽管生成型 AI 具有潜力，但围绕商业模式和技术还有很多问题需要解决。关于版权、信任和安全以及成本等重要问题远未解决。

睁大眼睛，保持开放心态，迎接崭新的创意时代的到来

生成型 AI 还在很早的起步阶段，前路漫漫。平台层刚刚才搭建起来，应用空间才刚刚起步。需要明确的是，我们不需要大型语言模型来编写托尔斯泰小说来充分利用生成型人工智能。这些模型在今天足以编写博客文章的初稿并生成徽标和产品界面的原型。中短期内将创造大量价值。第一波生成型 AI 应用程序类似于 iPhone 刚问世时的移动应用程序的格局——有些噱头和单薄，竞争差异化和商业模式不明确。然而，其中一些应用程序提供了一个有趣的一瞥未来可能会发生什么。一旦您看到一台机器生成复杂的功能代码或出色的图像，就很难想象未来机器不会在我们的工作和创造方式中发挥基础性作用。如果我们允许自己梦想几十年后，那么很容易想象一个未来，在这个未来，生成型人工智能将深深植根于我们的工作、创造和娱乐方式：自己写的备忘录； 3D 打印任何你能想象到的东西；从文本直接到Pixar电影；类似于 Roblox 的游戏体验，可以像我们想象的那样快速生成丰富的世界。虽然这些经历在今天看起来像是科幻小说，但进展速度之快令人难以置信——我们已经在几年内从狭义的语言模型发展到代码自动完成——如果我们能够沿着这个变化率继续下去，在“大模型摩尔定律”的综合作用下，那么这些牵强附会的想象场景可能真就会在不远的将来进入可能的境界。