AI下一个前沿领地 - 多模态认知模型

近百余年来人们曾经试图破解语言的密码，给语言建模，但是一直没有取得显著性成功，直到ChatGPT的出现。ChatGPT在自然语言处理上取得了重大的突破，为语言建模打开了新的窗口，大大提高了机器在语言文本处理和应对方面的能力。接下来的几年里，ChatGPT本身还会继续迭代提高，而在ChatGPT平台上或者用同类技术开发的各种应用会层出不穷，将大大提高我们的生产力和生活便利。

虽然语言文本是信息密度最大的传播媒介，但是现实中，人们的生活环境本质上是多模态的。人类拥有很多关于世界的常识性知识，比如知道鸟在天上飞，飞机也在天上飞，但是两者大不相同。这种常识性知识通常是通过视觉、语言和感官线索的组合而不是仅仅通过语言获得的。人类的认知能力通常与从多种模态中成功学习有关。所以AI研究领域的工作者也正在如火如荼地寻求在下一个人工智能前沿领域的突破：建立多模态认知模型，以进一步推动AI从单一感知模式（如图像或文本）向多方面感知模式的转变。

多模态认知模型旨在处理和分析来自多个来源并且不同种类的数据，例如文本、语音、图像、视频、结构化知识源（如关系图）和三维数据等更复杂的数据种类。如果在这些数据类上也能通过算力发展出像ChatGPT那样的类认知能力，这将涵盖人类日常接受和交流信息量的90%以上，那么机器智能的水准又将有实质性的提升。目前这方面的工作主要是从单一数据源向2-3个数据源的扩张路径上：

视觉-语言预训练模型：这些模型可以理解和生成视觉内容的自然语言描述，也可以为文本输入生成视觉表示。
视听语音识别：视听语音识别是一个新兴的研究领域，旨在通过结合音频和视觉信息来提高语音识别的准确性。最近的研究表明，多模态模型可以提高语音识别的准确性，尤其是在嘈杂的环境中。
多模态对话系统：对话系统是可以与人类进行自然语言对话的计算机程序。多模态对话系统结合了多种数据模态，例如文本、语音和手势，以提高对话的自然性和效率。也可能是来自多渠道的数据源，如电子邮件、聊天、社交媒体等的客户查询，多渠道的数据整合可以更加迅速准确判断客户需求，让客户服务代理腾出时间来专注于更复杂的问题并提高整体效率。
医疗诊断系统：采用多个生物标记的综合判断可以提高诊断的准确度和效率。图像，声音，气味，基因图谱，以及更多的体征测度等等，都可以进入多模态模型，让这些模型来检测数据的变化，并根据这些数据的融合做出更准确的诊断。在医疗环境中已经有用多模态模型框架解决问题的成功经验。
机器人过程自动化：在视觉-语言预训练模型等多模态认知模型的基础上，还需机器完成许多复杂的三维动作，才可以自动执行从制造业到医疗保健等各个行业的低级任务，提高效率和准确性。此类认知模型需要集成感官信息和机器人控制信息，因此它是一种“具身视觉语言模型”，所以对算力要求更高。

本周早些时候，来自谷歌公司和柏林工业大学的一组 AI 研究人员推出了PaLM-E，这是一种多模态体现视觉语言模型 (VLM)，具有5620亿个参数。它集成了AI驱动的视觉和语言以实现自主机器人控制，使机器人能够根据人类语音命令执行各种任务，而无需不断进行再培训。例如，如果命令机器人“从冰箱里给我拿一罐饮料”，PaLM-E将根据命令及其视野扫描迅速制定行动计划。然后，移动机器人平台及其控制的机械臂将完全自主地执行动作。PaLM-E的工作原理是通过机器人的摄像头查看其周围环境，简单地查看并接受它所看到的内容，然后根据这些内容计算出它需要做什么。例如，给出指令“我把饮料洒了，你能给我拿点东西来清理吗？”，机器人需要规划一个包含“1. 找一块海绵，2.拿起海绵，3.拿给用户，4.放下海绵。” 然后根据视野扫描输入逐步完成这些动作。PaLM-E模型正是集成了感官信息和机器人控制的“具身视觉语言模型”。它的工作原理是持续观察周围环境，将这些数据编码成一系列向量，类似于将单词编码为“语言标记”的方式。通过这种方式，它可以像处理语言命令一样理解感官信息。研究人员补充说，PaLM-E表现出一种被称为“正迁移”的特性，这意味着它可以将从先前任务中学到的知识和技能迁移到新任务中，从而比单任务机器人模型具有更高的性能。此外，研究人员表示，它还展示了“多模式思维链推理”，这意味着它可以分析一系列输入，包括语言和视觉输入，以及“多图像推理”，即使用多个图像作为输入来进行推理或预测某事。

除了Google外，Microsoft，Meta，OpenAI，Amazon等公司也都在创建更强大的多模态认知模型上投入了相当的资源。据传即将发布的GPT-4也几乎肯定会是个多模态认知模型。当然，多模态认知模型的建构还是在早期阶段，还面临许多重大的挑战：

数据质量和可用性：多模态认知模型需要来自多种模式的大量高质量数据来学习和提高它们的性能。然而，收集和注释此类数据可能既耗时又昂贵，而且多模态数据的质量和可用性可能千差万别。
模态集成：集成来自多种模态的信息需要解决数据结构、特征表示和处理管道的差异。在保持信息的完整性和相关性的同时有效且高效地组合多种模式可能具有挑战性。
跨模态协同对齐：在多模态AI中，重要的是跨模态协同对齐信息，以确保模型能够理解它们之间的关系和上下文。然而，跨模态协同对齐并不总是直截了当的，尤其是在处理复杂和抽象的概念时。
稳健性和泛化：多模态AI模型应该能够在各种任务和不同的环境中表现良好。然而实现中，稳健性和泛化可能具有挑战性，尤其是在处理罕见或意外事件、噪声数据或输入变化时。
伦理和社会影响：随着多模态AI模型变得更加先进和普遍，考虑它们的伦理和社会影响非常重要。例如，应解决偏见、隐私和问责制等问题，以确保以负责任的方式开发和部署这些模型。

这些挑战凸显了需要在跨多个学科（如计算机科学、统计学、数学、语言学、心理学和神经科学等）进行协作，才能有效解决这些问题。而AI领域的研究人员也正在无监督学习、多模态推理和决策、开发少样本和零样本学习方法、开发持续学习方法等建模技术方面继续努力，争取在创建更强大的多模态认知模型方面取得突破。

AI下一个前沿领地 — 多模态认知模型

你也许还想看：

PayPal黑帮（I）：硅谷科技版图背后的大手

沿着红色箭头奔跑的那个夜晚：一个移民母亲的惊魂记

数学界的“游牧侠”：Paul Erdős 的传奇人生