超越ChatGPT:NExT GPT是一个开源模型，可以让你掌握音频、视频和文本的人工智能

在由OpenAI和谷歌等巨头主导的新兴技术场景中，NExT GPT——一种开源的多模式人工智能大语言模型（LLM）——可能具备在大联盟中竞争的能力。

ChatGPT以其理解自然语言查询和生成类似人类的响应的能力席卷全球。但随着人工智能继续以闪电般的速度发展，人们对电力的需求也越来越大。纯文本时代已经结束，多模式LLM正在到来。

NExT GPT是由新加坡国立大学和清华大学合作开发的，可以处理和生成文本、图像、音频和视频的组合。与基本的ChatGPT工具等纯文本模型相比，这允许更自然的交互。

创建它的团队将NExT GPT宣传为“任何对任何”系统，这意味着它可以接受任何形式的输入，并以适当的形式提供响应。

快速发展的潜力是巨大的。作为一种开源模型，NExT GPT可以由用户进行修改，以满足他们的特定需求。这可能会在最初版本之外带来巨大的改进，就像《稳定扩散》与最初版本相比所发生的事情一样。民主化访问可以让创作者塑造技术，以获得最大的影响力。

那么NExT GPT是如何工作的呢？正如该模型的研究论文中所解释的，该系统有单独的模块，可以将图像和音频等输入编码为核心语言模型可以处理的文本表示。

研究人员引入了一种名为“模态转换指令调整”的技术，以提高跨模态推理能力——将不同类型的输入作为一个连贯结构处理的能力。这种调整教会了模型在对话过程中在模态之间无缝切换。

为了处理输入，NExT GPT使用唯一的令牌，如图像、音频和视频。每个输入类型都被转换为语言模型能够理解的嵌入。然后，语言模型可以输出响应文本，以及特殊的信号标记，以触发其他模式的生成。

例如，响应中的令牌告诉视频解码器产生相应的视频输出。该系统对每个输入和输出模态的定制令牌的使用允许灵活的任意到任意转换。

然后，当应该生成像图像这样的非文本输出时，语言模型输出特殊的标记来发出信号。然后，不同的解码器为每个模态创建输出：Stable Diffusion作为图像解码器，AudioLDM作为音频解码器，Zeroscope作为视频解码器。它还使用Vicuna作为基础LLM和ImageBind对输入进行编码。

NExT GPT本质上是一种结合不同人工智能力量的模型，成为一种一体化的超级人工智能。

截图由：人工智能论文学院通过YouTube提供

NExT GPT实现了这种灵活的“任意到任意”转换，同时只训练了总参数的1%。其余的参数都是经过冷冻、预训练的模块，这是一个非常有效的设计，赢得了研究人员的赞誉。

已经建立了一个演示站点，允许人们测试NExT GPT，但其可用性是间歇性的。

随着谷歌和OpenAI等科技巨头推出自己的多模式人工智能产品，NExT GPT代表了创作者可以建立的开源替代品。多模式是自然交互的关键。通过开源NExT GPT，研究人员为社区将人工智能提升到一个新的水平提供了跳板。