AI学习时间 15 - 部分关键词整理解释与思考

回顾一下,大部分人最初接触大语言模型是通过 chatGPT,表象是一个对话聊天,聊天过程可以抽象为

graph LR
    提问 --> chatbot
    chatbot --> 回答

而 chatbot 底层,实际上是一个大语言模型(LLM)或者其他模型,而大语言模型的输入输出本质都是字符串,或者说文本。

graph LR
    输入文本 --> LLM
    LLM --> 输出文本

这就 AI 时代最初带给我们的体验。

人们很快意识到这个流程上的各种不足,于是从各种可能的方面去优化这个流程。从上面的流程来看,可以很简单想到这三个环节都可以被优化。

输入

  • 增加输入的形式,除了文本,还可以是音频,视频,图片等
  • 增加输入的质量,prompt 工程,MCP,skills
  • 增加输入的长度
  • ...

这些输入优化手段,其实都是为了让输入的质量更高,更贴近模型的“思考方式”。

输出

  • 增加输出的形式,除了文本,可以是markdown,以及各种形式的组件
  • 增加输出的长度
  • ...

这些输出的优化手段,基本上是为了让输出更为用户友好,互联网时代人机交互的方式种类很多,虽然最开始 LLM 的返回只能是文本,但未来估计会逐步满足各种各样的人机交互。

模型

  • 模型参数增加
  • 模型上下文长度增加
  • 模型的架构优化
  • ...

模型的优化必然是 AI 浪潮的核心,对于研究人员来说,他们会想方设法得提升模型性能,增强模型能力。与此对比,输入与输出的优化,更多是工程上的考虑。

未完待续...