AI 应用的方向会是 LLM 描述一切，还是不同内容推出专属的模型？

现在大语言模型的结构化输出能力越来越强，那些可以用文本来描述的数据，是不是全部可以让 LLM 去处理呢？

比如说图像生成领域有 GAN 和 diffusion 模型，但在有些很常见很有需求的生成场景，却很难想象如何为它专门训练一个模型。

我举几个例子：

幻灯片应用

现有的 AI PPT 应用大部分能够实现的功能其实是：生成内容大纲→填入预定义好的模板。还有根据当前页面内容，自动匹配模板。

而 PowerPoint 的文件格式实际上是 Office Open XML ，也是文本格式。其实正确的途径是不是应该让大语言模型直接学习 XML 格式内容，然后生成也是直接输出 XML 呢？就像用大语言模型生成 SVG 格式的图像。

音乐生成的应用，似乎现在的方向都是直接出音频波形。通过在音频波形上做训练，人声也是使用克隆声音相关的技术。有的产品甚至采用的是在素材库中取一段伴奏，叠加歌词 TTS 的方式实现的...

但实际上音乐的本质是乐谱，用语言模型来直接训练一种乐谱格式，最终输出成 MIDI ，然后通过音源来合成得到的效果会不会更好？人声也可以用乐谱来描述，典型例子就是 VOCALOID 软件。

--

我这么想的原因主要是很多 AI 产品它距离实用化还有很远的路径，主要一点原因就是生成结果不可控、不可改，因为它直接生成了最终产物。而大语言可以通过对话进行逐步修改，这才是用户需要的。

比如用 AI 生成 PPT 的需求并不是得到一个自动填好大纲的 PPT 模板，而是生成出来之后可以继续修改，加段文字、左右移一点。生成音乐也应该是输出一个能够在 DAW 里面打开的工程，随时想要增减什么东西都能让 AI 继续修改，这样才对专业用户具有实用价值。