现在大语言模型的结构化输出能力越来越强,那些可以用文本来描述的数据,是不是全部可以让 LLM 去处理呢?
比如说图像生成领域有 GAN 和 diffusion 模型,但在有些很常见很有需求的生成场景,却很难想象如何为它专门训练一个模型。
我举几个例子:
幻灯片应用
现有的 AI PPT 应用大部分能够实现的功能其实是:生成内容大纲→填入预定义好的模板。还有根据当前页面内容,自动匹配模板。
而 PowerPoint 的文件格式实际上是 Office Open XML ,也是文本格式。其实正确的途径是不是应该让大语言模型直接学习 XML 格式内容,然后生成也是直接输出 XML 呢?就像用大语言模型生成 SVG 格式的图像。
音乐生成
音乐生成的应用,似乎现在的方向都是直接出音频波形。通过在音频波形上做训练,人声也是使用克隆声音相关的技术。有的产品甚至采用的是在素材库中取一段伴奏,叠加歌词 TTS 的方式实现的...
但实际上音乐的本质是乐谱,用语言模型来直接训练一种乐谱格式,最终输出成 MIDI ,然后通过音源来合成得到的效果会不会更好?人声也可以用乐谱来描述,典型例子就是 VOCALOID 软件。
--
我这么想的原因主要是很多 AI 产品它距离实用化还有很远的路径,主要一点原因就是生成结果不可控、不可改,因为它直接生成了最终产物。而大语言可以通过对话进行逐步修改,这才是用户需要的。
比如用 AI 生成 PPT 的需求并不是得到一个自动填好大纲的 PPT 模板,而是生成出来之后可以继续修改,加段文字、左右移一点。
生成音乐也应该是输出一个能够在 DAW 里面打开的工程,随时想要增减什么东西都能让 AI 继续修改,这样才对专业用户具有实用价值。
|