google 的新模型，智能文字修图，效果实在是很炸裂。

我就用了一个提示词，"把图片中的猫咪修改成柴犬"。

能达到这种效果，是我完全没想到的。

目前 API 这个功能已经上线，免费，并且可以直接命令行来使用！ google 真是大善人。

但是我想吐糟一句，google 把所有图片都转成了 base64 ，导致 api json 请求返回巨大。而且很不好写流式图片的加载代码（服务器返回的是 png ，如果是 jpg ，还能边解压边显示）。

tool3d

说一下如何调用 API ，官网暂时没写。先访问 https://generativelanguage.googleapis.com/v1beta/models/gemini-2.0-flash-exp:streamGenerateContent?key=%s 把上传的猫咪图片压缩成 base64, 塞进 json 里的 inline_data 的 data 里。然后请求的 json 添加这句："generationConfig":{"response_modalities":["Text","Image"]} 返回的结果，就能生成图文模式了。注：暂时没有对应的 openai 兼容调用，直接调用 openrouter 这类 API 中转，应该是没办法生成图片和修图的。必须直接调官方的 google api 。

leighton

``` 但是我想吐糟一句，google 把所有图片都转成了 base64 ，导致 api json 请求返回巨大。而且很不好写流式图片的加载代码（服务器返回的是 png ，如果是 jpg ，还能边解压边显示）。 ``` 理想的设计是什么样的呢

这个功能，感觉适合电商批量修图？

bskfz

@tool3d https://generativelanguage.googleapis.com/v1beta/models/gemini-2.0-flash-exp:streamGenerateContent?key=%s 这个链接打不开

crackidz

你用 AI Studio 的话，右上角点击“Get Code” 就可以了吧

binux

你可以先用 file API https://ai.google.dev/api/files 上传再用 FileData 在 prompt 里引用就好

iorilu

有模型可以做到把视频里面嵌入得字幕去掉吗

kneo

这不是啥新功能啊，豆包 app 里老早就可以了。api 调用不清楚。