现在 browser-use ( browser agent )和 Omniparser (computer agent), 都是给 LLM 去识别并操作 UI 界面的能力。
但是将来的场景肯定是就一个 LLM 对话框跟用户交互,通过 MCP 直接调用美团、滴滴的后台接口,就可以完成订餐、打车、购票等高频场景。
让用户额外安装 app, 再通过 LLM 去操作手机/电脑上的可视化 UI 界面,完全没有必要了啊。