飞社-令人惊奇的创意工作者社区-问与答有没有熟悉大模型开发的， help！

mohuani

@zhh2271 他应该是在逗你玩

KongKong369

@hefish 这兄弟在和你扯呢。

Mzs

1. 远远没到训练的程度 2. 知识库的质量先保证好 3. https://dify.ai 4. 多多调试提示词

love060701

1 、如果上下文不长，直接把你们公司常用的文档当系统 prompt 写进去，需要使用上下文比较长的模型，DeepSeek 不行因为上下文太短，可以找 128K 上下文版本的 Qwen 。 2 、微调模型，基于某个版本的模型做额外的训练，推荐基于 70B 版本的模型做训练，微调好像只能基于密集模型，MoE 模型的微调比较困难。DeepSeek R1 也不行的，只能使用 DeepSeek 蒸馏出的模型。 3 、RAG ，就是外挂知识库，数据标准化->向量化，LLM 回答问题时把知识库作为上下文，可以使用 DeepSeek R1 作为 LLM ，有 Dify 、n8n 之类的开源实现，不过你们公司有那么多资源部署自己的 DeepSeek R1 么？

chanlk

这是想弄一个知识库吧 https://i.imgur.com/MAyk5GN.png

zhh2271

@renmu 是这样，主管叫我先基于一个商业工具开发一个大模型出来，后续再把这个迁移到我们的软件，商业工具的文档是非常丰富的。然后迁移的话也只需要实现我们部门的一个模块就好了，暂时不需要管其它部门

zhh2271

@love060701 显卡是有的，A100 应该有挺多的，就是不知道会不会给我用

zhh2271

@love060701 这个生成脚本、规则文件的我感觉很难弄，像一些代码什么的，我感觉文档问答的话是不是用 RAG 就行了，但是这种脚本生成应该要怎么做啊

Felixchen1062

从微调做起可以看看 unsloth, llmfactory, 如果想做 rag, workflow 之类的可以看看 dify, langchain,llamaindex 平台 , 固定行业脚本编写可能需要你有一些 prompt 经验, 以上内容拿去 gemini research,让他给你介绍一遍

zhh2271

@love060701 1 这个应该不行，EDA 相关的文档很多