关于 Rag 本地知识库落地的问题求助

Suinn · 2024-9-21 14:42:37 · 42 次点击
背景:交易数据分析,一份交易单等价为一个文件
目前在做 rag 落地相关的探索,尝试了 Dify ,FastGPT ,最后选择了 AnythingLLM ,单文件场景下效果很好。但是多文件场景下立马就不行了,比如我问它编号为 A 单的总金额,由于我上传了大约几百份文件,而每单的编号都在正文开头,总金额都在文末,怀疑是这个原因导致没法很好的进行上下文关联。
一份文件的字数毕竟多,chunk 没法开到太大,因此想问问有没有大佬知道这种情况怎么处理毕竟好
举报· 42 次点击
登录 注册 站外分享
1 条回复  
mumu9 小成 2024-9-21 16:39:50
不太清楚你的“交易单”具体包含哪些信息。从你的描述看,更需要的是知识图谱。交易编号作为一个实体,金额和其他文件内容属于实体信息。对 Query 部分进行 NER 后,根据实体进行检索。
如果非用 RAG 不可,对文件内容进行内容压缩后作为 chunk 可能是更有效的方法。
返回顶部