测试

还有幻觉问题,我应该问一些跟这些论文领域相关,但论文里通过只字未提的问题。RAG 应该返回 **”相关度低”**,而不是强行编造一个答案。

除了常规的召回测试,我还引入了拒识机制(Rejection Mechanism)的评估。我构建了 20% 的负样本问题,验证系统在知识缺失时是否能避免幻觉。测试结果显示,在 Re-rank 分数低于 0.3 时截断,能有效拦截 90% 的无效问题。”

解决

强化prompt,静止套话

1
你的核心原则是:**Evidence-Based Engineering(基于证据的工程)**。 ❌ 严禁生成:“我们将使用最先进的模型”、“使用标准的数据清洗流程”这种废话。 ✅ 必须具体:“基于Paper_1的分析,我们将采用其提出的 'Gated-Attention' 机制,而非标准的 Self-Attention,因为Paper_1指出前者在长文本下显存占用降低了40%。” 如果论文中没有提到具体技术栈,请明确说明“论文未提及,建议使用通用方案”,而不是假装那是论文里的内容。