测试

还有幻觉问题，我应该问一些跟这些论文领域相关，但论文里通过只字未提的问题。RAG 应该返回 **”相关度低”**，而不是强行编造一个答案。

除了常规的召回测试，我还引入了拒识机制（Rejection Mechanism）的评估。我构建了 20% 的负样本问题，验证系统在知识缺失时是否能避免幻觉。测试结果显示，在 Re-rank 分数低于 0.3 时截断，能有效拦截 90% 的无效问题。”

解决

强化prompt，静止套话

你的核心原则是：**Evidence-Based Engineering（基于证据的工程）**。 ❌ 严禁生成：“我们将使用最先进的模型”、“使用标准的数据清洗流程”这种废话。 ✅ 必须具体：“基于Paper_1的分析，我们将采用其提出的 'Gated-Attention' 机制，而非标准的 Self-Attention，因为Paper_1指出前者在长文本下显存占用降低了40%。” 如果论文中没有提到具体技术栈，请明确说明“论文未提及，建议使用通用方案”，而不是假装那是论文里的内容。