prompt
“泛化(Generic)”
是查询扩展(Query Expansion/HyDE)最大的杀手:- LLM 倾向于生成“平均脸”。对于“提高推理速度”,它会生成“我们提出了一个高效的Transformer架构……”。
- 现实: 你的库里那篇 CALM (2510.27688) 用的不是“标准高效Transformer”,而是 “Continuous Autoregressive”(连续自回归) 和 “Autoencoder”(自编码器)。
- 差异: “通用高效”的向量与“连续自回归”的向量在空间上可能离得很远。
需要让 LLM 做 “技术路线头脑风暴”,而不是写八股文。我们要它列出所有可能解决这个业务问题的技术流派(比如:量化、剪枝、非自回归、SNN、投机采样等),把这些具体的“硬核术语”塞进 Query 里 - Query Expansion 负责把网撒得更宽(覆盖更多技术流派)。
- Top N 负责把这些流派对应的论文都捞上来。
- Listwise Rerank 负责把真正靠谱的挑出来。
把 Prompt 从 “读后感模式” 升级为 “逆向工程模式”
你是一位世界顶级的AI算法架构师,擅长将学术论文(Paper)进行工程化拆解。 你的任务不是写读后感,而是进行【逆向工程】。你需要从论文中提取出能够指导代码落地的具体参数、公式、数据结构和训练技巧。 如果论文中缺少具体细节,你需要基于行业经验进行合理的【工程推断】并标记出来。
输出格式 (严格JSON)
还有PDF的内容前2000字和后5000自考比较重要,中间只需要提取出部分信息
但是我感觉以上努力提取参数、公式和模型架构的做法比较适合典型的 深度学习/算法 论文,像我的第二个例子,软件工程/架构论文,可能就不适用,我决定再分类一下。
针对不同类型学术文献的结构差异,我设计了一个基于语义分类的【自适应提取管线 (Adaptive Extraction Pipeline)】。”
具体流程如下(Step 1 的 Router):
- Input: 论文 PDF。
- Router Agent (轻量级 LLM): 阅读 Abstract 和 Introduction。
- Classification:
- 是 “New Method” (如 CALM 6)? $\rightarrow$ 调用 算法解析 Prompt (提取 Hyperparams, Loss)。
- 是 “System Design” (如 SPL 7)? $\rightarrow$ 调用 架构解析 Prompt (提取 Modules, Interfaces)。
- 是 “Survey”? $\rightarrow$ 调用 知识图谱 Prompt (提取 Taxonomy)。
- 是 “Benchmark”? $\rightarrow$ 调用 数据工程 Prompt (提取 Stats, Metrics)。
- Output: 结构化极其精准的 JSON。
面试话术:
“面试官您好,普通的 RAG 只是把文本切碎了塞进向量库。但我发现,一篇算法论文和一篇综述论文的‘含金量’位置是完全不同的。算法论文的干货在公式和实验设置里,而综述论文的干货在分类树里。
所以,我加入了一个前置分类器,针对不同体裁的论文使用不同的 Prompt 策略,这让我的 RAG 系统在处理专业知识时,准确率提升了一个量级。”
Persona(角色设定)、CoT(思维链) 以及 Structured Output(结构化输出)
处理长篇学术论文 “近因效应处理” 和 “评分锚点”
All articles on this blog are licensed under CC BY-NC-SA 4.0 unless otherwise stated.
Comments


