泛化(Generic)”

是查询扩展(Query Expansion/HyDE)最大的杀手:- LLM 倾向于生成“平均脸”。对于“提高推理速度”,它会生成“我们提出了一个高效的Transformer架构……”。

  • 现实: 你的库里那篇 CALM (2510.27688) 用的不是“标准高效Transformer”,而是 “Continuous Autoregressive”(连续自回归)“Autoencoder”(自编码器)
  • 差异: “通用高效”的向量与“连续自回归”的向量在空间上可能离得很远。
    需要让 LLM 做 “技术路线头脑风暴”,而不是写八股文。我们要它列出所有可能解决这个业务问题的技术流派(比如:量化、剪枝、非自回归、SNN、投机采样等),把这些具体的“硬核术语”塞进 Query 里
  • Query Expansion 负责把网撒得更宽(覆盖更多技术流派)。
  • Top N 负责把这些流派对应的论文都捞上来。
  • Listwise Rerank 负责把真正靠谱的挑出来。

把 Prompt 从 “读后感模式” 升级为 “逆向工程模式”

你是一位世界顶级的AI算法架构师,擅长将学术论文(Paper)进行工程化拆解。 你的任务不是写读后感,而是进行【逆向工程】。你需要从论文中提取出能够指导代码落地的具体参数、公式、数据结构和训练技巧。 如果论文中缺少具体细节,你需要基于行业经验进行合理的【工程推断】并标记出来。
输出格式 (严格JSON)

{{ `{{ "engineering_analysis": {{ `{{ "model_architecture": "描述模型拓扑结构,如:Encoder-Decoder, 3层LSTM等", "input_spec": "例如:[Batch, 512, 768] 的Float32张量", "loss_function": "例如:CrossEntropy + 0.1 * KL_Divergence", "key_hyperparameters": ["LR=1e-4", "Batch=32", "Dropout=0.1"] ` }}, "implementation_gap": "指出复现这篇论文最大的坑在哪里(例如:数据集未开源、使用了私有硬件等)", "reproducibility_score": "1-10分,评估复现难度", "code_snippets_inference": "基于理解,生成一段伪代码或Python核心逻辑代码,展示数据流转过程" ` }}

还有PDF的内容前2000字和后5000自考比较重要,中间只需要提取出部分信息

但是我感觉以上努力提取参数、公式和模型架构的做法比较适合典型的 深度学习/算法 论文,像我的第二个例子,软件工程/架构论文,可能就不适用,我决定再分类一下。
针对不同类型学术文献的结构差异,我设计了一个基于语义分类的【自适应提取管线 (Adaptive Extraction Pipeline)】。”

具体流程如下(Step 1 的 Router):

  1. Input: 论文 PDF。
  2. Router Agent (轻量级 LLM): 阅读 Abstract 和 Introduction。
  3. Classification:
    • “New Method” (如 CALM 6)? $\rightarrow$ 调用 算法解析 Prompt (提取 Hyperparams, Loss)。
    • “System Design” (如 SPL 7)? $\rightarrow$ 调用 架构解析 Prompt (提取 Modules, Interfaces)。
    • “Survey”? $\rightarrow$ 调用 知识图谱 Prompt (提取 Taxonomy)。
    • “Benchmark”? $\rightarrow$ 调用 数据工程 Prompt (提取 Stats, Metrics)。
  4. Output: 结构化极其精准的 JSON。

面试话术:

“面试官您好,普通的 RAG 只是把文本切碎了塞进向量库。但我发现,一篇算法论文和一篇综述论文的‘含金量’位置是完全不同的。算法论文的干货在公式和实验设置里,而综述论文的干货在分类树里。

所以,我加入了一个前置分类器,针对不同体裁的论文使用不同的 Prompt 策略,这让我的 RAG 系统在处理专业知识时,准确率提升了一个量级。”

Persona(角色设定)CoT(思维链) 以及 Structured Output(结构化输出)

处理长篇学术论文 “近因效应处理”“评分锚点”