0. 先说结论
1. 它到底在打谁：标准 RAG 为什么经常卡在 multi-hop
- 1.1 只检到第一跳
- 1.2 检到两条相关信息，但没法稳定拼起来
2. 这篇 paper 最有价值的 insight
3. 方法本身到底怎么做
4. 这个方法不是没有克制，它其实很谨慎
5. 在线阶段为什么还要加一道小阀门
- 5.1 Balanced Context Selection
6. 实验结果怎么看才不被“平均分”骗到
7. 这篇 paper 真正厉害的地方，不是分数，是系统观
- 7.1 它重新定义了 index 的作用
- 7.2 它对线上系统特别友好
8. 但它的最大坑也非常清楚
9. 如果我自己实现一版 IndexRAG，系统该怎么搭
10. 和 Naive RAG / GraphRAG / HippoRAG / IRCoT 到底差在哪
- 10.1 一个更实用的理解方式：它们分别在“哪里花钱”
- 10.2 我自己的选择判断
11. 这篇 paper 最终值不值得读
12. 我的短评
13. 参考信息

0. 先说结论

如果你做过 RAG，多半见过这种场景：

问题其实不难
答案也就在语料里
但证据分散在两三个文档里
检索每次都只捞到“半张答案”
最后模型不是答偏，就是只答出中间实体

IndexRAG 这篇 paper 想解决的就是这个问题。

它给出的办法很有意思，也很工程：

别等用户提问时再做跨文档推理，先在建索引时把能推出来的桥接事实提前生成好。

我看完后的判断是：

这不是花哨 trick，而是一个很对的系统设计方向
它最值钱的地方不是效果数字，而是“推理前移到索引阶段”这个范式
它很适合低延迟、多跳问答、又不想把在线链路做得太重的系统
但它也有非常明确的风险：离线生成错了，就会把错误固化进索引

一句话概括这篇 paper：

IndexRAG 不是让 RAG 在 query-time 更聪明，而是让知识库在 index-time 先变聪明。

下面我按博客化的方式来拆：

这篇 paper 到底在打谁
它的核心方法为什么有效
实验结果怎么读才不被骗
它真正厉害的地方是什么
它的边界和风险在哪
如果你自己实现一版，系统该怎么搭

说明：本文基于 arXiv 摘要页与 HTML 正文做精读。PDF 直读链路在这次任务里超时，因此以下分析以正文公开内容为主，不假装看到了全部 appendix 细节。

1. 它到底在打谁：标准 RAG 为什么经常卡在 multi-hop

标准 RAG 最大的问题不是“知识不够”，而是：

知识在，但不在同一个检索单元里。

比如这个经典例子：

文档 A：Aylwin 的导演是 Henry Edwards
文档 B：Henry Edwards 出生于 Weston-super-Mare

用户问：

Aylwin 的导演出生在哪里？

这题本质上只要两跳：

先找到导演是谁
再找到导演出生地

但 Naive RAG 往往会出两种问题：

1.1 只检到第一跳

它看到 query 里有 “Aylwin” 和 “director”，最容易命中的就是文档 A。于是模型最后答成：

Henry Edwards

这不是不会推理，而是第二跳证据压根没进上下文。

1.2 检到两条相关信息，但没法稳定拼起来

即使两条都进来了，也不意味着模型一定会稳稳完成组合推理。尤其当上下文更长、干扰项更多时，这种“跨文档拼接”经常不稳。

所以 multi-hop RAG 的核心矛盾其实不是：

模型会不会想

而是：

系统能不能把“能想出来的链路”变成“容易检到的对象”

IndexRAG 的答案是：

把本来要在 query-time 拼出来的链，提前在 index-time 写成一句能被直接命中的话。

2. 这篇 paper 最有价值的 insight

我觉得这篇 paper 最值钱的 insight 不是 “bridging fact” 这个名词本身，而是背后的判断：

很多跨文档推理，其实是 query-independent 的。

什么意思？

也就是说，文档之间能不能形成推理桥接，很多时候根本不是由当前 query 决定的，而是由语料本身决定的。

比如：

电影 → 导演 → 出生地
人物 → 配偶 → 国籍
公司 → 创始人 → 毕业学校

这些连接关系本来就潜伏在知识库里。

所以作者说，与其每次用户提问都现场：

做实体抽取
图遍历
多轮检索
多次调用 LLM

不如在建库时就把这些潜在连接提前做出来。

这是一个非常工程、但也非常聪明的视角转换：

传统思路：让 query-time 更聪明
IndexRAG：让 index-time 更聪明

3. 方法本身到底怎么做

整体流程不复杂，分两阶段：

Offline indexing
Online inference

真正的精华都在离线阶段。

3.1 Stage 1：先把文档拆成更适合检索的知识单元

每篇文档先过一遍 LLM，抽出：

AKU（Atomic Knowledge Unit）
实体（Entities）

AKU 可以理解成：

比 chunk 更“知识化”的最小检索单元
它不是盲切文本，而是抽取更原子、更语义化的事实表达

这一步的作用主要有两个：

把文档从“原文块”变成“知识块”
把实体抽出来，为后面跨文档连接做准备

但要注意：

Stage 1 不是这篇 paper 的真正胜负手。

论文自己也提到，Stage 1 的抽取方式变化，对整体性能影响没有 Stage 2 那么大。真正关键的是下一步。

3.2 Stage 2：找到能把多份文档串起来的 bridge entities

作者会把所有文档里抽出来的实体汇总，找出那些同时出现在多篇文档里的实体。

这些实体被定义成：

bridge entities

筛选条件大致是：

至少出现在 2 篇文档里
但又不能太高频

论文里用了一个上界阈值 (\tau)，实验默认：

(\tau = 10)

直觉上很好理解：

如果一个实体只在一篇文档里出现，它不能桥接任何东西
如果一个实体到处都出现，它往往太泛，没什么桥接价值

所以作者要找的是：

能连文档，但又不是噪声源的实体。

3.3 真正的核心：生成 bridging facts

接下来才是这篇 paper 的灵魂。

对每个 bridge entity (e)，系统会：

找到所有包含它的文档
从这些文档里抽取与这个实体相关的事实片段
把这些事实片段喂给 LLM
让 LLM 生成一组 bridging facts

bridging fact 不是摘要，不是重写，也不是纯粹压缩。它本质上是：

把多个文档才能联合推出的结果，提前写成一条可以被独立检索的事实。

还是看论文里的例子：

Doc A: “Aylwin is directed by Henry Edwards”
Doc B: “Henry Edwards was born in Weston-super-Mare”

系统生成：

“The director of the film Aylwin was born in Weston-super-Mare.”

这句话的厉害之处在于：

第一，它不是原文里现成的一句

它是跨文档推理后的新对象。

第二，它和用户 query 的语义空间高度贴近

用户问：

“Where was the director of Aylwin born?”

这条 bridge 就非常容易被 embedding 检中。

第三，它把多跳问题变成了“像单跳一样能被检中”的问题

这就是 IndexRAG 真正解决问题的方式。

它不是增强模型推理，而是：

把推理结果做成更适合检索的索引单元。

3.4 为什么它比“让模型自己拼”更稳

因为向量检索天然更擅长：

找与 query 语义直接对齐的文本

而不擅长：

找到两个“半相关文本”，再指望系统后面稳定拼成完整答案

所以 IndexRAG 的策略非常务实：

不要求检索器学会复杂推理
不要求在线时再建图、走图、想多轮
只是把“复杂推理的结果”提前烘焙进向量库

这个设计非常像系统工程里的一个经典套路：

能预计算的，就不要放到在线计算。

4. 这个方法不是没有克制，它其实很谨慎

论文没有把 bridge generation 做成“无限扩张的知识图谱推理”，而是加了很多约束。

比如：

每个 bridge entity 最多只用 5 个源文档
每个文档最多取 8 条 facts

这说明作者的目标不是：

做一个无所不能的 reasoning engine

而是：

做一个够用、可控、工程上能落地的跨文档桥接器

换句话说，IndexRAG 不是想统治所有复杂推理任务，它只想把一大类常见的多跳问答问题先稳定解决掉。

5. 在线阶段为什么还要加一道小阀门

在线检索的时候，库里会同时有两种对象：

AKU
bridging facts

论文发现一个很现实的问题：

bridging facts 普遍更短
更短的文本在 embedding 相似度排序里容易占便宜

文中给出的平均长度大约是：

bridging fact：166 字符
AKU：634 字符

于是如果你直接 top-k：

很可能检到一堆 bridge
反而把原始信息更密集的 AKU 挤掉

这就会带来一个新的问题：

你拿到了推理捷径
但丢掉了原始证据和上下文密度

所以作者引入了一个很关键、但看起来不花哨的设计：

5.1 Balanced Context Selection

做法很简单：

最终上下文里允许 AKU 和 bridge 混合
但限制 bridge 的数量上限

论文默认：

最终 k = 10
其中 bridge 最多 (k_b = 3)

我觉得这个设计特别体现作者的成熟度。

因为它承认一件事：

bridging fact 很强，但它不是完整证据。

系统不能被“短平快的桥接句子”完全占满，还是要保留足够的原始知识单元。

6. 实验结果怎么看才不被“平均分”骗到

这篇 paper 在三个多跳 QA benchmark 上做实验：

HotpotQA
2WikiMultiHopQA
MuSiQue

主看 F1 就够了。

6.1 它确实比 Naive RAG 强，而且不是小强

平均 F1：

Naive RAG: 47.1
IndexRAG: 51.7

也就是：

+4.6 F1

这不是调参级别的小提升，而是说明“索引中加入桥接事实”这个想法真的有效。

6.2 它在 HotpotQA 和 MuSiQue 上都挺能打

HotpotQA

Naive RAG：63.6
IndexRAG：68.9

MuSiQue

Naive RAG：29.9
IndexRAG：34.4

这说明它对典型链式多跳推理的帮助是实打实的。

6.3 但它并没有通杀，2Wiki 上它就没赢

2WikiMultiHopQA

IndexRAG：51.7
FastGraphRAG：57.4

这不是坏事，反而说明这篇 paper 还有点诚实。

论文给出的解释是：

2Wiki 里 comparison / bridge comparison 问题很多
这些问题天然更适合显式图结构
因为它们需要并行获取多个实体属性再比较

而 IndexRAG 的 bridge 更像：

把一条 sequential reasoning path 压成一条可检索句子

所以它更擅长：

链式多跳 而不是所有类型的复杂组合推理。

6.4 和 IRCoT 一起用，效果反而更好

另一个很重要的结果是：

IRCoT: 41.6
IRCoT + IndexRAG: 55.0

这说明 bridging facts 不只是“取代复杂在线推理”的替代路线，它也可以成为更复杂推理系统的更好知识底座。

这让我觉得它不是一个封闭方法，而像一个：

可以外挂到很多 RAG pipeline 上的 indexing enhancement。

7. 这篇 paper 真正厉害的地方，不是分数，是系统观

如果只看分数，这篇 paper 看起来像：

“哦，一个 multi-hop RAG 增强方法”

但我觉得真正应该记住的是它背后的系统观：

7.1 它重新定义了 index 的作用

传统 index 只是：

存 chunk
存 embedding
供查询时召回

IndexRAG 的想法是：

index 不只是文档的存储结构，也可以是推理结果的存储结构。

这个转向很重要。

因为一旦你接受这个前提，后面很多事情都会变：

你不一定只存原文 chunk
你也可以存 bridge
可以存 summary
可以存 relation schema
可以存 verified facts
甚至可以存 task-specific reasoning cache

这条路一旦打开，RAG 的重点就不只是“检索器怎么调”，而会转到：

知识在进入索引之前，应该被加工成什么样子？

这是我觉得这篇 paper 最有启发性的地方。

7.2 它对线上系统特别友好

很多论文一提多跳推理，就默认：

多轮调用
图搜索
rerank
agent loop

但真实系统最怕的就是这些：

延迟高
复杂度高
维护难
debug 难

IndexRAG 很现实：

离线多花点钱
在线尽量不加链路

对产品系统来说，这个 trade-off 很有吸引力。

8. 但它的最大坑也非常清楚

我最担心的不是它做不到，而是它做错了以后会更麻烦。

8.1 最大风险：离线 hallucination 会污染索引

bridging facts 是 LLM 生成的。这意味着如果模型在离线阶段：

过度概括
拼错关系
忽略限定条件
把相关但不成立的事实硬连起来

这些错误不会像一次 query-time 幻觉那样“一次性结束”，而是会：

被写进索引
长期存在
以后反复被命中

也就是说，IndexRAG 的系统性风险不是“在线瞎编”，而是：

离线预编译时瞎编，然后长期污染整个 retrieval layer。

这是非常 serious 的问题。

8.2 它现在主要还是 entity-centric

目前这篇 paper 的桥接核心是：

找共享实体
围绕共享实体拼桥接事实

这很适合百科式 QA，但也意味着它的能力边界比较明确。

它不太自然覆盖的情况包括：

同义表达连接
事件时间链
因果关系
更抽象的 schema matching
不通过显式共享实体也能成立的跨文档推理

所以它更像：

entity-centric bridge generation

而不是更广义的：

relation-centric reasoning
event-centric reasoning

8.3 它的可解释性不如图方法天然好

图方法很重，但有一个好处：

你能看到节点
能看到边
能看到路径

而 bridging fact 是一条已经“推好”的句子。

如果没有额外 provenance，你很难知道：

这条 bridge 来自哪些文档
中间链路是什么
是哪一步组合出来的

这会影响：

debug
审计
用户解释
错误归因

9. 如果我自己实现一版 IndexRAG，系统该怎么搭

这一节是我觉得你要求里最值得补的：实现环节。

如果我要自己做一个工程版 IndexRAG，我不会一上来就追论文里的所有细节，而会按下面这套最小可用系统来搭。

9.1 整体架构

我会拆成 5 个模块：

文档摄入层（Ingestion）
知识抽取层（AKU + entity extraction）
桥接生成层（bridge generation）
索引存储层（vector store + metadata store）
在线检索与答案生成层

对应的数据流是：

原始文档 → 抽 AKU / entity → 基于共享实体分桶 → 生成 bridging facts → 与 AKU 一起入库 → 在线检索时混合召回 → 受控拼上下文 → LLM 回答

9.2 Ingestion：不要直接拿原文就建索引

输入可以是：

网页
PDF
Markdown 文档
内部知识库页面

这里最关键的不是“读进来”，而是两件事：

A. 清洗成稳定文本

你需要去掉：

导航
页脚
重复标题
PDF 噪声

B. 保留文档级 metadata

至少要保留：

doc_id
title
source
updated_at
domain
section/span offsets

因为后面不管是 bridge 追溯，还是增量更新，都离不开这些元数据。

9.3 AKU 抽取：先做简单稳定版

论文里 AKU 是更知识化的最小单元。

工程上我会先做一个务实版本：

先把文档切成语义段落
再让 LLM 对每个段落抽取 3~8 条原子事实
每条事实带上来源 span

存储格式建议像这样：

{
  "aku_id": "aku_xxx",
  "doc_id": "doc_xxx",
  "text": "Henry Edwards was born in Weston-super-Mare.",
  "entities": ["Henry Edwards", "Weston-super-Mare"],
  "source_spans": ["paragraph_12"]
}

这里有两个关键点：

AKU 最好是一条一条存，而不是大块拼接
一定要保留 source span

不然你后面几乎没法 debug。

9.4 Entity extraction：先别追求太 fancy

最小可用版本里，entity extraction 可以是：

NER 模型 + 规则
或直接 LLM 抽取

关键不是“实体识别最强”，而是：

统一别名
统一规范名
降低实体碎片化

例如：

“Henry Edwards”
“Edwards”
“Mr. Edwards”

如果不做 alias resolution，bridge generation 会被严重稀释。

所以我会加一个简单的实体规范化层：

canonical name
alias list
doc frequency

9.5 Bridge generation：这是实现里最该小心的环节

对每个共享实体，把相关 AKU 聚在一起，让 LLM 生成 bridge。

但这里我不会直接“生成完就入库”，而会加三道保险：

保险 1：限制输入规模

和论文一样，控制：

最大文档数
每文档最大事实数

因为一旦输入太长：

成本高
容易跑偏
更容易 hallucinate

保险 2：要求输出结构化结果

不要只让模型输出自由文本。我会要求它输出：

{
  "bridge_text": "The director of Aylwin was born in Weston-super-Mare.",
  "support_akus": ["aku_1", "aku_7"],
  "bridge_entity": "Henry Edwards",
  "reasoning_type": "two_hop_attribute"
}

这样后面至少还能追溯。

保险 3：加一层验证

这是论文里我最想补的部分。

验证可以有几种轻量方案：

再让一个 verifier LLM 判断 bridge 是否被支持
或要求 bridge 必须能被 source AKU 逐步还原
或做 entailment / contradiction check

如果做不到严格验证，至少也要打一个：

confidence score
verified / unverified

否则 bridge 很容易把库污染掉。

9.6 索引层：AKU 和 bridge 不要混成一锅粥

我会把它们存进同一个向量库，但 metadata 要区分清楚：

{
  "id": "bridge_123",
  "type": "bridge",
  "text": "The director of Aylwin was born in Weston-super-Mare.",
  "bridge_entity": "Henry Edwards",
  "support_akus": ["aku_1", "aku_7"],
  "verified": true,
  "confidence": 0.91
}

AKU 也类似：

type = aku
doc_id
source_spans

这样在线检索时才能：

控制 bridge 占比
做 provenance 展示
针对不同类型做 rerank

9.7 在线检索：不要只做 top-k，要做配比

这一点论文已经给了很好的启发。

我会这样做：

query 编码
从统一库里取 top-N
按类型分开：
- bridge
- aku
再按规则做配比选择

一个简单的版本可以是：

最终上下文 10 条
最多 3 条 bridge
至少 5 条 aku
其余按分数补齐

这样可以避免：

一堆短 bridge 抢满上下文

9.8 答案生成：最好把 provenance 一起喂进去

最终给 LLM 的上下文里，我会保留结构：

[BRIDGE] ...
[AKU] ...
[SOURCE: doc_x / para_y]

这样模型在回答时更容易：

区分桥接事实和原始事实
也更容易在需要时给出处

9.9 增量更新：这是工程里真正难的地方

论文提到新增文档时，只重跑受影响实体对应的 bridge generation。这个方向是对的。

工程上我会至少维护两张反向索引：

entity -> aku_ids
entity -> bridge_ids

这样一篇新文档进来后：

先抽 AKU / entity
看它引入了哪些新实体
对受影响实体局部重建 bridge
替换旧 bridge 或打版本号

否则库一旦变大，重建成本会非常痛。

9.10 一个最小可落地版本的技术栈

如果让我一周内做个 MVP，我会这样选：

文档清洗：Python + unstructured / trafilatura / pypdf
AKU/实体抽取：LLM API + Pydantic schema
alias 归一化：规则 + embedding 相似度 + 小词典
向量库：FAISS / Qdrant / Milvus
metadata store：Postgres / SQLite
bridge verifier：第二个轻量 LLM call
在线服务：FastAPI

先别追求 fancy，先保证：

可追溯
可增量更新
可调试
不会大面积污染索引

10. 和 Naive RAG / GraphRAG / HippoRAG / IRCoT 到底差在哪

很多人看到 IndexRAG，第一反应都是：

这不就是另一种 GraphRAG 吗？
或者：这和 IRCoT 到底谁替代谁？

其实它们解决的是同一个大问题——跨文档推理——但下手的位置完全不同。

下面这个表可以快速抓住差别：

方法	推理主要发生在哪	在线复杂度	典型优点	更适合的问题	主要代价/风险
Naive RAG	基本不显式推理，主要靠 query + chunk 相似度	低	简单、便宜、好部署	single-hop、证据集中在单文档	多跳时经常只捞到半张答案
IndexRAG	index-time 先生成 bridging facts	低到中	保持单次检索/单次生成，同时增强多跳命中	链式 multi-hop、低延迟问答	离线 bridge 生成错误会污染索引
GraphRAG / FastGraphRAG	query-time 图检索 / 图组织	中到高	显式关系结构强，适合组合查询	比较类、关系网络明显的问题	在线链路更重，系统更复杂
HippoRAG	query-time 实体抽取 + 图检索	高	图结构强，多跳推理能力好	复杂实体关系、多跳问答	需要额外 query-time 处理，延迟更高
IRCoT	query-time 多轮“想一步、搜一步”	高	迭代式补证据能力强	问题分解明显、需要逐步搜索的问题	多轮检索 + 多轮 LLM call，成本和时延都高

如果再说得更直一点：

Naive RAG：不解决多跳，只是希望 embedding 足够幸运
IndexRAG：把多跳链提前压成可检索对象
GraphRAG：把关系显式建出来，查询时再走结构
HippoRAG：更强的图式记忆检索，但在线开销更重
IRCoT：把复杂问题拆成多轮思考和多轮搜索

10.1 一个更实用的理解方式：它们分别在“哪里花钱”

如果从系统设计角度看，这几类方法的区别可以概括成一句话：

Naive RAG：几乎哪都不花，能力最朴素
IndexRAG：把钱花在离线建库时
GraphRAG / HippoRAG：把钱花在在线结构化检索时
IRCoT：把钱花在在线多轮推理时

所以你选哪条路线，往往不是“谁绝对最强”，而是看你更能接受哪种成本：

能接受离线重一点？→ IndexRAG
能接受在线重一点，但想要显式结构？→ GraphRAG / HippoRAG
能接受在线更慢，但希望复杂问题一步步拆？→ IRCoT

10.2 我自己的选择判断

如果是我自己做系统，我会这样选：

场景 A：企业知识库 / FAQ / 低延迟问答

优先考虑：

Naive RAG + IndexRAG 式 bridge 增强

原因：

在线链路要短
成本要稳
延迟要低
多数问题是“弱多跳”而不是超复杂规划

场景 B：实体关系很强、比较问题很多

优先考虑：

GraphRAG / HippoRAG 类方法

原因：

这类题天生吃图结构
bridge 压一句话不一定够用

场景 C：研究型 agent / 复杂任务规划 / 必须逐步思考

优先考虑：

IRCoT 或其他 iterative retrieval

原因：

这类场景本来就不是“一次检索命中就完事”
需要 query-time 动态改写搜索方向

场景 D：想两边都要

最现实的路线其实是：

IndexRAG 做底座
再给上层配 IRCoT 或图检索

这也是为什么论文里 IRCoT + IndexRAG 会有不错效果：

bridge 先降低一次检索失败率
多轮推理再在更好的基础上继续走

11. 这篇 paper 最终值不值得读

值得。

尤其如果你关心：

multi-hop RAG
index design
低延迟问答系统
GraphRAG 的轻量替代方案
“有哪些推理其实可以前移到离线阶段”

它不一定是最终形态，但它提出了一个非常对的方向：

索引不只是文档的容器，也可以是推理结果的容器。

这件事一旦想明白，你看很多 RAG 系统的视角都会变。

12. 我的短评

如果只用一句话评价这篇 paper：

IndexRAG 不是在 query-time 补救检索失败，而是在 index-time 预防检索失败。

这就是它最值钱的地方。

13. 参考信息

论文标题：IndexRAG: Bridging Facts for Cross-Document Reasoning at Index Time
arXiv：https://arxiv.org/abs/2603.16415
作者：Zhenghua Bao, Yi Shi
提交时间：2026-03-17

0. 先说结论

1. 它到底在打谁：标准 RAG 为什么经常卡在 multi-hop

1.1 只检到第一跳

1.2 检到两条相关信息，但没法稳定拼起来

2. 这篇 paper 最有价值的 insight

3. 方法本身到底怎么做

3.1 Stage 1：先把文档拆成更适合检索的知识单元

3.2 Stage 2：找到能把多份文档串起来的 bridge entities

3.3 真正的核心：生成 bridging facts

第一，它不是原文里现成的一句

第二，它和用户 query 的语义空间高度贴近

第三，它把多跳问题变成了“像单跳一样能被检中”的问题

3.4 为什么它比“让模型自己拼”更稳

4. 这个方法不是没有克制，它其实很谨慎

5. 在线阶段为什么还要加一道小阀门

5.1 Balanced Context Selection

6. 实验结果怎么看才不被“平均分”骗到

6.1 它确实比 Naive RAG 强，而且不是小强

6.2 它在 HotpotQA 和 MuSiQue 上都挺能打

HotpotQA

MuSiQue

6.3 但它并没有通杀，2Wiki 上它就没赢

2WikiMultiHopQA

6.4 和 IRCoT 一起用，效果反而更好

7. 这篇 paper 真正厉害的地方，不是分数，是系统观

7.1 它重新定义了 index 的作用

7.2 它对线上系统特别友好

8. 但它的最大坑也非常清楚

8.1 最大风险：离线 hallucination 会污染索引

8.2 它现在主要还是 entity-centric

8.3 它的可解释性不如图方法天然好

9. 如果我自己实现一版 IndexRAG，系统该怎么搭

9.1 整体架构

9.2 Ingestion：不要直接拿原文就建索引

A. 清洗成稳定文本

B. 保留文档级 metadata

9.3 AKU 抽取：先做简单稳定版

9.4 Entity extraction：先别追求太 fancy

9.5 Bridge generation：这是实现里最该小心的环节

保险 1：限制输入规模

保险 2：要求输出结构化结果

保险 3：加一层验证

9.6 索引层：AKU 和 bridge 不要混成一锅粥

9.7 在线检索：不要只做 top-k，要做配比

9.8 答案生成：最好把 provenance 一起喂进去

9.9 增量更新：这是工程里真正难的地方

9.10 一个最小可落地版本的技术栈

10. 和 Naive RAG / GraphRAG / HippoRAG / IRCoT 到底差在哪

10.1 一个更实用的理解方式：它们分别在“哪里花钱”

10.2 我自己的选择判断

场景 A：企业知识库 / FAQ / 低延迟问答

场景 B：实体关系很强、比较问题很多

场景 C：研究型 agent / 复杂任务规划 / 必须逐步思考

场景 D：想两边都要

11. 这篇 paper 最终值不值得读

12. 我的短评

13. 参考信息

CATALOG

FEATURED TAGS