图解 LangChain 26｜Document Loaders：把原始内容干净地读进来

上一篇给了 RAG 五段全景。这一篇讲第一段——Document Loaders：把原始内容读进来。

听起来简单（不就读个文件吗），但它是整条 RAG 链的起点，读进来的质量直接决定后面一切。PDF 的表格没读对、网页的导航栏没去掉，后面切分、向量化、检索再精细，也是垃圾进垃圾出。

Document：统一的载体

不管原始内容是 PDF、网页还是数据库，Loaders 读进来的统一格式都是 Document 对象：

Document 对象结构

一个 Document 包含两部分：

这个统一格式很关键：不管来源多杂，进了 LangChain 都是 Document。后面的切分、向量化只认 Document，不用为每种来源单独写处理。

不同来源有不同的 Loader，LangChain 提供一大堆：

选 Loader 看你的数据来源。值得注意：同一来源可能有多个 Loader（比如 PDF 有按页读的、有按结构读的），效果不同，复杂文档要试试哪个读得干净。

Loaders 这一段，最容易被忽略的坑是格式处理：

格式处理的坑

很多人 RAG 效果差，第一反应是「换个 embedding 模型」「调检索参数」，但其实根子在 Loader 这步没读干净。加载格式决定了后面切分质量，这是最该花心思却最常被忽视的一环。

一个好习惯：Loader 读完后，先打印 Document 的 page_content 看看，确认读得干净，再往下走。

docs = loader.load()
print(docs[0].page_content[:500])  # 看前 500 字
print(docs[0].metadata)             # 看元信息

这一步能发现大部分「格式没读对」的问题。等到向量化和检索阶段才发现 Loader 有问题，已经建好库了，返工成本大。早期多花 5 分钟检查，省后面几小时排查。

和 Phase 1 讲的一致，Loader 本质也是个 Runnable——输入来源，输出 Document 列表。所以它能进 LCEL 链，能被追踪。

不过实际中，加载通常是建库阶段离线做一次（上一篇讲的），不每次查询都加载。所以 Loader 更多是建库脚本里用，而不是在查询的 RAG 链里。

这一篇讲了 Document Loaders：

下一篇讲第二段——Text Splitters：把读进来的长文档切成块。而且会讲一个反常识的判断：切分策略比 embedding 模型更重要。

关于十三Tech

我是十三，All in AI Agent 方向的架构师，专注 AI 工程实践。我相信 AI 是程序员的最佳搭档。

如果你想跟完这套「图解 LangChain」，欢迎关注公众号 「十三Tech」。全系列 42 篇，会按认识基础、LangGraph 状态机、Agent 与 middleware、RAG 检索、Tools/MCP/记忆、生产化收束这条线更新。

十三Tech公众号二维码