type
Post
status
Published
date
Sep 21, 2025
slug
summary
tags
人工智能
category
技术分享
icon
password

📦 分段与清洗

核心思想: 怎么把一篇长文章“切成小块”给 AI 吃,这样它才能消化并准确回答你的问题。
通俗理解:
  1. 为什么需要“切块”?
      • 就像你不能一口吞下一个大西瓜,AI 也无法一次性处理太长的文档。
      • 把长文档切成小块(分段),AI 才能精准地找到和你的问题最相关的那一小块内容来回答。
  1. 两种“切法”(分段模式):
      • 通用模式: 把文章像切香肠一样,均匀地切成独立的小段。搜索问题时,直接匹配最相关的小段。
      • 父子模式: 一种更聪明的切法。
        • 父块: 是一大段(比如一个段落),保留了完整的背景信息。
        • 子块: 是从父块里再切出来的小句子,用于精确匹配你的问题关键词。
        • 工作原理: 先用子块(小句子)精准找到答案位置,然后把父块(整个段落)一起给 AI,让它既有答案又有完整背景,回答得更准、更全面。
      • 自定义模式:你可以自己决定每个分段有多长(Segment Length),以及相邻两个分段之间要重叠多少内容(Overlap)。
        • 分段长度:通常建议在 500-1000 字左右。太短会导致语义破碎,太长会超出 AI 的处理能力。
        • 重叠长度:这是为了保持上下文连贯。比如第一段末尾和第二段开头重复 50 个字,能防止重要的信息刚好被“切断”在分段处。
  1. “清洗”是什么?
      • 就是在把内容喂给 AI 之前,先把里面的“垃圾”清理掉,比如多余的空格、空行、网页链接等,避免这些噪音影响回答质量。
一句话总结: 这个文档讲的是如何把长文档预处理成适合AI消化的小块,有两种方法,其中“父子模式”通过大小块结合,能让AI回答得更精准。

🔍 索引方式:为知识库建立“导航系统”

核心思想: 文档切好块之后,如何建立“快速查找目录”(索引),以及如何根据你的问题找到最相关的内容(检索)。
通俗理解:
  1. 两种“目录”建立方式(索引方式):
      • 高质量索引(推荐): 这是最推荐的方式。它使用 Embedding(嵌入)模型 将文字转化为数字向量。
        • 原理:AI 不再只看字面意思,而是理解语义。比如你搜“番茄”,它能帮你找到“西红柿”。
        • 优点:回答更精准、更具相关性。
        • 缺点:需要消耗 Token(因为要调用模型进行向量化)。
      • 经济索引: 这种方式类似于传统的“关键词搜索”。
        • 原理:只匹配字面上相同的词。
        • 优点:完全免费,处理速度极快。
        • 缺点:不够聪明,如果你问法稍有不同,它可能就找不到了。
  1. 三种“查找”方法(检索设置)(仅在高质量索引下可用):
      • 向量检索(语义检索): 根据语义相似度找答案。把你的问题和所有内容块的“语义指纹”进行比对,意思越接近,排名越高。
      • 全文检索(关键词检索): 根据关键词匹配找答案。
      • 混合检索: 上面两种方法结合。可以自己调节“看意思”和“看关键词”的权重配合 或者使用 Rerank(重排序)模型。这是目前的“黄金标准”,它会先撒网捕鱼,再由 Rerank 模型精选出最相关的结果。
      • Rerank 模型(优化器): 一个可选的“二次校对”步骤。用更聪明的模型对初步找出的结果重新排序,把最相关的内容排到最前面,让 AI 得到最好的信息。
  1. 一个特殊功能:Q&A 模式
      • 只适用于“常见问题解答”这类文档。
      • AI 会自动把文档内容变成“问题-答案”对。
      • 当你提问时,系统会先匹配最相似的问题,然后直接给出对应的答案。非常精准高效。

🧩 两者关系

可以把这两个过程想象成整理一个图书馆:
  1. 分段与清洗(第一个文件) 就像是:把买回来的新书拆掉包装、清理污渍(清洗),然后按照章节或者主题拆分成册或者贴上便签(分段),方便上架。
  1. 索引与检索(第二个文件) 就像是:为这些整理好的书册编制目录卡片(索引),并制定读者来借书时,管理员根据目录快速找书的规则和方法(检索)
最终目的:都是为了当用户(读者)提问(借书)时,AI(图书管理员)能够快速、准确地从知识库(图书馆)中找到最相关的内容(书),然后给出高质量的回答。

📊 核心对比与总结

功能模块
核心目的
关键建议
清洗与分段
提高数据质量,适应模型窗口
务必设置 Overlap(重叠度),防止语义断层。
高质量索引
追求理解深度和准确度
适合企业级应用、客服机器人,建议搭配 Rerank 模型。
经济索引
节省成本,处理海量无关紧要的数据
适合简单的文档检索,对语义理解要求不高的场景。

💡 最佳实践

如果构建一个专业的知识库(比如产品手册或法律法规),最佳实践组合是:
  1. 使用自定义分段,设置 800 字长度和 10% 的重叠。
  1. 开启高质量索引
  1. 选择混合检索并启用 Rerank 模型
这种配置虽然会消耗一些 Token,但能极大地减少 AI “胡言乱语”的情况,让它表现得更像一个真正的专家。
Rerank内部机制与score对比deepseek与qwen在策略上的差异
Loading...