瑟瑟和你说早安

目标

我们的目标是尽可能使用低成本地来创建一套RAG。包括较低的计算成本和存储成本。

所以对于下载好的wikipadia离线资料会先做处理，选择我们感兴趣的页面计算并丢入向量数据库。

zhwiki dump progress 下载中文维基百科资料。

zhwiki-[date]-pages-articles-multistream.xml.bz2
- zhwiki : 项目名（中文维基百科）。
- [date] : 你选择的日期，例如 20250701。
- pages-articles : 这是关键！它表示这个文件包含了所有文章页面（Articles） 的当前版本。它不包含讨论页、用户页、历史版本等“噪音”，非常适合作为知识库。
- multistream : 这是一个多流的 bz2 压缩文件。它的好处是解压和处理时可以更好地利用多核CPU进行并行处理，速度更快。如果你不确定，选这个比不带multistream的要好。
- .xml.bz2 : 这是一个经过 bz2 压缩的 XML 文件。
zhwiki-[date]-categorylinks.sql.gz
- 它记录了哪个页面（cl_from）属于哪个分类（cl_to）。
zhwiki-[date]-page.sql.gz
- 这个文件包含了所有页面的元信息，如页面ID (page_id)、页面标题 (page_title) 和命名空间 (we8page_namespace)。我们需要它来将页面ID和标题对应起来。