目标
我们的目标是尽可能使用低成本地来创建一套RAG。包括较低的计算成本和存储成本。
所以对于下载好的wikipadia离线资料会先做处理,选择我们感兴趣的页面计算并丢入向量数据库。
下载
zhwiki dump progress 下载中文维基百科资料。
zhwiki-[date]-pages-articles-multistream.xml.bz2zhwiki: 项目名(中文维基百科)。[date]: 你选择的日期,例如20250701。pages-articles: 这是关键!它表示这个文件包含了所有文章页面(Articles) 的当前版本。它不包含讨论页、用户页、历史版本等“噪音”,非常适合作为知识库。multistream: 这是一个多流的 bz2 压缩文件。它的好处是解压和处理时可以更好地利用多核CPU进行并行处理,速度更快。如果你不确定,选这个比不带multistream的要好。.xml.bz2: 这是一个经过 bz2 压缩的 XML 文件。
zhwiki-[date]-categorylinks.sql.gz- 它记录了哪个页面(
cl_from)属于哪个分类(cl_to)。
- 它记录了哪个页面(
zhwiki-[date]-page.sql.gz- 这个文件包含了所有页面的元信息,如页面ID (
page_id)、页面标题 (page_title) 和命名空间 (we8page_namespace)。我们需要它来将页面ID和标题对应起来。
- 这个文件包含了所有页面的元信息,如页面ID (