Files
spider-ctext/五车韵瑞/README.md
2026-03-22 16:18:35 +08:00

5 lines
875 B
Markdown
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
地址
- 识典古籍 https://www.shidianguji.com/book/CADAL02059421/chapter/1lmkv1qwgsj7a?version=2
- 中国哲学电子书计划 https://ctext.org/wiki.pl?if=gb&res=87723&remap=gb
- 这两个网站上《五车韵瑞》的数据都属于“未经人工校对的原始机器OCR乱码文本”并且两家网站都部署了极高规格的反爬虫机制。当前状态下无法直接通过云端服务器一次性生成高质量的全书 JSON。
- 如果你想获得《五车韵瑞》那样高质量的结构化数据我建议寻找哈佛燕京图书馆或书格Shuge.org上的《佩文韵府》或《五车韵瑞》的高清 PDF 影印本,然后使用现代先进的古籍专用大模型(如 读史大模型、GPT-4o Vision重新进行高质量的 OCR 识别和 JSON 结构化拆分。直接解析现有的这两个站点的破损 OCR 是无用功。