Files
spider-ctext/佩文韵府/prompt.txt
2026-03-22 16:18:35 +08:00

17 lines
812 B
Plaintext
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
ulw
在当前文件夹下有《佩文韵府》全部内容的html文件和一个之前结构化处理时创建的readme文件。现在你需要将《佩文韵府》全书整理成像../下其他文件夹里的json文件那样的json文件。
你需要先在维基文库上https://zh.wikisource.org/zh-hans/%E5%BE%A1%E5%AE%9A%E4%BD%A9%E6%96%87%E9%9F%BB%E5%BA%9C_(%E5%9B%9B%E5%BA%AB%E5%85%A8%E6%9B%B8%E6%9C%AC)把剩下没爬取下来的卷爬取下来的;
然后你需要自行解析html文件理解各部分的内容整理出大致如下结构的json文件
(韵母)东:{
01之一
声:上平声;
韵:一东;
小韵描述:东德红切……;
词条:{
澗瀍東:……;
宿西食東:……;
增震東:……;
}
对语:……;
摘句:……;
}+