ulw
在当前文件夹下有《佩文韵府》全部内容的html文件和一个之前结构化处理时创建的readme文件。现在你需要将《佩文韵府》全书整理成像../下其他文件夹里的json文件那样的json文件。
你需要先在维基文库上https://zh.wikisource.org/zh-hans/%E5%BE%A1%E5%AE%9A%E4%BD%A9%E6%96%87%E9%9F%BB%E5%BA%9C_(%E5%9B%9B%E5%BA%AB%E5%85%A8%E6%9B%B8%E6%9C%AC)把剩下没爬取下来的卷爬取下来的;
然后你需要自行解析html文件,理解各部分的内容,整理出大致如下结构的json文件:
(韵母)东:{
卷:01之一;
声:上平声;
韵:一东;
小韵描述:东德红切……;
词条:{
澗瀍東:……;
宿西食東:……;
增震東:……;
}
对语:……;
摘句:……;
}+