17 lines
812 B
Plaintext
17 lines
812 B
Plaintext
ulw
|
||
在当前文件夹下有《佩文韵府》全部内容的html文件和一个之前结构化处理时创建的readme文件。现在你需要将《佩文韵府》全书整理成像../下其他文件夹里的json文件那样的json文件。
|
||
你需要先在维基文库上https://zh.wikisource.org/zh-hans/%E5%BE%A1%E5%AE%9A%E4%BD%A9%E6%96%87%E9%9F%BB%E5%BA%9C_(%E5%9B%9B%E5%BA%AB%E5%85%A8%E6%9B%B8%E6%9C%AC)把剩下没爬取下来的卷爬取下来的;
|
||
然后你需要自行解析html文件,理解各部分的内容,整理出大致如下结构的json文件:
|
||
(韵母)东:{
|
||
卷:01之一;
|
||
声:上平声;
|
||
韵:一东;
|
||
小韵描述:东德红切……;
|
||
词条:{
|
||
澗瀍東:……;
|
||
宿西食東:……;
|
||
增震東:……;
|
||
}
|
||
对语:……;
|
||
摘句:……;
|
||
}+ |