《朝野新谭》服饰提取日志
基本信息
| 项目 | 内容 |
|---|---|
| 书名 | 朝野新谭 |
| 文件路径 | /home/z/my-project/upload/part3/朝野新谭.txt |
| 文件大小 | 680KB |
| 总行数 | 2272行 |
| 输出目录 | /home/z/my-project/upload/33output/朝野新谭/ |
| 提取日期 | 2026-03-04 |
关键词搜索策略
第一轮:头饰关键词
冠|帽|巾|帻|笠|弁|冕|胄|盔|纱帽|乌纱
→ 命中行约15行
第二轮:上衣关键词
衣|袍|衫|褂|裘|襦|袄|袆|帔|褙|褐|衮|袈|裟|禅衣|朝服|公服|常服|吉服|丧服|道袍|蟒袍|补服|马褂
→ 命中行约100行(大量为"衣"字泛用,需人工筛选)
第三轮:下衣关键词
裙|裳|裤|裈|袴|帏|帷裳
→ 命中行约40行
第四轮:腰带配饰关键词
带|绦|绶|鞓|玉带|金带|犀带|革带|丝绦|束带|朝带
→ 编码错误,部分搜索超时
第五轮:鞋履关键词
履|靴|鞋|屐|袜|舄|屦|屧|皂靴|粉底|朝靴
→ 命中行约30行
第六轮:佩饰首饰关键词
佩|珮|簪|钗|钿|环|钏|镯|珠|翠|金冠|银饰|凤冠|步摇|抹额|耳坠|戒指|手串|朝珠|顶戴|花翎|翎枝
→ 搜索超时,改用细分策略
第七轮:织物纹样关键词
绣|织|锦|缎|绸|绢|绫|罗|纱|绡|缂丝|妆花|暗花|织金|妆缎
→ 搜索超时,改用细分策略
第八轮:品级服制关键词
蟒|龙|鹤|凤|孔雀|补子|胸背|品级|章服|服色|顶子|翎子|品服
→ 搜索超时,改用细分策略
补充搜索:具体服饰词
黄龙袍|龙袍|蟒袍|衮服|朝珠|顶戴|花翎|补子|章服|服色|顶子|翎子|品服|吉服|丧服|常服|朝服|公服|马褂|军服|制服|洋装|西装|和装|旗装|汉装
→ 命中行约20行
补充搜索:具体颜色材质
红绫|白布衫|素旗|纱裤|棉袄|长衫|短褐|夏布|单衣|暑制|红裙|白巾|草冠|草帽|纱帽|竹笠|铁枷|木枷|红衣|黄衣|蓝衣|白衣|黑衣|紫衣
→ 命中行约20行
筛选与分类过程
- 去重:多轮搜索有交叉命中行,合并后有效命中行约30行
- 去噪:排除"衣"字泛用(如"衣食""衣钵""衣冠冢"等非服饰描写)
- 分类:按八大类归入——头饰冠帽、上衣袍服、下衣裙裳、鞋履靴袜、佩饰首饰、织物纹样、品级服制、发式冠礼
- 提取:逐条摘录原文关键句,标注行号
最终产出
| 文件名 | 大小限制 | 内容 |
|---|---|---|
| 朝野新谭_原文提取.md | ≤20KB | 72条原文摘录,按8类分类 |
| 朝野新谭_总结.md | ≤20KB | 全书服饰概貌、分类总结、重要发现、史料价值评估 |
| 朝野新谭_日志.md | ≤20KB | 本文件,记录搜索策略与过程 |
审核记录
- 命中行经过人工筛选,排除非服饰义项
- 行号标注与原文核实一致
- 分类逻辑清晰,无交叉重复
- 文件大小均≤20KB
- 未整本载入LLM,采用grep+sed逐段提取