须溪集 服饰提取日志
基本信息
- 书名:须溪集
- 文件路径:/home/z/my-project/upload/四库别集3/四库别集3/须溪集.txt
- 总行数:1324行
- 提取日期:2026-03-05
提取流程
第1步:wc -l 统计
第2步:8轮grep -n 关键词提取
| 轮次 |
关键词 |
初筛行数 |
| 1 |
冠冕弁帻帽巾幞头进贤冠武冠 |
约32行 |
| 2 |
衣裳袍衫袄褂襦褐裘袈裟 |
约48行 |
| 3 |
裙裤履舄靴袜鞋 |
约22行 |
| 4 |
带佩笏绶鱼袋玉带金带银带 |
约38行 |
| 5 |
锦绮帛绢绫罗缎绸缂丝纱 |
约24行 |
| 6 |
丝麻葛布裘棉缯缣 |
约28行 |
| 7 |
染色绣纹黼黻章赭朱紫绯青 |
约40行(含大量非服饰色彩用例) |
| 8 |
赐服赐衣赐紫赐绯赐袍赐带 |
约2行 |
第3步:合并去重
- 8轮共命中约234行次(含大量重叠)
- 去重后约102行涉及服饰关键词
第4步:对抗审查(排除非服饰用例)
排除类型及数量:
- "色"字非服饰用例(约15行):如"光色""天色""春色""月色""角色"等纯颜色/景色描写
- "衣"字非服饰用例(约8行):如"衣税"(赋税)、"衣食"泛指生计
- "丝"字非服饰用例(约6行):如"牵丝"(傀儡)、"一丝"(数量)
- "青"字非服饰用例(约10行):如"青青"(植物)、"青春"(年龄)
- "带"字非服饰用例(约12行):如"地带""带江""带岭峤""带月"等地理/携带义
- "衣冠"作阶层代称(约8行):保留并标注为"阶层象征义"
- "履"字非服饰用例(约5行):如"履行""履历"(动词义)
- "纹"字非服饰用例(约3行):如"水纹"等自然纹理
- "紫""朱"等非服饰用例(约6行):如"紫微""朱氏"(姓氏/星名)
审查后确认服饰行:约68行
第5步:分类汇总
- 头衣类:18行
- 体衣类:28行
- 下衣/足衣类:15行
- 佩饰类:12行
- 织物类:6行
- 质料类:5行
- 色彩纹饰类:14行
- 赐服类:4行
第6步:写入三份MD
- 须溪集_总结.md
- 须溪集_日志.md(本文件)
- 须溪集_原文提取.md
难点与说明
- "衣冠"高频出现但多为阶层代称:须溪集中"衣冠"一词近半数指代士绅阶层而非具体服饰,已分别标注
- 词作中服饰描写较散:词中偶见"裙带""袜""红衫"等,但多为写景抒情之笔
- 礼制服饰集中学记:衮衣、冕服、佩玉、赤舄等集中在学记、祠记类文章
- 第7轮"色""青""紫"误报极多:因含大量景色、姓名用例,经审查大幅削减