《邕州小集》服饰内容提取 · 工作日志
任务ID:batch8-3 时间:2026-04-22 输入:/home/z/my-project/upload/四库别集/邕州小集.txt 输出:/home/z/my-project/upload/四库别集output/邕州小集/
一、操作流程
Step 1: 环境准备
mkdir -p /home/z/my-project/upload/四库别集output/邕州小集
读取参考文件3份(总结.md / 日志.md / 原文提取.md)
Step 2: 文件探查
wc -l -c 邕州小集.txt
→ 333行,15892字节
文件体量极小,但仍遵守"严禁整本载入LLM"规则,以grep+sed为主操作。
Step 3: grep多轮搜索
第1轮:基础服饰名词(衣|裳|裘|冠|冕|弁|帻|巾|帽|袍|衫|裙|裤|褐) → 命中17行,含大量噪音("越裳"地名、"弁"人名等)
第2轮:丝织与面料(衮|绶|佩|笏|带|锦|绮|绢|帛|丝|绸|缎|绫|罗|纱|绉|缟|缁|素) → 命中16行,含地名噪音("罗池""罗秀山""青罗江")
第3轮:颜色与饰物(赤|青|黄|白|黑|朱|紫|绯|绿|翠|金|银|玉|珠|簪|钗|钿|珥|步摇) → 命中约25行,大量为山水诗中颜色词,非服饰语境
第4轮:制度类复合词(冠服|舆服|章服|朝服|公服|祭服|丧服|常服|戎服|赐服|蟒衣|飞鱼|斗牛|补服|品色|鱼袋|革带|玉带|金带|幞头|乌纱|进贤冠|深衣|大带|蔽膝|舄|履|靴|袜|霞帔|翟衣|蚕服) → 命中1行("青溪"误中"常服"子串无关),无制度性服饰内容
Step 4: 精细搜索补充
grep -n "红锦袍|青衫|冰蚕|凤冠|月氅|星冠|仙服|绮|整冠|铁为衣|布衣|锦|玉帛|香囊|罗薄|金线"
→ 命中10行,为有效服饰条目
Step 5: 逐条审读过滤
排除噪音7条:
| 行号 | 词汇 | 排除理由 |
|---|---|---|
| L152 | 越裳 | 古国名,非衣裳 |
| L240 | 弁 | 人名(徐弁) |
| L64 | 桑麻 | 农事,非服饰成品 |
| L307 | 丝 | 喻藕丝,非织造用丝 |
| L250 | 罗 | 江名(青罗江) |
| L168 | 罗 | 地名(罗池) |
| L102/184 | 罗 | 地名(罗池/罗秀山) |
Step 6: 分类整理
10条有效内容归为5类:
- 官服与品色(2条):青衫、红锦袍
- 戎服与甲衣(1条):铁为衣
- 平民服饰(1条):布衣
- 神仙服饰(3条):月氅星冠、仙服霞留绮、冰蚕茧/凤冠
- 饰物与织品(3条):香嚢聨锦、玊罗/金线、玉帛
Step 7: 写出3个MD文件
| 文件 | 大小控制 | 内容 |
|---|---|---|
| 总结.md | ≤20KB | 分类表格+核心发现+结论 |
| 原文提取.md | ≤20KB | 10条原文+注释+噪音排除表 |
| 日志.md | ≤20KB | 本文件,操作流程+踩坑记录 |
二、关键发现
- 《邕州小集》服饰内容极度稀少:全书333行仅10条有效条目,无任何服饰制度记载
- 唯一实证性服饰:李晟"红锦袍"(L16),可佐证唐代武将戎服
- "青衫"承唐制:宋初低级官服仍沿唐制
- 丝织品均为比喻:冰蚕茧、绮、罗、锦等皆为咏物修辞,非实物描写
- "月氅星冠"为道教服饰想象:反映宋代南方道教文化
三、踩坑记录
- 地名与服饰词混淆:全书出现"罗"字7次,仅1次("玊罗薄")为丝织品义,其余6次为地名/人名。grep搜索必须逐条审读
- "越裳"陷阱:L152"越裳济海喜天晴"中"越裳"为古国名(越裳国),非"越地衣裳"
- "弁"字双关:L240"寄苏州徐处士弁"中"弁"为人名,非冠弁
- 颜色词洪水:第3轮搜索"赤青黄白黑朱紫"等颜色词命中25行,但90%以上为山水诗中的自然色彩描写,与服饰无关
- "丝"字比喻义:L307"丝应鲛乞与"为咏藕诗,"丝"喻藕丝,非织造用丝
- 复合词零命中:冠服、舆服、朝服等制度性复合词完全不存在,证实此书无制度性服饰内容
四、文件校验
wc -c 总结.md 原文提取.md 日志.md
→ 均应 ≤ 20KB
日志完。