《邕州小集》服饰内容提取 · 工作日志

任务ID:batch8-3 时间:2026-04-22 输入:/home/z/my-project/upload/四库别集/邕州小集.txt 输出:/home/z/my-project/upload/四库别集output/邕州小集/


一、操作流程

Step 1: 环境准备

mkdir -p /home/z/my-project/upload/四库别集output/邕州小集
读取参考文件3份(总结.md / 日志.md / 原文提取.md)

Step 2: 文件探查

wc -l -c 邕州小集.txt
→ 333行,15892字节

文件体量极小,但仍遵守"严禁整本载入LLM"规则,以grep+sed为主操作。

Step 3: grep多轮搜索

第1轮:基础服饰名词(衣|裳|裘|冠|冕|弁|帻|巾|帽|袍|衫|裙|裤|褐) → 命中17行,含大量噪音("越裳"地名、"弁"人名等)

第2轮:丝织与面料(衮|绶|佩|笏|带|锦|绮|绢|帛|丝|绸|缎|绫|罗|纱|绉|缟|缁|素) → 命中16行,含地名噪音("罗池""罗秀山""青罗江")

第3轮:颜色与饰物(赤|青|黄|白|黑|朱|紫|绯|绿|翠|金|银|玉|珠|簪|钗|钿|珥|步摇) → 命中约25行,大量为山水诗中颜色词,非服饰语境

第4轮:制度类复合词(冠服|舆服|章服|朝服|公服|祭服|丧服|常服|戎服|赐服|蟒衣|飞鱼|斗牛|补服|品色|鱼袋|革带|玉带|金带|幞头|乌纱|进贤冠|深衣|大带|蔽膝|舄|履|靴|袜|霞帔|翟衣|蚕服) → 命中1行("青溪"误中"常服"子串无关),无制度性服饰内容

Step 4: 精细搜索补充

grep -n "红锦袍|青衫|冰蚕|凤冠|月氅|星冠|仙服|绮|整冠|铁为衣|布衣|锦|玉帛|香囊|罗薄|金线"
→ 命中10行,为有效服饰条目

Step 5: 逐条审读过滤

排除噪音7条:

行号 词汇 排除理由
L152 越裳 古国名,非衣裳
L240 人名(徐弁)
L64 桑麻 农事,非服饰成品
L307 喻藕丝,非织造用丝
L250 江名(青罗江)
L168 地名(罗池)
L102/184 地名(罗池/罗秀山)

Step 6: 分类整理

10条有效内容归为5类:

  1. 官服与品色(2条):青衫、红锦袍
  2. 戎服与甲衣(1条):铁为衣
  3. 平民服饰(1条):布衣
  4. 神仙服饰(3条):月氅星冠、仙服霞留绮、冰蚕茧/凤冠
  5. 饰物与织品(3条):香嚢聨锦、玊罗/金线、玉帛

Step 7: 写出3个MD文件

文件 大小控制 内容
总结.md ≤20KB 分类表格+核心发现+结论
原文提取.md ≤20KB 10条原文+注释+噪音排除表
日志.md ≤20KB 本文件,操作流程+踩坑记录

二、关键发现

  1. 《邕州小集》服饰内容极度稀少:全书333行仅10条有效条目,无任何服饰制度记载
  2. 唯一实证性服饰:李晟"红锦袍"(L16),可佐证唐代武将戎服
  3. "青衫"承唐制:宋初低级官服仍沿唐制
  4. 丝织品均为比喻:冰蚕茧、绮、罗、锦等皆为咏物修辞,非实物描写
  5. "月氅星冠"为道教服饰想象:反映宋代南方道教文化

三、踩坑记录

  1. 地名与服饰词混淆:全书出现"罗"字7次,仅1次("玊罗薄")为丝织品义,其余6次为地名/人名。grep搜索必须逐条审读
  2. "越裳"陷阱:L152"越裳济海喜天晴"中"越裳"为古国名(越裳国),非"越地衣裳"
  3. "弁"字双关:L240"寄苏州徐处士弁"中"弁"为人名,非冠弁
  4. 颜色词洪水:第3轮搜索"赤青黄白黑朱紫"等颜色词命中25行,但90%以上为山水诗中的自然色彩描写,与服饰无关
  5. "丝"字比喻义:L307"丝应鲛乞与"为咏藕诗,"丝"喻藕丝,非织造用丝
  6. 复合词零命中:冠服、舆服、朝服等制度性复合词完全不存在,证实此书无制度性服饰内容

四、文件校验

wc -c 总结.md 原文提取.md 日志.md
→ 均应 ≤ 20KB

日志完。