《运甓漫稿》服饰内容提取 · 工作日志

时间:2026-04-23 任务ID:batch5-5 任务:处理《运甓漫稿》TXT,提取服饰内容,产出3个MD


操作流程

Step 0: 环境准备

mkdir -p /home/z/my-project/upload/四库别集output/运甓漫稿
wc -l 运甓漫稿.txt → 2546行

Step 1: 读取参考文件

读取3个参考MD(总结/日志/原文提取),了解输出格式要求:

Step 2: grep多轮搜索

第1轮:宽泛搜索(全部服饰关键词)

grep -n '衣裳裘冠冕弁帻巾帽袍衫裙裤褐衮绶佩笏带锦绮绢帛丝绸缎绫罗纱绉缟缁素赤青黄白黑朱紫绯绿翠金银玉珠簪钗钿珥步摇...' 运甓漫稿.txt
→ 508行匹配(大量噪音)

第2轮:复合词搜索(精确度提升)

grep -n '衣裳\|衣冠\|布衣\|貂蝉\|绯袍\|锦衣\|衮龙\|冠服\|弁服\|冠带\|簪笏\|玉佩\|步摇\|短褐\|绶\|笏\|履\|靴\|袜\|弁\|冕\|帻\|裙\|褐' 运甓漫稿.txt
→ 精确匹配数十条

第3轮:纺织材料专项搜索

grep -n '宫锦\|越罗\|香罗\|轻绢\|红绡\|香纨\|冰纨\|鲛绡\|缠头锦\|丝纩\|蚕绩\|布帛\|缣\|纨\|纩\|绵\|缯' 运甓漫稿.txt
→ 纺织品类10余条

第4轮:宗教/丧祭专项搜索

grep -n '袈裟\|衲衣\|黄冠\|箨冠\|缁流\|衣冠閟\|泰坛\|衮龙狩' 运甓漫稿.txt
→ 6条

第5轮:首饰佩饰专项搜索

grep -n '步摇\|钗凤\|翠花钿\|宝珰\|金莲\|罗袜\|锦带\|珠缨\|绣芾\|笄珈\|簪绂\|簪缨' 运甓漫稿.txt
→ 10余条

Step 3: sed提取验证

sed -n '529p' 运甓漫稿.txt  # 验证罗敷行全文
sed -n '629p' 运甓漫稿.txt  # 验证内臣行全文
# 逐一验证关键行,确认无断章

Step 4: 过滤噪音

排除以下类型:

Step 5: 分类整理

按8大类归类:

  1. 明代官服与朝仪(12条)
  2. 军事仪仗服饰(3条)
  3. 女子服饰与首饰(5条)
  4. 隐逸与平民服饰(7条)
  5. 纺织丝织材料(16条)
  6. 宗教服饰(6条)
  7. 丧祭礼制服饰(6条)
  8. 服饰象征与意象(8条)

Step 6: 写3个MD文件


关键发现

  1. 《运甓漫稿》以诗为主,服饰内容为文学性描写,非制度性记载,但多处可佐证明代中期服饰实况
  2. 内臣绯袍胸背为重要发现——"胸背"即补服前身,明代内臣(宦官)穿绯袍胸背纹饰
  3. 罗敷诗(行529)为全书最详尽的女子服饰描写:步摇、钗凤、翠花钿、宝珰、锦带等,堪与明代首饰实物互证
  4. 越罗衫(行517)——越罗为浙江特产丝织品,明时仍为名品
  5. 丝织品种丰富:宫锦、越罗、香罗、细文轻绢、冰纨、鲛绡、红绡、霞绡、绛罗等,反映明代丝织品名目
  6. 仕隐服饰对立为全书核心意象群:簪绂/布衣、轩冕/林泉反复出现
  7. "缁尘"意象出现3次,与《洛阳伽蓝记》"缁尘染衣"一脉相承

关键踩坑记录


文件大小验证

总结.md     → ≤20KB ✓
原文提取.md  → ≤20KB ✓
日志.md     → ≤20KB ✓

审核结果

全部通过 ✅ —— 原文均从原文件grep+sed提取,有明确行号对应,噪音已过滤。