《贞白遗稿》服饰内容提取 · 操作日志

时间:2026-04-20 任务ID:batch4-2 操作员:AI Agent


操作流程

Step 1: 创建输出目录

mkdir -p /home/z/my-project/upload/四库别集output/贞白遗稿/

Step 2: 读取参考文件

Step 3: 检查输入文件

wc -l 贞白遗稿.txt → 1454行
wc -c 贞白遗稿.txt → 132,437字节(约129KB)

文件较小(<150KB),可直接grep处理。

Step 4: 第一轮grep——关键词全覆盖

# A组:衣裳冠服织物词
rg -n '衣裳|衣裘|衣冠|冠冕|衮|绶|佩|笏|带|锦|绮|绢|帛|丝|绸|缎|绫|罗|纱|绉|缟|缁|素' → 95行

# B组:颜色饰物词
rg -n '赤|青|黄|白|黑|朱|紫|绯|绿|翠|金银|玉|珠|簪|钗|钿|珥|步摇' → 212行

# C组:制度词
rg -n '冠服|舆服|章服|朝服|公服|祭服|丧服|常服|戎服|赐服|蟒衣|飞鱼|斗牛|补服|品色|鱼袋|幞头|乌纱|深衣|大带|蔽膝|舄|履|靴|袜|霞帔|翟衣|蚕服' → 10行

# D组:服装品类词
rg -n '裘|冠|弁|帻|巾|帽|袍|衫|裙|裤|褐' → 28行

共计345行命中,需要大量过滤噪音。

Step 5: 第二轮grep——精细化搜索

# 核心服饰词(排除常见非服饰用法)
rg -n '冠冕|衣冠|衣裳|衮|绶|佩|笏|锦衣|乌纱|珠髻|翠拥|玉珥|象饰|簪|钗|钿|珥|缟衣|袍|衫|裙|褐|裘|帻|巾|帽|银丝|丝|绮|绢|帛|绸|缎|绫|罗|纱|绉|缟|缁|素冠|素服|斑衣|麻衣|锦袍|锦服|彩杖|宫花|华簪' | rg -v '丝[路泉雨]|绶[印]|素[餐]|丝[竹]|素[王]|罗[汉]|帛[书画]|银[两]' → 精炼结果

Step 6: 关键词去重与噪音过滤

噪音来源分析

过滤原则

  1. 保留明确指向服饰穿着的用例
  2. 保留制度性描述(如品色、冠服制)
  3. 保留与服饰文化密切相关的典故
  4. 排除纯自然景物描写
  5. 排除人名中的用字

Step 7: 分类整理

按11类整理:

  1. 冠服制度与礼仪(6条)
  2. 朝服与百官冠服(8条)
  3. 佩饰与礼器(8条)
  4. 衣冠与士族(3条)
  5. 锦衣与还乡(5条)
  6. 女性服饰与饰物(6条)
  7. 冠巾与丧服(4条)
  8. 锦袍与戎服(4条)
  9. 丝织品与衣料(6条)
  10. 毡裘与边塞服饰(2条)
  11. 其他服饰典故(4条)

共提取有效服饰条目约56条。

Step 8: 写出3个MD文件

均在20KB限制内。


关键发现

  1. 八品官袍尚着蓝:明初品色服之实证,程通自述八品官袍用蓝,与《明史·舆服志》"八品九品绿袍"有别
  2. 朱紫辉袍锦:藩府高官服色之描写
  3. 珠髻翠拥玉珥象饰:明初富贵妇人首饰之完整记录
  4. 脱簮珥尽钗钏:明代妇人首饰种类与经济价值
  5. 乌纱犹带旧风霜:明代官员常服乌纱帽之文学反映
  6. 宫花压帽重:明代朝宴赐花之俗的亲历记录
  7. 衮冕九章/衮龙浮:藩王最高冠服之描写

关键踩坑记录


审核结果

全部通过 ✅ — 原文均从四库全书原文grep提取,有明确行号对应。已过滤非服饰用法的噪音,保留的条目均有服饰文化价值。