《跨鼇集》服饰内容提取 · 对话记录

时间:2026-04-20 任务ID:batch5-4 任务:处理《跨鼇集》TXT,提取服饰内容,产出3个MD


操作流程

Step 1: 创建目录与读取参考

mkdir -p /home/z/my-project/upload/四库别集output/跨鼇集
wc -l 跨鼇集.txt → 1721行

读取参考文件3个(总结.md / 日志.md / 原文提取.md),了解输出格式。

Step 2: grep多轮搜索(第一轮——基础关键词)

搜索关键词:衣裳裘冠冕弁帻巾帽袍衫裙裤褐衮绶佩笏带锦绮绢帛丝绸缎绫罗纱绉缟缁素赤青黄白黑朱紫绯绿翠金银玉珠簪钗钿珥步摇……

结果:命中行数极多(500+行),大量为颜色词、材质词的文学用法,噪音严重。

Step 3: grep多轮搜索(第二轮——复合关键词)

搜索:衣裳|衣冠|衣裘|衮|冕服|朝服|公服|祭服|丧服|常服|戎服|赐服|蟒衣|飞鱼|补服|品色|鱼袋|幞头|乌纱|进贤冠|深衣|大带|蔽膝|舄|霞帔|翟衣|蚕服|锦衣|紫绶|金带|玉带|革带

关键发现

Step 4: grep多轮搜索(第三轮——衣物类)

搜索:鹑衣|短褐|褐衣|荷衣|蓑衣|儒冠|貂裘|狐裘|羔裘|氊裘|裘褐|绨袍|缊袍|布衣|缁衣|素衣|青衣|朱衣|黄衣|白衣|黑衣|赤衣

关键发现

Step 5: grep多轮搜索(第四轮——佩饰类)

搜索:簪组|簮|步摇|金花|笏|鱼袋|章服|冠服|舆服|佩刀|佩剑|环佩|玉佩|银钩|金印|紫绶|朱衣|绣衣|恩袍|品服|赐服

关键发现

Step 6: 过滤噪音

排除了以下类型:

  1. 纯颜色词(青山/白云/黄河等非服饰用法)
  2. "衣"的比喻用法(苔衣/云衣等自然意象)
  3. 通用动词用法(衣被天下等)
  4. 重复引用(同一诗句出现在不同grep结果中)

Step 7: 分类整理

按7大类整理:

  1. 冠服制度(2条核心)
  2. 冠帽(8条)
  3. 衣裘袍褐(12条)
  4. 佩饰印绶(7条)
  5. 妇女与仙道服饰(6条)
  6. 隐者与特殊服饰(3条)
  7. 衣冠与身份象征(8条)

Step 8: 写3个MD文件


关键发现

  1. 全书仅1条制度性服饰内容(L1118),涉及唐冠服制度与天圣令文
  2. "衣冠"高频出现,作为士大夫/华夏文明代称,是全书最突出的服饰概念
  3. 贫富服饰对比是核心文学手法:貂裘vs短褐、锦衣vs鹑衣
  4. L1673玉笄步摇为唯一命妇冠饰具体描写,史料价值最高
  5. 隐者服饰自成体系(犊鼻/草葛/襜褕),与官服构成文化对立

关键踩坑记录


审核结果

全部通过 ✅ — 原文均从四库别集本grep提取,有明确行号对应,噪音已过滤。