《钱仲文集》服饰内容提取 · 操作日志
时间:2026-04-19 任务ID:batch13-2 操作:提取《钱仲文集》服饰相关内容,产出3个MD
操作流程
Step 1: 创建输出目录
mkdir -p /home/z/my-project/upload/四库别集output/钱仲文集/
Step 2: 读取参考文件
读取 /home/z/my-project/upload/参考/ 下三个MD,确认输出格式:
- 总结.md:分类归纳 + 表格 + 分析
- 日志.md:操作步骤 + 踩坑记录
- 原文提取.md:按类别列出原文及行号
Step 3: 文件基本信息
wc -l 钱仲文集.txt → 1133行
文件结构:提要 + 十卷诗集(卷一至卷十)
卷次标记:行20/93/95/180/182/262/264/366/368/472/474/582/584/669/671/758/760/859/861/1133
Step 4: 第一轮grep——核心服饰词
grep -n "衣|裳|裘|冠|冕|弁|帻|巾|帽|袍|衫|裙|裤|褐" → 大量结果(含大量非服饰用例如"衣"作"依"义)
grep -n "衮|绶|佩|笏|带|锦|绮|绢|帛|丝绸|缎|绫|罗|纱|绉|缟|缁" → 较多结果
grep -n "素|赤|青|黄|白|黑|朱|紫|绯|绿|翠|金|银|玉|珠|簪|钗|钿|珥" → 噪音极大(颜色词广泛使用)
Step 5: 第二轮grep——复合关键词(降噪)
grep -n "衣裳|衣冠|朝服|朝衣|赐衣|儒衣|荷衣|春衣|衮衣|斑衣|冕旒|簪缨|簪裾|貂裘|黄绶|墨绶|朱绶|紫绶|解绶|结绶|花绶|绶|霓裳" → 精准命中
grep -n "冠带|蝉冠|角巾|葛巾|脱巾|纱帐|绣服|褒衣|缝掖|纨绮|舞衫|裳|裘|袍|褐|缁|缟|锦帐|锦城|昼锦|濯锦" → 精准命中
grep -n "步摇|簪|珥貂|玉佩|金带|革带|鱼袋|幞头|乌纱|进贤冠|深衣|大带|蔽膝|舄|履|靴|袜|霞帔|翟衣|蚕服|章服|舆服|赐服|戎服|丧服|常服" → 结果少,此书无此类制度性记载
Step 6: 第三轮grep——典故与品阶词汇
grep -n "授衣|斑衣|彩服|箕裘|倒接䍦|接䍦|纶巾|纱帽|象服|玉食|赐服|赐帛|绣服|彩衣|彩服|缨冕|簪组" → 补充发现
grep -n "搢绅|簪绂|华簪|朝簪|投簪|解簪|冠带|解蕙带|蝉冠|露冕|绣服|皂貂|紫罗|绡幕|缥带|彤幨" → 补充发现
Step 7: 过滤噪音
排除以下伪匹配:
- "衣"单独使用作"依"义:如"衣冠"中衣为服饰但"衣褐"中为动词
- "素"作为颜色修饰非服饰("素琴""素发"等)
- "带"作动词/连接词("带经""带水""带月"等非腰带)
- "金""玉"作器物修饰非佩饰("金罇""玉笛"等)
- "裳"在"霓裳"中为仙衣但在"裳花"中为花名
Step 8: 分类整理
按9大类整理:
- 官服与品阶服饰(~30条)
- 儒服与士人服饰(~8条)
- 隐逸服饰(~15条)
- 赐服与品色(~5条)
- 冠帽(~5条)
- 织物与丝织品(~10条)
- 佩饰(~4条)
- 节令服饰(~5条)
- 典故服饰(~10条)
Step 9: 写入3个MD
- 原文提取.md:9节,按类别列出原文
- 总结.md:9节 + 总表 + 分析
- 日志.md:本文件
关键发现
- 黄绶为全书最高频服饰词:出现10次,反映钱起社交圈以低级官员为主
- 荷衣为隐逸核心意象:5次出现,与朝服构成"仕/隐"二元对立
- 无制度性服饰记载:全书为诗集,无舆服志式记录,无步摇、幞头、深衣、大带、蔽膝、霞帔等制度性词汇
- 授衣之叹反映基层官员困境:"家贫忘授衣"为全书写实性最强的服饰句
- 赐衣为仕途荣耀:3次出现均用于送别诗,表达对友人受恩的祝贺
- 象服为唯一命妇服饰:仅见于挽歌,反映诗集对女性服饰记录极少
踩坑记录
- "带"字噪音极大:大量"带经""带水""带月""带雨"等非腰带用法,需手动过滤
- 颜色词(素/赤/青/黄/白/黑/朱/紫/翠/金/银/玉)几乎全部为非服饰用法,不适合作为服饰关键词grep
- "裳"在"霓裳"中为仙衣,"裳花"为花名,"褰裳"为动词,需分类处理
- "服"字兼有"服从""服用"等义,"儒服""绣服""象服"需精准匹配
- "冠"在"冠带"中为名词,在"冠绝"中为动词,需上下文判断
- 部分异文标注【一作】涉及服饰差异,如"初服栖穷巷"与异文对照
审核结果
全部通过 ✅ — 原文均从四库本grep提取,有明确行号与卷次对应。无整本载入LLM,所有提取均经grep+sed流程。