《陈秋岩诗集》服饰内容提取 · 对话记录
时间:2026-03-05 任务ID:batch17-5 任务:提取《陈秋岩诗集》全部服饰相关内容,整理分类总结
操作流程
Step 0: 检查源文件
wc -l 陈秋岩诗集.txt → 498行
文件不大,但仍遵循严禁整本载入LLM的规则,采用grep+sed逐步提取。
Step 1: 读取参考模板
读取 /home/z/my-project/upload/参考/ 总结.md、日志.md、原文提取.md
确认输出格式:总结(分类论述)、日志(操作记录)、原文提取(逐条原文+注释)
文件大小限制:每个≤20KB
Step 2: 多轮grep搜索
第一轮:宽泛搜索(单字关键词)
grep -n "衣|裳|裘|冠|冕|弁|帻|巾|帽|袍|衫|裙|裤|褐|衮|绶|佩|笏|带|锦|绮|绢|帛|丝绸|缎|绫|罗|纱|绉|缟|缁|素|赤|青|黄|白|黑|朱|紫|绯|绿|翠|金|银|玉|珠|簪|钗|钿|珥|履|靴|袜"
命中行数过多,包含大量非服饰用法的颜色词、材质词(如"白云""青山")。
第二轮:精炼搜索(双字+组合关键词)
grep -n "衣裳|裘|冠|冕|弁|帻|巾|帽|袍|衫|裙|裤|褐|衮|绶|佩|笏|锦|绮|绢|帛|丝绸|缎|绫|罗|纱|绉|缟|缁|素衣|朱衣|紫衣|绯|翠|玉|珠|簪|钗|钿|珥|履|靴|袜|霞帔|翟衣|蚕服|补服|品色|鱼袋|革带|玉带|金带|幞头|乌纱|深衣|大带|蔽膝|舄"
命中23行,质量显著提升。
第三轮:补充搜索(组合词+遗漏词)
grep -n "单衣裳|狐裘|翠裘|赐狐裘|貂蝉|乌巾|角巾|诗袍|缟衣|素衣|罗衣|霞衣|翠袖|绣襦|绮罗|旧毡|典衣|缝衣|垢衣|汉衣裳|金缕衣|寄衣|蒙茸|领袖|巾袂|节旄"
命中28行,基本覆盖所有服饰条目。
第四轮:验证性搜索
grep -n "赐|蟒|飞鱼|斗牛|朝服|公服|祭服|丧服|戎服|常服|貂|狐|毡"
确认无蟒衣、飞鱼、斗牛等明代赐服内容(符合元代诗集预期)。
Step 3: sed提取上下文
对每条命中行,用 sed -n 'N-2,N+2p' 提取上下文,确认诗题归属。
关键提取:
- L33-35:望乡歌寄卢疎斋 → "单衣裳""节旄"
- L328-330:后赐狐裘 → 全诗服饰主题
- L52:四歌行 → "典衣""缝衣"
- L478:昭君出塞图 → "汉衣裳"
Step 4: 噪音过滤
剔除的噪音条目:
- "白云""青山""黄土"等颜色词非服饰用法(约15处)
- "金锺""金掌露""金盘"等器物非佩饰(3处)
- "翠雾""翠涌"等修饰语非服饰(2处)
- "银刀""银涛"等非银饰用法(2处)
保留的边缘条目(需注释说明):
- "金章万户侯":金章为官印,虽非服饰但与品服制度相关 → 保留
- "宝带":随葬佩饰,盗墓取出 → 保留
- "节旄":使节杖饰,非身体服饰但属舆服制度 → 保留
Step 5: 分类整理
按7大类整理:
- 裘皮御寒(4条)
- 冠巾佩饰(6条)
- 衣裳本体(7条)
- 丝织品与织物(5条)
- 北方毡帐文化(5条)
- 服饰行为(5条)
- 服饰象征意象(4条)
Step 6: 保存三份文件
/home/z/my-project/upload/四库别集output/陈秋岩诗集/总结.md ← 分类总结论述
/home/z/my-project/upload/四库别集output/陈秋岩诗集/原文提取.md ← 逐条原文+注释
/home/z/my-project/upload/四库别集output/陈秋岩诗集/日志.md ← 本文件
关键发现
- "后赐狐裘"为全书唯一以服饰为题的诗——元朝近臣赐服制度的诗证
- "貂蝉"冠饰为重要制度信息——诗中"青紫貂蝉分不容"表明作者品级不够貂蝉冠
- 狐裘出现3次,是最高频服饰词——反映北方边塞御寒需求
- 毡车/毡帐出现4次——蒙元文化特色的物质文化记录
- "汉衣裳"意象——昭君出塞图中汉服染尘,民族服饰与文化认同
- 典衣/缝衣/寄衣——服饰行为反映的孝道与边塞生活
- 缺无冕、弁、帻、幞头、乌纱等官服体系——与作者为文人而非礼官的身份一致
关键踩坑记录
- 诗集为四库馆臣从《永乐大典》辑出,原集已佚,现存篇目可能不全
- 诗中颜色词极多(青、翠、白、赤、黄、紫等),绝大多数非服饰用法,需逐条人工判断
- "织女抛残锦"是晚霞比喻而非真正织锦,但涉及纺织术语,保留
- "锦毯"覆盖幼驼非人体服饰,但属织物使用场景,保留
- "金章"为官印非佩饰,但与品服制度相关,保留并加注释
- 诗集用字有异体:如"缁"写作"缁","袂"写作"袂",搜索时需注意
审核结果
全部通过 ✅ — 原文均从四库本grep提取,有明确行号对应。噪音条目已过滤,边缘条目已加注释说明。