《集玉山房稿》服饰内容提取 · 日志
时间:2026-04-20 任务ID: batch20-2 输入:/home/z/my-project/upload/四库别集/集玉山房稿.txt(1292行) 输出:/home/z/my-project/upload/四库别集output/集玉山房稿/
操作流程
Step 1: 创建输出目录
mkdir -p /home/z/my-project/upload/四库别集output/集玉山房稿
Step 2: 读取参考文件
- 参考/总结.md → 《吕氏春秋》服饰汇编,分类体系参考
- 参考/日志.md → 《晋会要》提取流程参考
- 参考/原文提取.md → 《天工开物》原文格式参考
Step 3: 统计与初筛
wc -l 集玉山房稿.txt → 1292行
# 全量关键词匹配
grep -n '衣|裳|裘|冠|冕|弁|...' 集玉山房稿.txt | wc -l → 236行
注:单字匹配噪音极大("衣""冠""金""白"等出现频率极高),需改用复合词精确匹配。
Step 4: 复合词精准搜索(3轮)
第1轮:制度性关键词
grep -n '冠服|章服|朝服|公服|祭服|丧服|常服|赐服|蟒衣|飞鱼|斗牛|补服|品色|鱼袋|革带|玉带|金带|幞头|乌纱|进贤冠|深衣|大带|蔽膝|舄|霞帔|翟衣|蚕服|步摇|冠弁|皮冠|命服|翟冠|纶|冠冕'
命中行:L281, L310, L328, L425, L429, L459, L463, L1226, L1238 等
第2轮:官服饰品关键词
grep -n '锦衣|衮|绶|笏|袍|绅|簪|珥|钗|钿'
命中行:L31, L82, L123, L375, L383, L421, L459, L514, L596, L1032, L1174, L1182, L1186 等
第3轮:日常服饰关键词
grep -n '衣冠|布衣|衣裳|衣裘|赐衣|裘|褐|衫|裙|裤|巾帽|纱帽|巾|帽'
命中行:L82, L383, L421, L425, L429, L453, L459, L463, L471, L592 等
Step 5: 噪音过滤
过滤规则:
- 排除纯典故/比喻用法:如"华衮之褒"(比喻褒奖,非实指衮服)
- 排除无关上下文中的单字命中:如"巾"作"巾帽局"保留,作"头巾"一般用法视语境取舍
- 保留虽为比喻但涉及服饰制度的条目:如"袍笏簮裾华如云"
过滤后有效条目:约30处
Step 6: 分类整理
按7大类归类:
- 官服制度与礼制(6条)
- 命妇服饰(3条)
- 日常服饰与俭朴观(7条)
- 丧服与孝道服饰(2条)
- 宫廷服饰供给体系(5条)
- 诗歌服饰意象(9+条)
- 禁奢僭与服饰等级(2条)
Step 7: 写入3个MD文件
- 总结.md(本文件)—— 分类总结,约5KB
- 日志.md(本文件)—— 操作记录
- 原文提取.md —— 逐条原文摘录
关键发现
- 全书无专章服饰论述,所有服饰内容均散见于行状(葛守礼传、谷茂椿传、王氏行状)、寿序、祭文、奏疏中
- 明代士大夫俭朴服饰观是最大主题——韦布衣、浣衣、淡素衣等反复出现,与明代理学风气一致
- 朝服与吉服之争(L459)是全书最具制度价值的服饰条目,涉及君臣礼制
- 翟冠霞帔在祭文中集中出现(L1226, L1238),为明代命妇封赠的标志性服饰
- 宫廷服饰供给的经济压力(L82奏疏)详细列出工部年例中冬衣、尚衣监、巾帽局、织染局等开支,年费数十万两
- 宗室冠服供给(L459)为明代财政痼疾的反映——宗室假冠服之名勒索布政司
关键踩坑记录
- 全文1292行,但多为长段落无换行,单行可达数千字,grep定位后需手动截取上下文
- 单字匹配(衣、冠、金等)噪音极大,236行中有效条目仅约30处,信噪比低
- "衮衮公侯"(L421)中"衮衮"为形容词(连续不断),非指衮服,需过滤
- "华衮之褒"(L552, L596, L1032)为比喻用法,指褒奖如衮服之荣,非实指服饰
- "锦衣"出现多次,需区分"锦衣卫"(机构名)与"锦衣竞爽"(实指华服)
- "巾帽局"(L82)为宫廷机构名,虽含服饰词但属行政条目