《都官集》服饰内容提取 · 操作日志
时间:2026-03-05 任务ID: batch9-4 任务:提取《都官集》全部服饰相关内容,整理分类总结
操作流程
Step 1: 环境准备
mkdir -p /home/z/my-project/upload/四库别集output/都官集
wc -l /home/z/my-project/upload/四库别集/都官集.txt → 623行
wc -c → 266,068字节
Step 2: 读取参考文件
读取3个参考MD(总结/日志/原文提取),了解输出格式规范。
Step 3: grep多轮搜索
第一轮:单字关键词
grep -n '衣|裳|裘|冠|冕|弁|帻|巾|帽|袍|衫|裙|裤|褐' → 77行
grep -n '衮|绶|佩|笏|带|锦|绮|绢|帛|丝|绸|缎|绫|罗|纱|绉|缟|缁|素' → 编码错误(utf-8)
grep -n '赤|青|黄|白|黑|朱|紫|绯|绿|翠|金|银|玉|珠|簪|钗' → 166行(太宽泛)
grep -n '冠服|舆服|章服|朝服|祭服|丧服|常服|戎服|赐服|蟒衣|飞鱼|斗牛|补服|品色|鱼袋|革带|玉带|金带|幞头|乌纱|进贤冠|深衣|大带|蔽膝|舄|履|靴|袜|霞帔|翟衣|蚕服' → 20行
第二轮:复合服饰词组
grep -n '衣裳|衣冠|冠服|祭服|丧服|布衣|黼黻|黻冕|异服|画衣|衣帛|衣丝|衣褐|衣裘|緼袍|短褐|褒衣|犊鼻' → 有实质内容
grep -n '绮纨|罗绮|束帛|组绣|文绣|絺绣|织组|织絍' → 多处匹配
grep -n '翡翠|明珠|金玉|白玉|珥|簪' → 装饰类
第三轮:交叉验证
LANG=C grep -n '衣' → 40+行,逐一审视
LANG=C grep -n '冠|冕|弁|帻|巾|帽|幞' → 30行
LANG=C grep -n '袍|衫|裙|裤|褐|裘|衮|绶|佩|笏|带' → 40行
Step 4: 噪音过滤
过滤规则:
- "衣"字用于"衣食""衣服""衣食之源"等泛指 → 保留(有语境价值)
- "衣"字用于"衣裳"典故 → 保留
- 颜色词(赤青黄白黑等)过于宽泛 → 仅保留与服饰直接相关者
- "帛"用于赋税、赏赐 → 保留(反映丝织品的经济属性)
- "衣冠"用于泛指士大夫 → 保留
- "冠冕"用于朝政比喻 → 保留
过滤后有效行号:约25行,涉及约30个服饰相关条目。
Step 5: 分类整理
按6大类整理:
- 服制等级与官员服饰(峩冠大带、祭服、冠冕、车服五色五章、轩冕、黻冕朱紫)
- 蚕桑与丝织(衣帛、绮纨、罗绮、束帛、织絍组紃、布帛)
- 服饰与礼制(祭服絺绣、冠冕与衰绖、冠婚、异服之禁、画衣冠)
- 短褐与布衣(布衣、短褐、緼袍、布袍葛带、青衫、白纻)
- 佛道服饰(紫方袍、缁黄、制衣服以文之)
- 其他散见(黼黻、陵寝衣冠、服御、结绶、文绣与蓝缕对比)
Step 6: 写3个MD文件
/home/z/my-project/upload/四库别集output/都官集/总结.md— 分类总结(约8KB)/home/z/my-project/upload/四库别集output/都官集/原文提取.md— 原文提取(约12KB)/home/z/my-project/upload/四库别集output/都官集/日志.md— 本文件
关键发现
- 《都官集》非服饰专书:全书623行、266KB,服饰内容散见于政论之中,多作为论政喻理之器
- 峩冠大带凡三见:分别论诸王子弟(教说)、近侍之臣(上英宗书)、宗室之势(势说),为该书最突出的服饰意象
- 祭服絺绣为古制核心:作者反复以祭服制度批评当世逾制
- 文绣与蓝缕之对比:佛老宫塔覆文绣与百姓衣蓝缕,为全书最尖锐的服饰批判
- 衣帛为仁政目标:引用孟子五亩之宅说,以衣帛为施政标准
- 紫方袍为宋代赐僧制度:明教大师受赐紫方袍,反映宋代僧官服饰制度
- 布衣褐服有双重意涵:既为平民之代称,又为士人清高之象征
- 异服禁令引用礼记:异服竒技淫巧以疑众者杀无赦,为作者批判奢侈之经典依据
踩坑记录
- 文件有UTF-8编码问题,部分grep命令需要
LANG=C前缀 - 颜色关键词(赤青黄白黑等)过于宽泛,166行匹配中大部分与服饰无关
- "丝""帛"在赋税语境中出现频繁,需区分经济属性与服饰属性
- "冠"字多用于"冠绝""冠军"等非服饰语境,需人工过滤
- 该书为宋人文集,服饰内容远少于专门典章制度类文献(如《晋会要》舆服志)