《蒙斋集》服饰内容提取 · 工作日志
时间:2026-03-05 任务:提取《蒙斋集》全部服饰相关内容,整理分类总结
操作流程
Step 1: 创建输出目录
mkdir -p /home/z/my-project/upload/四库别集output/蒙斋集/
✅ 完成
Step 2: 读取参考模板
读取 /home/z/my-project/upload/参考/ 下三个模板:
- 总结.md(吕氏春秋服饰总结,分类详尽,有表格和注释)
- 日志.md(晋会要工作日志,记录操作步骤、踩坑、审核)
- 原文提取.md(天工开物原文提取,按主题分类摘录原文)
Step 3: 检查源文件
wc -l 蒙斋集.txt → 1257行
文件不大,但仍遵循"严禁整本载入LLM"的原则,仅使用grep+sed提取。
Step 4: grep检索服饰关键词
第一批(衣裳冠冕弁帻巾帽履鞋靴袜佩绶带袍裘裙袂襟袖领):
- 因文件编码问题(0xe6字节异常),改用
LANG=C grep
第二批(衮黼黻章服朝服祭服丧服公服常服深衣布衣锦绣罗纱绢绸缎绫帛丝麻葛褐):
- 检索到关键行:103(绢帛税课)、142(大布之衣大帛之冠)、211(衣大布冠大帛)、378(衣冠盛事)、420(衮衣垂裳)、505(绣衣)、601(衣锦)、649(深衣大带)、655(正巾更衣)、754(衣冠蝉联)、770(衣冠蝉联)、890(衣冠中)、1031(衮衣盍归)、1109(衣鉢)、1121(深衣)、1188(着衣斑)
第三批(簪笏珩璜环玦珠玉翠钿钗梳篦脂粉黛妆饰旒纮纩紞):
- 无直接相关结果
Step 5: sed提取上下文
对上述行逐一使用sed -n 'Np' | grep -oP '.{0,30}关键词.{0,30}'提取上下文片段。
Step 6: 分类整理
将14条服饰相关原文归为10类:
- 先贤节俭典故(大布之衣、大帛之冠)
- 衮衣·垂裳之治
- 学服(深衣大带)
- 衣冠门第
- 衣冠礼仪
- 归乡荣耀(衣锦)
- 使者服饰(绣衣)
- 学术传承(衣鉢)
- 临终之礼(正巾更衣)
- 绢帛税课
Step 7: 保存三份文件
- 蒙斋集_原文提取.md(14条原文,按类编排)
- 蒙斋集_总结.md(分类总结、重点分析、核心发现)
- 蒙斋集_日志.md(本文件)
关键发现
- 《蒙斋集》服饰内容极少:全书1257行,仅约14条与服饰直接相关
- 无系统服饰制度记载:所有服饰词汇均为典故引用或比喻修辞
- 最重要的两条:
- "大布之衣大帛之冠"(卫文公典故,出现2次)
- "深衣大带"(象山书院学服实录)
- 绢帛税课涉及纺织品经济制度,但非服饰文化内容
踩坑记录
- 文件编码异常:
grep -n直接运行报utf-8 codec can't decode byte 0xe6错误,改用LANG=C grep解决 - 服饰词汇需区分语境:很多"衣""服""冠"出现于"衣服"(泛指穿用)、"所服"(食用服用)等非服饰专义语境,需逐一甄别
- "茧丝"非服饰:"深戒茧丝"为政治比喻(横征暴敛),"丝缕之费"指织绢成本,均非直接服饰描写
审核结果
全部通过 ✅ — 原文均从蒙斋集.txt中grep+sed提取,有明确行号对应。服饰内容稀少已如实记录。