《蠛蠓集》服饰内容整理 · 工作日志
时间:2026-03-05 任务:提取《蠛蠓集》全部服饰相关内容,整理分类总结 文件:/home/z/my-project/upload/四库别集/蠛蠓集.txt
操作流程
Step 1: 环境准备
mkdir -p /home/z/my-project/upload/四库别集output/蠛蠓集/
Step 2: 文件基本信息
wc -l 蠛蠓集.txt → 821行
wc -c 蠛蠓集.txt → 241216字节
file 蠛蠓集.txt → Unicode text, UTF-8, with CRLF, very long lines (4493 chars)
python3验证 → 有效UTF-8,81500字
Step 3: 参考模板阅读
/home/z/my-project/upload/参考/总结.md— 《吕氏春秋》服饰总结模板/home/z/my-project/upload/参考/日志.md— 《晋会要》日志模板/home/z/my-project/upload/参考/原文提取.md— 《天工开物》原文提取模板
Step 4: 关键词检索(python3)
使用python3替代grep/sed(因bash grep遇到UTF-8长行报错),搜索服饰关键词:
关键词集:衣/裳/冠/冕/弁/帻/巾/帽/履/屦/袍/裘/衫/裙/褐/袂/襟/袖/
佩/带/绶/笏/簪/钗/珰/环/旒/纩/黼/黻/绣/锦/罗/绢/帛/缯/缟/
絺/纁/甲/犀/貂/狐/羔/象服
命中结果:约80处关键词出现,涉及约50行文本。
Step 5: 逐行筛选与分类
从50行命中结果中筛选出实质具有服饰研究价值的条目22条,按以下标准:
- 排除:纯比喻用法(如"环拱紫微"中"环"为环绕义)
- 排除:构字成分(如"蔡肜"中"肜"非服饰义)
- 排除:重复/通假(如"竹帛"中"帛"为书写载体,非服饰)
- 保留:直接描写服饰、用典涉及服饰制度、赏赐实物
Step 6: 分类整理
按6大类整理:
- 冠服制度(冕旒黼扆、象服、铁冠白笔、冕旒玉剑)
- 服饰与身份(布衣、冠履法服、冠带、幅巾、缁衣)
- 丧葬祭服(素衣缟马、灵衣、冠履故物)
- 丝织贡物(玄纁束帛、纁一袭、奇缯帛锦、纨素)
- 辞赋意象(伟冠长剑、黄冠玄袘、冲牙珰佩、褒衣伟冠)
- 诗歌描写(薜荔衣裳、毛褐、罗衣、锦茵、曳履龙墀)
Step 7: 生成三份文件
蠛蠓集_总结.md(8,265字节)— 分类总结蠛蠓集_原文提取.md(6,138字节)— 原文及注释蠛蠓集_日志.md(本文件)— 工作流程记录
关键发现
- 《蠛蠓集》为纯文学别集,无专门服饰制度记载,与《吕氏春秋》《晋会要》等制度性文献性质截然不同
- 全书服饰内容最密集段落:卷三《放招赋》(Line 180),模拟《楚辞·大招》,集冕旒、黼扆、珰、佩、簪、巾等于一处,但为文学修辞而非实录
- 最具制度价值的条目:
- "铁冠……衣绣簪白笔"(Line 329)——御史服饰制度
- "诏赐银十两纁一袭"(Line 126)——明代实际赏赐记录
- "素衣缟马"(Line 157)——吊丧服饰实录
- 作者身份关键词:"布衣"出现4次,为卢柟核心身份标识;"冠履法服"表达其恢复自由身份的渴望
- 文学传统影响:赋体受楚辞影响最深,《放招赋》《幽鞫赋》大量化用屈原服饰意象
技术踩坑
- bash grep报错:蠛蠓集.txt含极长行(最长4493字符),bash grep处理UTF-8长行时出现codec解码错误。改用python3读取文件后逐行搜索,完全避免编码问题。
- 关键词噪音:大量命中实为比喻/通假/构字成分(如"环拱"="环绕"、"甲第"="府第"、"犀甲"="铠甲"),需人工逐条甄别。
- 赋体文字难读:卷三赋文大量生僻字、异体字,OCR质量一般,部分字无法正常显示(如□替代字),但不影响服饰关键词提取。
审核结果
全部通过 ✅ — 所有原文均从蠛蠓集.txt全文python3提取,有明确行号对应。无服饰制度性内容的判断如实记录。