《臞轩集》服饰内容提取 · 操作日志
时间:2026-04-20 任务:提取《臞轩集》全部服饰相关内容,整理分类总结 源文件:/home/z/my-project/upload/四库别集/臞轩集.txt(1278行,434KB) 方法:grep -n + sed 提取上下文,严禁整本载入LLM
操作流程
Step 1: 创建输出目录
mkdir -p /home/z/my-project/upload/四库别集output/臞轩集/
✅ 成功
Step 2: 检查源文件
wc -l -c /home/z/my-project/upload/四库别集/臞轩集.txt
→ 1278行, 434457字节
file → Unicode text, UTF-8, with very long lines (7555), CRLF
Step 3: 查看参考模板
读取了3个参考模板:
/home/z/my-project/upload/参考/总结.md(《吕氏春秋》服饰总结)/home/z/my-project/upload/参考/日志.md(《晋会要》提取日志)/home/z/my-project/upload/参考/原文提取.md(《天工开物》原文提取)
Step 4: grep -n 搜索服饰关键词
第一轮:宽泛搜索
LC_ALL=C grep -c 统计各关键词行数
结果:
| 关键词 | 行数 |
|---|---|
| 衣 | 70 |
| 裳 | 16 |
| 冠 | 32 |
| 冕 | 7 |
| 弁 | 1 |
| 巾 | 14 |
| 履 | 32 |
| 舄 | 10 |
| 靴 | 1 |
| 鞋 | 2 |
| 袜 | 1 |
| 袍 | 13 |
| 裘 | 13 |
| 衮 | 12 |
| 褐 | 7 |
| 罗 | 17 |
| 绢 | 4 |
| 帛 | 5 |
| 锦 | 36 |
| 绣 | 16 |
| 佩 | 23 |
| 绶 | 7 |
| 笏 | 8 |
| 带 | 14 |
| 簪 | 5 |
| 钗 | 1 |
| 环 | 15 |
| 袂 | 4 |
| 袴 | 7 |
| 襟 | 17 |
注意:UTF-8编码问题,直接grep报错,改用 LC_ALL=C grep 和 Python处理。
第二轮:精确搜索(Python) 使用Python逐行搜索约90个服饰关键词组合,共命中81行含服饰关键词。
第三轮:深度筛选 对81行结果逐条审阅,排除以下类型:
- "履"用作"践履"(非鞋履义):约20行排除
- "佩"用作"佩服/佩服"(非佩饰义):约10行排除
- "绅"用作"搢绅"(非大带义):约8行排除
- "帛"用作"币帛/帛书"(非衣帛义):约3行排除
- "文章"用作"文章写作"(非黼黻文章义):约5行排除
- "领袖"用作"领导者"(非衣领衣袖义):1行排除
最终确认约30处确有服饰实质内容的行。
Step 5: sed 提取上下文
对关键行使用Python(等效sed -n)提取前后文字,截取关键词前后60-250字不等的上下文片段。
Step 6: 分类整理
按内容性质分为12类:
- 宫廷服饰与奢侈风气
- 衮冕祭祀
- 赐服制度
- 绣衣使者
- 皮裘服饰
- 冠服与士大夫
- 履舄制度
- 印绶笏带
- 帝王节俭服制
- 隐士服饰与文学意象
- 服饰与政治象征
- 衣料与经济
Step 7: 保存三份文件
- 臞轩集_总结.md(本文档)
- 臞轩集_原文提取.md
- 臞轩集_日志.md(本文件)
关键发现
- 《臞轩集》非服饰专书,服饰内容散见于策论、奏札、书启、诗歌中
- 行397的帝王节俭箴言是全书最系统的服饰制度记载,涉及蒲苇帘、罽绮、絁被、澣衣等
- **行541"君披貂毛裘,我着犊鼻裈"**是最生动的服饰对比描写
- 大量服饰词汇为典故化使用:鳬舄、貂裘、绣衣、纨袴、昼锦等
- 隐士服饰深受**《楚辞》传统**影响:芰衣、蕙纕、荷裳、兰佩
- 绣衣使者制度在汉代史论与南宋纪实中均有反映
- 南宋服饰奢侈风气(后宫服饰夕行民间)有直接记录
关键踩坑记录
- 文件有非常长的行(最长7555字符),且为CRLF换行,需注意编码处理
- UTF-8编码问题:直接用bash grep报
utf-8 codec can't decode错误,改用LC_ALL=C grep或Python处理 - "履"字在本书中大量用作"践履/履历"义(约20处),非鞋履义,需逐一排除
- "佩"字多用作"佩服/佩服"义,非佩饰义
- "绅"字几乎全部用作"搢绅"(代指官员),非大带义
- "文章"在本书中多为文章写作义,非"黼黻文章"义
- "裘"字部分用作"箕裘"(继承家业)典故,非皮衣义
- "笏"字部分用作"笏画"(谋划),非朝笏义
审核结果
全部通过 ✅ — 原文均从源文件grep/sed提取,有明确行号对应。排除非服饰义项后,保留约30处有实质服饰内容的行,分12类整理。