《艮斋诗集》服饰内容提取 · 操作日志
时间:2026-03-04 任务:提取《艮斋诗集》全部服饰相关内容,整理分类总结 操作原则:严禁整本载入LLM,仅用grep/sed提取片段
操作流程
Step 1: 创建输出目录
mkdir -p /home/z/my-project/upload/四库别集output/艮斋诗集/
✅ 目录创建成功
Step 2: 确认源文件
wc -l 艮斋诗集.txt → 1212行
wc -c 艮斋诗集.txt → 101271字节(约101KB)
Step 3: 读取参考模板
/home/z/my-project/upload/参考/总结.md— 吕氏春秋服饰汇编(结构参考)/home/z/my-project/upload/参考/日志.md— 晋会要提取操作记录(流程参考)/home/z/my-project/upload/参考/原文提取.md— 天工开物原文提取(格式参考)
Step 4: grep关键词检索
第一轮:广域搜索(50+关键词)
grep -n '衣|裳|冠|冕|裘|袍|衫|裙|褐|带|佩|绶|履|靴|帽|巾|笏|缨|簪|钗|珥|环|钏|绂|袂|襦|袴|裈|褂|帻|弁|旒|舄|屦|屐|紱|繡|绣|锦|紬|绸|绢|缣|缟|缯|绮|绫|罗|纱|缎|布|帛|丝|绵|葛|麻|裘|氅|蓑|笠|鞶|韨|黻|黼|黼黻' 艮斋诗集.txt
结果:200+行匹配(含大量非服饰用法)
第二轮:精确统计 逐词grep -c统计,有效服饰词汇及频次:
| 关键词 | 次数 | 关键词 | 次数 |
|---|---|---|---|
| 锦 | 20 | 青衫 | 3 |
| 冠 | 11 | 蓑 | 4 |
| 罗衣/罗 | 12 | 笠 | 2 |
| 簪 | 7 | 衾 | 5 |
| 绮 | 5 | 裘 | 4 |
| 纱 | 4 | 袍 | 4 |
| 履 | 4 | 衫 | 3 |
Step 5: sed提取上下文
对92行含服饰关键词的诗句,逐一用sed提取前后行(诗题+诗句),共提取约40段有效片段。
Step 6: 分类整理
按内容性质分为5大类:
- 历史人物服饰(6条)
- 自况寒素之服(15条)
- 隐逸与渔樵之服(6条)
- 服饰典故与礼仪(12条)
- 比喻性服饰用语(8条)
Step 7: 保存三份文件
艮斋诗集_总结.md— 分类总结与核心发现艮斋诗集_日志.md— 本文件,操作记录艮斋诗集_原文提取.md— 原文片段汇编
关键发现
- 服饰内容稀少且零散:1212行诗中,直接涉及服饰的仅约40行,占比约3.3%
- 无制度性服饰记载:不同于史书、政书,诗集无服色、等级、礼仪等制度
- 寒士意象集中:青衫、麻袍、缊袍、敝衣、蓑笠为高频服饰意象
- 布衣/锦衣对举为核心价值观表达(行927)
- 锦、罗、绮、纱多非服饰用法:锦囊、罗浮、结绮、窗纱等需甄别
- 服饰典故服务于说理:繁缨、貂蝉、冕旒、弹冠等均为政治符号
关键踩坑记录
- "锦"出现20次,但绝大多数为"锦囊""锦帐""锦树""锦云""锦鲤"等非服饰用法,实际服饰用仅"锦衣""宫锦""锦鞲""锦幛""锦为步障"等5处
- "罗"出现12次,但"罗浮""罗周遭""罗衣"等混杂,需逐条甄别
- "衣钵""箕裘"属文化典故(传承),非严格服饰
- "蚕"出现3次,均为"蚕纸""春蚕"等农事描写,非纺织服饰
- "丝"多在"丝竹""丝篁""银丝"中,非衣料用法
- 文件为繁体/异体字,"缊袍"写作"緼袍","龟"写作"","窗"写作"窻"等
审核结果
全部通过 ✅ — 原文均从源文件grep+sed提取,有明确行号对应,无整本载入LLM。