研究总结 日志 原文

《艮斋诗集》服饰内容提取 · 操作日志

时间:2026-03-04 任务:提取《艮斋诗集》全部服饰相关内容,整理分类总结 操作原则:严禁整本载入LLM,仅用grep/sed提取片段


操作流程

Step 1: 创建输出目录

mkdir -p /home/z/my-project/upload/四库别集output/艮斋诗集/

✅ 目录创建成功

Step 2: 确认源文件

wc -l 艮斋诗集.txt  →  1212行
wc -c 艮斋诗集.txt  →  101271字节(约101KB)

Step 3: 读取参考模板

Step 4: grep关键词检索

第一轮:广域搜索(50+关键词)

grep -n '衣|裳|冠|冕|裘|袍|衫|裙|褐|带|佩|绶|履|靴|帽|巾|笏|缨|簪|钗|珥|环|钏|绂|袂|襦|袴|裈|褂|帻|弁|旒|舄|屦|屐|紱|繡|绣|锦|紬|绸|绢|缣|缟|缯|绮|绫|罗|纱|缎|布|帛|丝|绵|葛|麻|裘|氅|蓑|笠|鞶|韨|黻|黼|黼黻' 艮斋诗集.txt

结果:200+行匹配(含大量非服饰用法)

第二轮:精确统计 逐词grep -c统计,有效服饰词汇及频次:

关键词 次数 关键词 次数
20 青衫 3
11 4
罗衣/罗 12 2
7 5
5 4
4 4
4 3

Step 5: sed提取上下文

对92行含服饰关键词的诗句,逐一用sed提取前后行(诗题+诗句),共提取约40段有效片段。

Step 6: 分类整理

按内容性质分为5大类:

  1. 历史人物服饰(6条)
  2. 自况寒素之服(15条)
  3. 隐逸与渔樵之服(6条)
  4. 服饰典故与礼仪(12条)
  5. 比喻性服饰用语(8条)

Step 7: 保存三份文件


关键发现

  1. 服饰内容稀少且零散:1212行诗中,直接涉及服饰的仅约40行,占比约3.3%
  2. 无制度性服饰记载:不同于史书、政书,诗集无服色、等级、礼仪等制度
  3. 寒士意象集中:青衫、麻袍、缊袍、敝衣、蓑笠为高频服饰意象
  4. 布衣/锦衣对举为核心价值观表达(行927)
  5. 锦、罗、绮、纱多非服饰用法:锦囊、罗浮、结绮、窗纱等需甄别
  6. 服饰典故服务于说理:繁缨、貂蝉、冕旒、弹冠等均为政治符号

关键踩坑记录


审核结果

全部通过 ✅ — 原文均从源文件grep+sed提取,有明确行号对应,无整本载入LLM。