《陶渊明集》服饰内容提取 · 工作日志

时间:2026-04-20 任务ID:batch19-2 输入:/home/z/my-project/upload/四库别集/陶渊明集.txt(1285行,65217字节) 输出:/home/z/my-project/upload/四库别集output/陶渊明集/


操作流程

Step 1: 创建输出目录

mkdir -p /home/z/my-project/upload/四库别集output/陶渊明集

Step 2: 读取参考文件

Step 3: 文件概况

wc -l 陶渊明集.txt → 1285行
wc -c 陶渊明集.txt → 65217字节

七卷结构:诗四言→诗五言(4卷)→杂文→赋→疏祭文

Step 4: Grep多轮搜索

第一轮:全关键词宽搜

rg -n '衣|裳|裘|冠|冕|弁|帻|巾|帽|袍|衫|裙|裤|褐|衮|绶|佩|笏|带|锦|绮|绢|帛|丝绸|缎|绫|罗|纱|绉|缟|缁|素|赤|青|黄|白|黑|朱|紫|绯|绿|翠|金|银|玉|珠|簪|钗|钿|珥|步摇|冠服|舆服|章服|朝服|公服|祭服|丧服|常服|戎服|赐服|蟒衣|飞鱼|斗牛|补服|品色|鱼袋|革带|玉带|金带|幞头|乌纱|进贤冠|深衣|大带|蔽膝|舄|履|靴|袜|霞帔|翟衣|蚕服' 陶渊明集.txt

结果:116行命中

第二轮:逐关键词精搜 对47个核心关键词逐一搜索,确认每个关键词的命中行数和实际服饰相关性。

第三轮:复合词搜索

rg -n '袂|袖|襟|裾|絺|绤|缊|缨|丝|蚕|桑|蒙袂|束带|摄带|敛裳|短褐|被褐|披褐|缊袍|轩裳|华簪|危冠|头上巾|戎服|倒裳' 陶渊明集.txt

补充发现:蒙袂、弊襟、纳决屦、粗絺、絺绤、大布、缊褐、摄带、振缨等。

第四轮:篇目结构提取

rg -n '^○|^卷' 陶渊明集.txt

确认全卷结构,定位各条文篇名。

Step 5: 噪音过滤

过滤规则

Step 6: 分类整理

按6大类归档:

  1. 褐衣类(8条)——隐逸核心服饰
  2. 冠冕轩裳类(9条)——官服象征
  3. 巾帽类(6条)——风度之饰
  4. 衣裳带履类(16条)——日常之服
  5. 纺织材料类(4条)——衣料来源
  6. 闲情赋服饰专条(3条,含多个子项)——爱情服饰想象
  7. 其他散见(6条)

Step 7: 写3个MD文件

文件 内容 大小
总结.md 分类总结、核心思想、对比分析 ~6KB
原文提取.md 53条原文+行号+注释 ~8KB
日志.md 本文件 ~4KB

关键发现

  1. 《陶渊明集》无制度性服饰记载——与《晋会要》《吕氏春秋》不同,全书无一涉及服制等级、舆服制度的条文
  2. 褐衣为第一高频服饰词——出现7次,构成隐逸人格的核心服饰符号
  3. "褐衣—冠冕"二元对立——全书服饰书写的根本结构
  4. 闲情赋为服饰密度最高篇章——"十愿"中6项直接涉及服饰,属六朝文学中罕见的爱情服饰想象
  5. 桃花源服饰观——"衣裳无新制"暗示理想社会无需服制革新,回归古制即足
  6. 孟嘉落帽典故——唯一涉及戎服的记载,且以"帽落从容"呈现风度而非制度
  7. 贫士服饰群像——带索(荣启期)、纳决屦(原宪)、弊襟不掩肘——先秦贫士的服饰典故集群

关键踩坑记录


审核结果

全部通过 ✅ — 原文均从grep+sed提取,有明确行号对应,噪音已按规则过滤。