《阮籍集》服饰内容提取 · 工作日志

时间:2026-03-05 任务ID:batch15-5 输入:/home/z/my-project/upload/四库别集/阮籍集.txt 输出:/home/z/my-project/upload/四库别集output/阮籍集/


操作流程

Step 1: 环境准备

mkdir -p /home/z/my-project/upload/四库别集output/阮籍集

读取参考文件3份(总结.md、日志.md、原文提取.md),确定输出格式规范。

Step 2: 文件基本信息

wc -l 阮籍集.txt → 695行
wc -c 阮籍集.txt → 87,429字节(约87KB)

章节结构:

Step 3: 多轮grep搜索

第一轮:宽泛搜索全部服饰关键词(衣裳裘冠冕弁帻巾帽袍衫裙裤褐衮绶佩笏带锦绮绢帛丝绸缎绫罗纱绉缟缁素赤青黄白黑朱紫绯绿翠金银玉珠簪钗钿珥履靴袜等) → 117行命中,含大量噪音(颜色词"青""白""黑""素""朱""紫"等作为非服饰用语频繁出现)

第二轮:组合服饰关键词搜索(衣裳|裘|冠|冕|弁|帻|巾帽|袍|衫|裙|裤|褐|衮|绶|佩|笏|锦|绮|绢|帛|丝|绫|罗|纱|缟|缁|簪|钗|钿|珥|履|靴|袜|步摇|舆服|章服|朝服|丧服|布衣|纤罗|文绣|缊袍|衣袂|绛纱等) → 大幅缩小范围,约80行有效

第三轮:精确搜索关键服饰短语(被服|布衣|衣冠|衣裳|被褐|缊袍|纤罗|文绣|章甫|端冕|沙衣|曲裙|飞翮|方离|绂阳|朱履|文组|韦带|朝服|容饰|圭璋|珪璧|华轩等) → 约55行,精度提升

第四轮:补充搜索遗漏词(染丝|荣期带索|公孟季子衣绣|羽仪|服有常|被发|旧素等) → 新增约5处

Step 4: 噪音过滤

去除的噪音类型

  1. 颜色词作非服饰用:朱华(红花)、素风(清风)、青云(高空)、丹山(赤色山)等
  2. 地理/天文名词:丹渊、朱阳、紫庭、玄堂等
  3. 丝作乐器弦:丝竹(丝弦乐器)、丝声
  4. 佩作抽象动词:佩云气(佩带云气,神仙意象,保留并注明)
  5. 衣作比喻:泰山成砥砺,黄河为裳带(保留并注明为比喻)

保留的边界案例

Step 5: 分类整理

按7大类整理:衣裳类(11)、冠帽类(6)、佩饰类(7)、衣部件类(9)、履足类(3)、服色制度类(5)、神仙超脱意象(5),共46条。

Step 6: 写3个MD文件

文件 大小 说明
总结.md ~6KB 分类总结+统计+核心思想
原文提取.md ~9KB 按篇章逐条原文+注释
日志.md ~4KB 本文件,操作流程记录

关键发现

  1. 布衣为最高频词:出现3次(咏怀其六、大人先生歌、答伏义书),是阮籍平民意识的核心象征
  2. 被服出现4次:被服蕙兰(理想)、被服纤罗衣(富贵)、被服正有常(制度批判),同一词三种立场
  3. 大人先生传最集中:全文大量服饰对比——君子服有常色 vs 大人被发衣方离,是阮籍礼教批判的核心文本
  4. 咏怀其六十七为制度批判关键诗:"被服正有常,尊卑设次序"直接讽刺礼法服饰等级
  5. 清思赋为神仙服饰高峰:披丹霞为衣、佩瑶光、释朱履,构建完整神仙服饰意象
  6. 章甫/旃裘对举:东平赋中"资章甫以游越/被文绣而贾戎/识旃裘之必袭",三组衣冠不合地宜的典故

踩坑记录


审核结果

全部通过 ✅ — 原文均从阮籍集.txt中grep提取,有明确行号对应,未整本载入LLM。