《蒲室集》服饰内容提取 · 工作日志
时间:2026-03-05 任务:提取《蒲室集》全部服饰相关内容,整理分类总结 源文件:/home/z/my-project/upload/四库别集/蒲室集.txt(855行) 输出目录:/home/z/my-project/upload/四库别集output/蒲室集/
操作流程
Step 1: 创建输出目录
mkdir -p /home/z/my-project/upload/四库别集output/蒲室集/
✅ 成功
Step 2: 读取参考模板
/home/z/my-project/upload/参考/总结.md → 吕氏春秋服饰总结模板
/home/z/my-project/upload/参考/日志.md → 晋会要工作日志模板
/home/z/my-project/upload/参考/原文提取.md → 天工开物原文提取模板
✅ 三个模板已读取,作为格式参考
Step 3: 初步探测文件
wc -l 蒲室集.txt → 855行
文件不大(855行),但仍按规范使用grep/sed操作,不整本载入LLM。
Step 4: 关键词搜索(第一轮:宽搜)
grep -cn '衣|裳|冠|冕|裘|褐|帛|丝|绢|绸|缎|锦|绫|罗|纱|绶|佩|笏|带|履|舄|袍|袂|襦|裙|襟|袖|衮|弁|巾|帻|帽|袈|衲|裰' 蒲室集.txt
→ 120行命中
命中行较多,需要进一步筛选。
Step 5: 关键词搜索(第二轮:精搜)
grep -n '袈裟|衲衣|法衣|僧衣|禅衣|布衣|短褐|短衣|锦绣|锦衣|罗衣|纱衣|裘褐|冠冕|冕旒|衣钵|三衣|紫衣|赐衣|衣褐|褐衣|黄冠|野服|朝服|祭服|丧服|冠服|衣冠|衣绣|绣衣|斑衣|麻衣|囊衣|儒衣|毘耶|衣染|风袂|翠袖|风佩|楚袖|委佩|佩委|束带|结佩|旒|衮|茧丝|丝纶|茧|缣|缃|缟|纶|练|缦|氍毹|黼黻|缁衣|薜萝|冠有豸|廌冠|金貂|裘|敝裘'
→ 得到约70行精确命中,含大量实质服饰内容
Step 6: 关键行提取
使用Python脚本批量提取关键行(避免sed截断问题):
key_lines = [12, 21, 27, 32, 36, 41, 50, 53, 61, 63, 69, 85, 93, 97, 115, 117, 130, 132, 135, 137, 139, 143, 147, 151, 167, 169, 171, 173, 177, 179, 190, 194, 196, 198, 203, 215, 245, 247, 248, 262, 264, 276, 278, 280, 287, 300, 302, 308, 310, 312, 329, 333, 347, 354, 359, 365, 367, 381, 395, 428, 453, 456, 461, 471, 501, 517, 568, 608, 623, 661, 814, 819]
✅ 成功提取所有关键行文本
Step 7: 分类整理
按9大类整理:
- 僧服制度(三衣一钵、布衲、紫衣)
- 野服与隐逸服饰(野服、薜萝衣、儒衣、缁衣)
- 官服与冠冕(绣衣、廌冠、冕旒、衣绣)
- 服饰对比与意象(短褐/衣绣、猴而冠、烟蓑)
- 配饰(佩玉、冠弁、貂蝉簪、珠襦)
- 丝绸与纺织(锦绣、练绢、丝纶、氷蚕)
- 氍毹(佛寺地毯,6次出现)
- 衣冠礼制(衣冠閟原庙、盛衣冠、麻衣)
- 其他服饰相关(衣染天华、姣服、楚袖等)
Step 8: 生成三份文件
- 蒲室集_原文提取.md:13,105字节 ✅
- 蒲室集_总结.md:5,553字节 ✅
- 蒲室集_日志.md:本文件 ✅
关键发现
- 僧服制度为最核心内容:"三衣一钵"清规(L461)与"楷公拒紫衣"(L661)是全书最实质性的服饰制度记载
- 氍毹高频出现:6次出现,为佛寺坛前必备陈设,反映元代禅寺物质文化
- 绣衣反复书写:5次以上出现,与元代监察御史制度密切相关
- 野服/衣绣张力:贯穿全书的服饰对比,映射禅僧"方外与世俗"的身份困境
- 布衲苦行理想:佛光大师"一布衲皮履终身不易"为苦行典范
- 缺少女服记载:仅有诗词意象(翠袖、楚袖),无实质女性服饰描述
关键踩坑记录
- sed截断问题:直接用sed读取包含特殊编码字节的行时报
utf-8 codec can't decode byte错误,改用Python脚本以errors='replace'模式读取解决 - 衣/冠/佩/带的噪声:这些单字在古文中出现极频(如"衣薄霜霰繁""冠于东南""佩斯纫"),大量为一般性诗文用字而非专门服饰论述,需二次筛选
- 丝纶非服饰:"丝纶"出现2次但均指皇帝诏书("丝纶承异渥"),非丝织品
- 茧足非服饰:"茧足"指脚底生茧,非蚕茧纺织
- 黄冠非冠服:"黄冠"为道士代称,非具体冠帽描述
- 黼黻为引申义:出现4次,但3次为"辅佐/文辞之美"的引申义,仅1次接近服饰本义
审核结果
全部通过 ✅
- 原文均从蒲室集.txt中grep/sed/Python提取,有明确行号对应
- 服饰内容较少(全书855行中约70行含服饰关键词,实质内容约40条)
- 分类合理,注释准确,无过度解读
- 三个文件均≤20KB