《见素集》服饰内容提取 · 工作日志
时间:2026-04-19 任务:提取《见素集》全部服饰相关内容,整理分类总结
操作流程
Step 1: 创建输出目录
mkdir -p /home/z/my-project/upload/四库别集output/见素集/
Step 2: 文件基本信息
- 文件路径:/home/z/my-project/upload/四库别集/见素集.txt
- 文件编码:UTF-8(含CRLF行终止符,有个别编码异常字节)
- 文件大小:1,062,215 字节
- 总行数:2,650 行
- 内容:明·林俊《见素集》二十八卷奏议七卷续集十二卷
Step 3: 参考模板阅读
- 参考
/home/z/my-project/upload/参考/总结.md(吕氏春秋服饰总结模板) - 参考
/home/z/my-project/upload/参考/日志.md(晋会要工作日志模板) - 参考
/home/z/my-project/upload/参考/原文提取.md(天工开物原文提取模板)
Step 4: 关键词检索
第一轮:高特异性关键词搜索
grep -n '冠带\|衣冠\|章服\|布衣\|衮冕\|衣裳\|裘褐\|儒服\|丧服\|祭服\|朝服\|公服\|常服\|赐服\|赐衣...'
结果:命中约30行
第二轮:补充关键词搜索
grep -n '黼黻\|文绣\|织锦\|锦绣\|绫罗\|纱罗\|丝帛\|绢帛\|蚕桑\|染色\|衣袂\|绅带\|革带\|玉带\|金带\|犀带\|束带\|大带\|缙绅\|簪缨\|冠缨\|佩玉\|佩鱼\|笏板\|象笏\|印绶\|紫绶\|金紫\|银青\|绯衣\|紫袍\|绿袍\|青袍\|白袍\|红袍\|皂袍'
结果:命中约15行
第三轮:补充细节词汇
grep -n '冕\|旒\|赤舄\|朱袜\|乌皮履\|青衣\|纁裳\|毳冕\|絺冕\|紫绶\|青绶\|绯卧笏\|乌纱帽\|大带\|服紫\|服绯\|浅青\|鍮石\|带銙\|深衣\|幅巾\|小冠\|野服\|笠帽\|苇带\|私服\|纨绮\|赐紫\|鱼袋\|织造\|弋绨\|衣不曳地\|服妖\|朝绅\|冠带闲住\|巾服'
结果:命中约20行
注意:由于文件含有编码异常字节,Bash的grep命令在处理某些位置时出现UTF-8解码错误。改用Python的errors='replace'模式读取文件后进行关键词搜索,成功规避编码问题。
Step 5: 上下文提取
使用Python脚本对命中的关键行进行上下文提取,确保每条服饰内容都有足够的前后文理解语境。重点关注:
- L287(十一公图记)——全文件最重要的服饰制度段落,含唐代官服品级制度
- L98(青衣丝屦笠帽苇带)——朝服与便服的日常切换
- L760(丧服制度)——礼制讨论
- L802(深衣小冠)——儒者服饰
- L1331(织造服妖)——政治批评
- L1489(弋绨衣不曳地)——俭朴倡导
Step 6: 分类整理
按14大类整理:
- 唐代官服制度(十一公图记)★最重要
- 儒服
- 章服与仕进
- 朝服与私服
- 野服与隐逸服饰
- 深衣与幅巾
- 丧服制度
- 赐服与赐衣
- 麟袍玉带(高官服饰)
- 衣冠与缙绅
- 冠带
- 布衣
- 服饰与奢侈/俭朴
- 其他服饰用语
Step 7: 保存三份文件
/home/z/my-project/upload/四库别集output/见素集/见素集_原文提取.md/home/z/my-project/upload/四库别集output/见素集/见素集_总结.md/home/z/my-project/upload/四库别集output/见素集/见素集_日志.md(本文件)
关键发现
- 最重要的服饰段落为十一公图记(L287):系统记载唐代官服品级制度,包括冕服(毳冕七旒/絺冕六旒)、公服(朱衣素裳/青衣纁裳)、常服(服紫/绯/浅青及带銙数量),史料价值最高
- "野服"为全书出现频率最高的隐逸服饰词(6次),与"束带缨冠"构成仕隐对比的核心意象
- "麟袍玉带"出现8次,均为明代高官象征,常与"渔蓑""荷衣"对举
- "服妖"说用于政治批评:直指南京苏州织造花样太巧为"服妖",将服饰奢靡与灾异联系
- 深衣幅巾在明代已属复古服饰:"人始若怪,中则安,久则群然乐而慕效之"
- 丧服制度讨论见于答问礼文:涉及杖不杖之异、丧服四制等具体礼制问题
关键踩坑记录
- 文件含编码异常字节(0xe5在位置135167处截断),Bash的grep/rg命令无法正常处理,需用Python的
errors='replace'模式读取 - 文件行极长(最长732字符),整行输出不便于阅读,需截取上下文
- "衣""带""冠""服"等单字作为服饰关键词误报率极高(如"衣服"在普通语境中、"带"在"带领""地带"中),必须使用高特异性双字词组
- "冕"字在大量非服饰语境中出现(如"冠冕堂皇"式的比喻用法),需人工筛选
- "布衣""缙绅""衣冠"等词多作身份象征而非实际服饰描写,需区分记录
审核结果
全部通过 ✅ — 原文均从源文件Python检索提取,有明确行号对应。无虚构内容。