《运甓漫稿》服饰内容提取 · 工作日志
时间:2026-04-23 任务ID:batch5-5 任务:处理《运甓漫稿》TXT,提取服饰内容,产出3个MD
操作流程
Step 0: 环境准备
mkdir -p /home/z/my-project/upload/四库别集output/运甓漫稿
wc -l 运甓漫稿.txt → 2546行
Step 1: 读取参考文件
读取3个参考MD(总结/日志/原文提取),了解输出格式要求:
- 总结MD:按类别归纳,含表格
- 日志MD:记录操作步骤与关键发现
- 原文提取MD:逐条引用原文,标注行号
Step 2: grep多轮搜索
第1轮:宽泛搜索(全部服饰关键词)
grep -n '衣裳裘冠冕弁帻巾帽袍衫裙裤褐衮绶佩笏带锦绮绢帛丝绸缎绫罗纱绉缟缁素赤青黄白黑朱紫绯绿翠金银玉珠簪钗钿珥步摇...' 运甓漫稿.txt
→ 508行匹配(大量噪音)
第2轮:复合词搜索(精确度提升)
grep -n '衣裳\|衣冠\|布衣\|貂蝉\|绯袍\|锦衣\|衮龙\|冠服\|弁服\|冠带\|簪笏\|玉佩\|步摇\|短褐\|绶\|笏\|履\|靴\|袜\|弁\|冕\|帻\|裙\|褐' 运甓漫稿.txt
→ 精确匹配数十条
第3轮:纺织材料专项搜索
grep -n '宫锦\|越罗\|香罗\|轻绢\|红绡\|香纨\|冰纨\|鲛绡\|缠头锦\|丝纩\|蚕绩\|布帛\|缣\|纨\|纩\|绵\|缯' 运甓漫稿.txt
→ 纺织品类10余条
第4轮:宗教/丧祭专项搜索
grep -n '袈裟\|衲衣\|黄冠\|箨冠\|缁流\|衣冠閟\|泰坛\|衮龙狩' 运甓漫稿.txt
→ 6条
第5轮:首饰佩饰专项搜索
grep -n '步摇\|钗凤\|翠花钿\|宝珰\|金莲\|罗袜\|锦带\|珠缨\|绣芾\|笄珈\|簪绂\|簪缨' 运甓漫稿.txt
→ 10余条
Step 3: sed提取验证
sed -n '529p' 运甓漫稿.txt # 验证罗敷行全文
sed -n '629p' 运甓漫稿.txt # 验证内臣行全文
# 逐一验证关键行,确认无断章
Step 4: 过滤噪音
排除以下类型:
- 纯色彩描写无服饰含义者(如"青山""翠竹""白云"等自然景物)
- "丝"作为弦乐器代称者(如"丝与桐"=琴瑟)
- "绸缪"作"缠绵"义者(非丝织品)
- "组织""织造"等与服饰无关者
Step 5: 分类整理
按8大类归类:
- 明代官服与朝仪(12条)
- 军事仪仗服饰(3条)
- 女子服饰与首饰(5条)
- 隐逸与平民服饰(7条)
- 纺织丝织材料(16条)
- 宗教服饰(6条)
- 丧祭礼制服饰(6条)
- 服饰象征与意象(8条)
Step 6: 写3个MD文件
- 总结.md(5,843字节)——分类总结与文化分析
- 原文提取.md(7,216字节)——逐条原文+行号+注释
- 日志.md(本文件)——操作记录与关键发现
关键发现
- 《运甓漫稿》以诗为主,服饰内容为文学性描写,非制度性记载,但多处可佐证明代中期服饰实况
- 内臣绯袍胸背为重要发现——"胸背"即补服前身,明代内臣(宦官)穿绯袍胸背纹饰
- 罗敷诗(行529)为全书最详尽的女子服饰描写:步摇、钗凤、翠花钿、宝珰、锦带等,堪与明代首饰实物互证
- 越罗衫(行517)——越罗为浙江特产丝织品,明时仍为名品
- 丝织品种丰富:宫锦、越罗、香罗、细文轻绢、冰纨、鲛绡、红绡、霞绡、绛罗等,反映明代丝织品名目
- 仕隐服饰对立为全书核心意象群:簪绂/布衣、轩冕/林泉反复出现
- "缁尘"意象出现3次,与《洛阳伽蓝记》"缁尘染衣"一脉相承
关键踩坑记录
- 文件为诗歌体裁,服饰词汇常作比喻/象征用,需仔细甄别(如"丝桐"=琴,"绸缪"=缠绵)
- "冠"字出现极多,多为"冠绝""冠军""冠盖"等非服饰用法,需逐条甄别
- "带"字亦多作"地带""带领"等义,非尽为腰带
- 行529(罗敷诗)全文极长,服饰要素密集,需分段提取
- "缁流"为僧人代称,非服饰术语但与服饰文化相关
文件大小验证
总结.md → ≤20KB ✓
原文提取.md → ≤20KB ✓
日志.md → ≤20KB ✓
审核结果
全部通过 ✅ —— 原文均从原文件grep+sed提取,有明确行号对应,噪音已过滤。