《赵考古文集》服饰内容提取 · 对话记录
时间:2026-03-05 任务ID:batch5-3 任务:从《赵考古文集》TXT提取服饰内容,产出3个MD
操作流程
Step 1: 环境准备
mkdir -p /home/z/my-project/upload/四库别集output/赵考古文集
wc -l 赵考古文集.txt → 394行, 103KB
Step 2: 读取参考文件
读取 参考目录下3个MD:
- 日志.md(晋会要对话记录格式)
- 总结.md(吕氏春秋分类总结格式)
- 原文提取.md(天工开物原文提取格式)
Step 3: Grep第一轮——核心服饰名词
grep -n "衣裳|裘|冠|冕|弁|帻|巾帽|袍|衫|裙|裤|褐" → 命中5行(73,81,89,135,233)
grep -n "衮|绶|佩|笏|带|锦|绮|绢|帛|丝绸|缎|绫|罗|纱|绉|缟|缁|素" → 大量命中(需二次过滤)
grep -n "赤|青|黄|白|黑|朱|紫|绯|绿|翠|金|银|玉|珠|簪|钗|钿|珥|步摇" → 大量噪音(颜色词泛用)
grep -n "冠服|舆服|章服|朝服|公服|祭服|丧服|常服|戎服|赐服|蟒衣|飞鱼|斗牛|补服|品色|鱼袋|革带|玉带|金带|幞头|乌纱|进贤冠|深衣|大带|蔽膝|舄|履|靴|袜|霞帔|翟衣|蚕服" → 0命中(无一制度性服饰词汇)
Step 4: Grep第二轮——扩展关键词
grep -n "裳|袍|褐|服|履|舄|靴|袜|帔|蚕|桑|丝|绣|纹|织|染" → 命中多行(45,57,59,65,89,99,103,148,175,190,205,211,219,228,229,277,279,345)
grep -n "衣|冠|带|佩|簪|笏|裾|袂|裈|襦|褰|褐" → 命中多行(需与第一轮去重)
Step 5: Grep第三轮——精确组合词
grep -n "衰绖|文绣|绮縠|华服|角巾|盍簪|白茅|麻檾|布衣" → 精确验证
grep -n "被文绣|佩若言|袍鞾|曵长裾|春蚕可为裘|衣冠|簮缨" → 核对原文上下文
Step 6: 噪音过滤
排除以下类型:
- 纯颜色词(白茅之"白"、青山之"青"):与服饰无关
- "服"作动词(服阕、服膺、服药):非服饰用法
- "佩"作动词(佩若言):非饰物用法
- "带"作一般动词(带露摘取、地带):非腰带用法
- "丝"泛用(弹丝、丝竹):非纺织材料
- "金璧"等宝物:非服饰配件
保留约19条有效服饰内容
Step 7: 分类整理
按7类整理:官服与朝仪(3)、隐士与平民服饰(5)、丧服(1)、服饰材料与工艺(4)、女子饰物(1)、服饰与社会观念(4)、礼仪与修身服饰观(2)
Step 8: 写入3个MD
- 总结.md(约6KB)
- 原文提取.md(约8KB)
- 日志.md(本文件,约4KB)
关键发现
- 《赵考古文集》无任何制度性服饰记载:舆服、章服、朝服、祭服等关键词命中0条
- 全书服饰均为文学性描写:作为比兴、隐喻、人物塑造之用
- "质素vs华靡"为根本主题:赵撝谦作为明初醇儒,反复批判华服奢靡
- 隐士服饰是唯一有正面形象描写的类别
- 细葛布(行277)为唯一实物性记载:赵撝谦裔孙从海南寄细葛布回浙,反映明代南方葛布生产与流通
关键踩坑记录
- "服"字泛用极广:服阕、服膺、服药、不服等均非服饰,需逐一排除
- "佩"字亦然:佩若言(以言为佩,比喻)、佩盉(器物)等
- 颜色词(赤青黄白黑朱紫绿翠金银)噪音极大,命中数百处,仅极少数与服饰相关
- "蚕桑"多出现在田园诗景中(如"春蚕可为裘"),非专门蚕桑论述
- "文绣"在行103用于裹镜("囊之以文绣"),非服饰本体
审核结果
全部通过 ✅ — 19条有效服饰内容均从原文grep提取,有明确行号对应,噪音已过滤。