《金氏文集》服饰内容提取 · 日志
时间:2026-03-05 任务ID:batch12-4 输入:/home/z/my-project/upload/四库别集/金氏文集.txt(866行,约99KB) 输出:/home/z/my-project/upload/四库别集output/金氏文集/
操作流程
Step 1: 创建输出目录
mkdir -p /home/z/my-project/upload/四库别集output/金氏文集
Step 2: 读取参考文件
读取参考目录下3个MD:总结.md、日志.md、原文提取.md
了解输出格式规范
Step 3: 源文件概况
wc -l 金氏文集.txt → 866行
stat → 99,480 bytes
北宋金君卿别集,原十五卷存二卷。以赋、诗、奏疏、书信为主。
Step 4: grep多轮搜索(6轮)
第1轮:复合服饰词
grep -n '衣裳\|衣冠\|衣彩\|布衣\|朝服\|公服\|祭服\|丧服\|戎服\|赐服\|冠服\|舆服\|章服' 金氏文集.txt
→ 命中:329(布衣)、337(衣彩)、537(衣冠)
第2轮:冠弁巾帽
grep -n '衮\|冕\|弁\|帻\|幞头\|乌纱\|进贤冠\|冠\|巾\|帽' 金氏文集.txt
→ 命中:23(踰冠)、53(冠焉)、123(峩冠)、141(巍冠)、255(垫巾)、329(箬笠)、369(黼衮)、373(黄裳)、531(宸旒)、583/691/773(擢冠)、755(宸旒)、793(冠年)
第3轮:衣裳袍衫裙裘
grep -n '袍\|衫\|裙\|裤\|褐\|裘\|衣\|裳\|深衣\|蟒衣' 金氏文集.txt
→ 命中:49(黄裳)、53(鷩衣)、119(袍、青衫)、157(裘毡)、187(霜满衣)、199(方袍)、209(霓裳)、267(彩衣)、295(旅衣)、329(布衣褴缕)、415(红裙)、537(衣冠子弟)
第4轮:绶佩笏带
grep -n '绶\|佩\|笏\|带\|鱼袋\|革带\|玉带\|金带\|大带' 金氏文集.txt
→ 命中:141(大帯)、229(仙佩)、255(朝绅)、369(衮)
第5轮:织物色彩
grep -n '绫\|罗\|纱\|绢\|帛\|锦\|绮\|丝绸\|缎\|绉\|缟\|缁\|霞帔\|翟衣\|蚕服' 金氏文集.txt
→ 命中:165(春锦)、209(锦帐)、389(青绡)、409(锦绣)
注:赤/青/黄/白/黑/朱/紫/翠/金/银/玉/珠等色彩词命中128条,绝大多数为景物描写,与服饰无关,逐条人工过滤。
第6轮:赐服官服
grep -n '绶\|笏\|赐紫\|赐绯\|章服\|补服\|品色\|鱼袋\|紫袍\|绯衣\|银鱼\|金鱼' 金氏文集.txt
→ 命中:199(赐紫)、307(赐紫泥封)
Step 5: 噪音过滤
过滤规则:
- 色彩词(青/黄/白/紫/翠等)描写自然景物者剔除
- 金/银/玉/珠描写非服饰器物者剔除
- "冠"作动词("冠于""冠年""擢冠")者仅保留"冠年"(行793)与服饰冠制相关者
- "履"作"履行""履历"义者剔除
- "锦绣""青绡"等织物词用于比喻者标注"喻象"
过滤结果:
- 初始命中:128条
- 过滤后有效:约15条(含典故用法)
Step 6: 分类
| 类别 | 条目数 |
|---|---|
| 冕服祭祀 | 4 |
| 冠巾头饰 | 4 |
| 衣裳常服 | 7 |
| 僧服制度 | 3 |
| 朝服官制 | 2 |
| 织物喻象 | 3 |
Step 7: 写3个MD文件
- 总结.md ← 服饰内容分类总结
- 日志.md ← 本文件
- 原文提取.md ← 逐条原文摘录
关键发现
- 服饰内容极为稀少:全书866行,有效服饰条目仅约15条,占比约1.7%
- 典故化特征突出:黄裳(易辞)、霓裳(唐舞)、彩衣(老莱子)等均为典故,非实物描写
- 僧服赐紫为重要制度信息:方袍赐紫为宋代僧官制度之实证记录
- 士人身份标识:巍冠/布衣/青衫/朝绅构成士人身份层级
- 裘毡为冬寒实物:蒙裘毡为唯一对民间冬季服饰之直接描写
踩坑记录
- "冠"字出现频繁但多为动词("冠于""冠年""擢冠"),需逐一判别
- 色彩词(128条命中)约95%为景物描写,过滤工作量最大
- "锦绣""青绡"等织物词用于比喻非实物,需标注
- "衣冠"一词在行537为制度用语("衣冠子弟"),非单纯服饰描写
- "黄裳"在行373、49均为《易》辞典故,非实指穿着
- 原文OCR偶有异体:■〈艹戾〉袍(行119)中"艹戾"疑为"蔽"或"赭"字