《钱塘集》服饰内容提取 · 工作日志
时间:2026-04-20 任务ID:batch13-3 任务:提取《钱塘集》TXT中服饰相关内容,产出3个MD
操作流程
Step 1: 准备工作
mkdir -p /home/z/my-project/upload/四库别集output/钱塘集
wc -l 钱塘集.txt → 3171行
wc -c 钱塘集.txt → 416,061字节
Step 2: 读取参考文件
读取 /home/z/my-project/upload/参考/原文提取.md → 天工开物示例
读取 /home/z/my-project/upload/参考/总结.md → 吕氏春秋示例
读取 /home/z/my-project/upload/参考/日志.md → 晋会要示例
Step 3: grep多轮搜索(严禁整本载入LLM)
第1批:基础衣物词
grep -n '衣|裳|裘|冠|冕|弁|帻|巾|帽|袍|衫|裙|裤|褐' 钱塘集.txt
→ 200+匹配行
第2批:纺织材料词
grep -n '衮|绶|佩|笏|带|锦|绮|绢|帛|丝|绸|缎|绫|罗|纱|绉|缟|缁|素' 钱塘集.txt
→ 200+匹配行
第3批:颜色首饰词
grep -n '赤|青|黄|白|黑|朱|紫|绯|绿|翠|金|银|玉|珠|簪|钗|钿|珥|步摇' 钱塘集.txt
→ 200+匹配行
第4批:特定制度词
grep -n '冠服|舆服|章服|朝服|公服|祭服|丧服|常服|戎服|赐服|蟒衣|飞鱼|斗牛|补服|品色|鱼袋|革带|玉带|金带|幞头|乌纱|进贤冠|深衣|大带|蔽膝|舄|履|靴|袜|霞帔|翟衣|蚕服' 钱塘集.txt
→ 匹配较少:乌纱(3)、舄(2)、飞鱼/斗牛(地名误匹配)
第5批:具体衣物名
grep -n '狐裘|貂裘|羔裘|轻裘|重裘|褐衣|征衣|朝衣|寝衣|布衣|狐貉|衣冠|衣裳|纱巾|幅巾|乌纱|鹤氅|道服|青袍|绶|笏|簪|珥|钗|步摇|钿' 钱塘集.txt
→ 约50处有效匹配
第6批:赐服及礼制服饰
grep -n '赐衣|赐服|皮褐|毛褐|毳褐|衣褐|赭衣|衮衣|衮服|衮绂|冕旒|组绶|组绂|簪绅|簪绂|簪裾|缁衣|青衣|白羽衣|绣衣' 钱塘集.txt
→ 核心发现:赐服3表、绣衣6处、衮衣/衮绂/冕旒等
Step 4: sed提取关键行
sed -n '25p;44p;100p;108p;184p;276p;294p;318p;321p;338p;350p;...' 钱塘集.txt
→ 提取134行,约48KB原始文本
Step 5: 过滤噪音
- 剔除纯以"衣"作动词的用例(如"衣之")
- 剔除"衮衮"(多义,仅取"衮衮途泥"中的非服饰义;取"衮衣""衮绂"中的服饰义)
- 剔除"翠""金""银"等纯自然景物描写中的颜色词
- 剔除"飞鱼""斗牛"等星宿/地名误匹配
- 保留"衣冠"作阶层代称的用例
Step 6: 分类整理
按6大类整理:
- 衣裘御寒类(14处)
- 官服标识类(15处)
- 冠巾隐逸类(12处)
- 赐服使辽类(4处·核心史料)
- 礼制服饰类(8处)
- 首饰纺织类(6处)
Step 7: 写3个MD文件
- 总结.md(4.5KB)→ 分类总表+核心发现
- 原文提取.md(8.2KB)→ 按类列出原文+行号
- 日志.md(本文件,3.5KB)→ 操作流程+踩坑记录
关键发现
- 使辽赐服三表为全书最重要服饰史料,记载宋使在辽中京获赐皮褐/毳褐/毛褐衣物的完整流程
- 幅巾+道服为典型"吏隐"服饰组合,出现4处以上
- 绣衣6处均指御史/监察使者,是宋代监察服饰标识的集中体现
- 韦骧官阶不高(青袍、墨绶),诗中服饰描写多反映中下层官员生活
- 赭衣用《史记》典故,为全书唯一一处囚服记载
关键踩坑记录
- "衮衮"出现约8处,多为"连续不断"义(如"衮衮途泥""衮衮孤城"),非服饰义,需仔细甄别
- "飞鱼""斗牛"在grep中命中,实为星宿名和山名,与服饰无关
- "冠"字出现极频繁(30+处),多数为"冠军""冠名"等非服饰用法,需逐条过滤
- "翠""金""银"等颜色词grep命中数百处,绝大多数为自然景物描写,不属服饰内容
- 辽代赐服"皮褐""毳褐""毛褐"三种称谓需区分:皮褐=毛皮粗衣,毳褐=兽毛织品,毛褐=粗毛织物
文件校验
| 文件 | 大小 | 行数 |
|---|---|---|
| 总结.md | ≤20KB ✓ | ~120行 |
| 原文提取.md | ≤20KB ✓ | ~200行 |
| 日志.md | ≤20KB ✓ | 本文件 |
完成。