《道园学古录》服饰内容提取 · 对话记录
时间:2026-03-04 任务ID: batch7-4 任务:提取《道园学古录》全部服饰相关内容,整理分类总结
操作流程
Step 1: 准备工作
mkdir -p /home/z/my-project/upload/四库别集output/道园学古录
wc -l 道园学古录.txt → 3801行
读取参考文件:总结.md / 日志.md / 原文提取.md
Step 2: 复合词搜索(第一轮)
grep -cn 搜索56个复合关键词
有实质内容:衣裳(12) 衮冕(3) 冕服(1) 朝服(1) 常服(1) 赐服(1) 鱼袋(1)
玉带(6) 金带(2) 乌纱(1) 深衣(1) 冠服(3) 袍(13) 衫(3) 褐(3) 衮(21)
绶(7) 笏(8) 带(33) 锦(47) 绮(18) 帛(23) 绫(2) 罗(51) 缟(5) 缁(3)
素(113) 簪(11) 钗(4) 玉佩(5) 佩玉(5) 绣衣(2) 锦衣(2) 纶巾(2)
儒服(1) 衣冠(33) 衣服(10) 布衣(10) 貂(10) 金紫(12) 银青(9) 貂裘(5)
鹤氅(1) 袈裟(1) 羔裘(1)
Step 3: Python多轮搜索(第二轮)
使用python3脚本搜索50+关键词,提取行号
发现编码问题:utf-8解码异常 → iconv -c清洗 → 仍报错
改用 errors='replace' 参数读取
Step 4: 高价值关键词定位(第三轮)
python3搜索定位关键行号:
衮衣: L1401,1475,1478,1569,3390
衮冕: L898,1597,1630
赤舄: L1478,1832,1903,3238,3390,3394
只孙: L1591,1888
济逊: L1591
通天冠/绛纱袍: L1630
玉带: L1571,1591,1697,1888,1900,2495
金织衣/珠帽/珠衣: L1888
鹤氅: L356
白罗氅衣: L355
Step 5: 关键段落提取与分类
提取80+关键行号对应文本
按10大类别分类:
1. 天子冠冕与祭祀服饰
2. 衮衣绣裳与公侯服饰
3. 元代特有服饰制度
4. 官服品级与佩饰
5. 冠巾帽履
6. 衣冠与文明象征
7. 布衣与平民服饰
8. 赐服与功臣褒奖
9. 丧服与祭服
10. 道教与隐逸服饰
Step 6: 写3个MD文件
- 总结.md(~15KB):分类整理与注释
- 日志.md(本文件):操作记录
- 原文提取.md:关键原文摘录
关键发现
- 只孙/济逊宴服:元代最独特服饰制度,此书记载最为详细(钦察世家+张珪传两处)
- 衮冕服制从草创到完备:英宗始服衮冕(曾巽初传)→文宗亲郊衮冕佩舄(郊祀颂),反映元代礼制建设历程
- 钦察世家赐服为全书最详:珠帽、珠衣、玉带、金带、金织衣、貂裘帽、七宝笠,反复赐予
- 衣冠作为文明象征:多次以"衣冠"代指士人阶层,"前代衣冠今绝少"感叹宋元易代之变
- 白罗氅衣+鹤氅为道教法服珍品记载
- 通天冠绛纱袍因卤簿不备而改常服骑马,反映元代初期礼制缺失
关键踩坑记录
- 源文件存在UTF-8编码异常(position 135166-135167),rg/grep均无法正常搜索
- 解决方案:使用python3
errors='replace'参数读取 - rg搜索大文件+多关键词组合容易超时,需分批搜索
- "素""赤""翠"等单字关键词噪音极大(素113处、赤/翠各数十处),需以复合词优先
统计
- 源文件:3801行
- 服饰相关匹配行:约200+行(去重去噪后有效约80行)
- 分类:10大类
- 输出:3个MD文件