《西台集》服饰内容提取 · 工作日志
时间:2026-04-22 任务:提取《西台集》全部服饰相关内容,整理分类总结 操作员:AI Agent
操作流程
Step 0: 环境准备
mkdir -p /home/z/my-project/upload/四库别集output/西台集/
输出目录创建成功。
Step 1: 源文件检查
wc -l /home/z/my-project/upload/四库别集/西台集.txt
→ 1569行
file 西台集.txt
→ Unicode text, UTF-8 text, with very long lines (2900), with CRLF line terminators
发现文件含CRLF换行符,执行修复:
python3: 读取→替换\r\n→\n→写回
→ 修复后1569行
Step 2: 关键词检索(Python)
由于grep在超长行UTF-8文件上报编码错误,改用Python逐行搜索。
检索关键词列表:
- 第一轮(宽泛):衣、裳、冠、冕、弁、巾、帻、履、舄、靴、鞋、袜、带、佩、绶、袍、裘、褐、褶、裙、衫、袂、衿、襟、袖、领、绣、锦、绮、罗、缎、纱、绢、帛、丝、缯、绸、缣、布、麻、葛、衮、黼、黻 + 复合词
- 第二轮(精选):衣冠、衣裳、冠服、朝服、祭服、丧服、戎服、法服、深衣、章服、舆服、加元服、冠帔、衮绂、锦衣、胜衣、霓衣、首服、车服、巾箱、茧丝等
检索结果:
- 宽泛关键词命中:255行
- 精选关键词命中:115行
- 含实质服饰内容:约40处
Step 3: 逐条审读与分类
对115行精选命中结果逐条审读,排除以下类型:
- "领"用作"领受/统领"(占大量)
- "布"用作"宣布/分布/布政"(占大量)
- "带"用作"襟带/地带"(多数为地理/军事比喻)
- "丝"用作"丝纶"(诏书代称)
- "帛"用作"玉帛"(外交礼物泛称)
- "罗"用作地名"罗山"(河南罗山县)
- "衮"用作"衮衮"(连续不断貌)
- "佩"用作"佩服/感佩"(心理动词)
- "履"用作"履历/履长/福履"(非鞋履义)
经筛选,真正涉及服饰内容的条目约40处,分为6大类。
Step 4: 关键发现
- 全书无系统服饰论述——作为别集,服饰仅为行文修辞或官制附带提及
- "衣冠"高度抽象化——全书十余处"衣冠"几乎全部用作士大夫阶层代称,无具体服饰描写
- 最珍贵史料——第1147行"露面来觇汉冠服",为宋辽服饰差异的民族志式观察
- 命妇赐服——第172-175行"谢赐冠帔表"记录宋代皇帝赐命妇冠帔制度
- 章服品秩错位——第215行讨论元丰改制后品秩降而章服未调的制度问题
Step 5: 产出文件
西台集_总结.md(约8KB)——分类汇总与分析西台集_原文提取.md(约12KB)——关键原文摘录西台集_日志.md(本文件)——工作过程记录
踩坑记录
| 问题 | 解决方案 |
|---|---|
grep在超长行UTF-8文件上报utf-8 codec can't decode |
改用Python逐行搜索 |
| CRLF换行符影响行号定位 | 预处理转换CRLF→LF |
| "领/布/带/佩/衮/履/罗"大量虚命中 | 精选关键词+人工审读排除 |
| "罗山"地名与"罗"织物混淆 | 按上下文判别 |
| "衮衮"(连续貌)与"衮服"混淆 | 按上下文判别 |
审核结果
全部通过 ✅ — 原文均从源文件Python逐行提取,有明确行号对应。虚命中关键词已在审读阶段排除。