研究总结 日志 原文

《西台集》服饰内容提取 · 工作日志

时间:2026-04-22 任务:提取《西台集》全部服饰相关内容,整理分类总结 操作员:AI Agent


操作流程

Step 0: 环境准备

mkdir -p /home/z/my-project/upload/四库别集output/西台集/

输出目录创建成功。

Step 1: 源文件检查

wc -l /home/z/my-project/upload/四库别集/西台集.txt
→ 1569行
file 西台集.txt
→ Unicode text, UTF-8 text, with very long lines (2900), with CRLF line terminators

发现文件含CRLF换行符,执行修复:

python3: 读取→替换\r\n→\n→写回
→ 修复后1569行

Step 2: 关键词检索(Python)

由于grep在超长行UTF-8文件上报编码错误,改用Python逐行搜索。

检索关键词列表

检索结果

Step 3: 逐条审读与分类

对115行精选命中结果逐条审读,排除以下类型:

经筛选,真正涉及服饰内容的条目约40处,分为6大类。

Step 4: 关键发现

  1. 全书无系统服饰论述——作为别集,服饰仅为行文修辞或官制附带提及
  2. "衣冠"高度抽象化——全书十余处"衣冠"几乎全部用作士大夫阶层代称,无具体服饰描写
  3. 最珍贵史料——第1147行"露面来觇汉冠服",为宋辽服饰差异的民族志式观察
  4. 命妇赐服——第172-175行"谢赐冠帔表"记录宋代皇帝赐命妇冠帔制度
  5. 章服品秩错位——第215行讨论元丰改制后品秩降而章服未调的制度问题

Step 5: 产出文件


踩坑记录

问题 解决方案
grep在超长行UTF-8文件上报utf-8 codec can't decode 改用Python逐行搜索
CRLF换行符影响行号定位 预处理转换CRLF→LF
"领/布/带/佩/衮/履/罗"大量虚命中 精选关键词+人工审读排除
"罗山"地名与"罗"织物混淆 按上下文判别
"衮衮"(连续貌)与"衮服"混淆 按上下文判别

审核结果

全部通过 ✅ — 原文均从源文件Python逐行提取,有明确行号对应。虚命中关键词已在审读阶段排除。