研究总结 日志 原文

《四库全书辑永乐大典本书目》服饰内容提取 — 操作日志

操作时间:2026-05-04 操作者:AI SubAgent 输入文件:四库全书辑永乐大典本书目.txt(1619行,61,097字节)


操作流程

Step 1: 读取参考模板

读取三个模板文件,理解排版格式:

Step 2: 统计文件基本信息

wc -l: 1619 行
wc -c: 61,097 字节(约60KB)

文件特征:本书为书目目录,记录从《永乐大典》中辑出的516种书籍(著录388种+存目128种),分经、史、子、集四部。全书含两个几乎完全相同的版本(行1-807与行814-1619),仅个别异体字差异。

Step 3: 多轮grep提取服饰关键词

第一轮:基本服饰类

关键词 命中行数 噪音率
2 100%(书名"衣食")
4 100%(书名+人名)
0
0
0
0
0
0
0
0
0

第二轮:冠帽首饰类

关键词 命中行数 噪音率
2 100%(人名"杨冠卿")
0
0
0
0
0
2 100%(地名"环溪")
0
0
0
0

第三轮:织物面料类

关键词 命中行数 噪音率
0
6 100%(人名"诸葛亮""葛胜仲""葛元承")
0
0
0
8 100%(书名修辞"锦绣""锦语""锦裳")
0
0
2 100%(人名"罗黄裳")
0
0
0
2 100%(官职"布政使")
0
0
0
0

第四轮:工艺制度类

关键词 命中行数 噪音率
0
4 100%(书名"锦绣论""启札锦绣")
0
0
0
0
0
0
0
0
2 100%(叙文提及"三礼图释人注")
0
章服 0
服色 0

第五轮:特殊服饰类

全部25个关键词命中均为0。

Step 4: sed提取上下文

由于5轮grep结果全部为噪音,无需使用sed提取上下文。直接对噪音条目进行了逐行审查确认。

Step 5: 精简筛选

去除的噪音类型:

  1. 书名修辞噪音:启札云锦裳、启札锦语、锦绣论、启札锦绣——"锦绣"喻文采华美,非服饰内容
  2. 人名噪音:诸葛亮、葛胜仲、葛元承、杨冠卿、罗黄裳
  3. 地名噪音:环溪(书名"环溪诗话")
  4. 官职名噪音:布政使
  5. 书名用字噪音:农桑衣食撮要中"衣食"为并列词组,非专门服饰讨论

间接关联识别:

虽无直接服饰内容,但所著录的12种书籍原书可能涉及服饰:

Step 6: 对抗式审查结果

对所有grep命中行逐一审查:


关键发现

  1. 本书目为纯粹目录,无任何直接服饰内容——5轮关键词检索命中30行,全部为噪音
  2. 噪音率100%——在所有已处理的古籍中,本书目的服饰内容密度最低(为零)
  3. 书名修辞是主要噪音来源——"锦绣""锦裳"等在尺牍类书名中极为常见,喻文采而非服饰
  4. 人名噪音突出——"葛""冠""裳"等字在宋代人名中频繁出现
  5. 间接关联书目12种占516种的2.3%,为服饰研究提供了线索索引
  6. 文本重复——全书含两个几乎相同的版本,实际独立内容仅约800行

保存文件

文件 大小
四库全书辑永乐大典本书目_总结.md ~6KB
四库全书辑永乐大典本书目_日志.md 本文件
四库全书辑永乐大典本书目_原文提取.md ~5KB

备注