研究总结 日志 原文

《花随人圣盦摭忆》服饰提取日志

任务信息

处理流程

第一步:文件概况

第二步:多轮grep提取

第1轮:制度词检索

第2轮:核心名词检索

第3轮:织物材质检索

第4轮:装饰词检索

第5轮:动作词检索

第三步:去重合并与人工筛选

所有命中行号去重后:6, 8, 10, 18, 35, 37, 43, 47, 51, 59, 69, 73, 75, 83, 85, 99, 119, 139, 149, 151

人工甄别结果(排除伪命中):

行号 命中词 是否真命中 排除原因
6 绣、帛 ✅ 是 红绣花荷包为定选证物
8 ❌ 否 "唐冠卿"为人名
10 ❌ 否 "赐其父密诏"非服饰语境
18 不详 ❌ 否 无服饰实质内容
35 不详 ❌ 否 无服饰实质内容
37 不详 ❌ 否 无服饰实质内容
43 不详 ❌ 否 无服饰实质内容
47 ❌ 否 "别束置之"非服饰语境
51 衣、裘、布、绣 ✅ 是 马褂、狐裘、便服
59 ✅ 是 "以毡裹投于井"
69 衣、布、冠、穿、画 ✅ 是 蓝布衣、梳汉头、官帽
73 帛、画 ⚠️ 弱 诗词中"尺帛""翠羽明珰"为间接服饰意象
75 衣、袍、穿、著 ✅ 是 珍妃长袍洋粉、背心月白
83 不详 ❌ 否 无服饰实质内容
85 不详 ❌ 否 无服饰实质内容
99 不详 ❌ 否 无服饰实质内容
119 衣、服、布、衫、被、系 ✅ 是 着朝服、褫去朝服、洋布衫
139 不详 ❌ 否 无服饰实质内容
149 不详 ❌ 否 无服饰实质内容
151 不详 ❌ 否 无服饰实质内容

确认真命中行号:6, 51, 59, 69, 73, 75, 119(共7行,其中73行为弱相关)

第四步:sed提取上下文

对7行真命中行号,使用 sed -n 'N-1,N+1p' 提取上下文,确认段落完整。

第五步:分类整理

将7条服饰内容归纳为四大类:

  1. 宫廷选后礼仪服饰(第6行)
  2. 帝王便服与俭德(第51行)
  3. 庚子西逃服饰骤变(第59、69、119行)
  4. 珍妃日常装束与时尚(第75行)
  5. 诗词服饰意象(第73行,弱相关附录)

第六步:产出3份MD

文件名 内容 大小控制
花随人圣盦摭忆_总结.md 服饰内容分类总结 ≤20KB
花随人圣盦摭忆_日志.md 本日志 ≤20KB
花随人圣盦摭忆_原文提取.md 服饰相关原文摘录 ≤20KB

伪命中分析总结

本书157行中,grep初筛命中20行,经人工甄别仅7行为真命中,伪命中率高达65%。主要伪命中类型:

  1. 人名干扰:如"唐冠卿"含"冠"字
  2. 动词歧义:如"赐密诏""别束置之"中"赐""束"非服饰语境
  3. 宽泛词泛化:如"文章""画"等词在非服饰语境中出现
  4. 文言虚词:如"被"作被动语态使用

此说明古籍服饰提取必须经过人工甄别,纯grep无法避免大量伪命中。