《花随人圣盦摭忆》服饰提取日志
任务信息
- 任务ID:15-d
- 源文件:
/home/z/my-project/upload/part4/花随人圣盦摭忆.txt - 输出目录:
/home/z/my-project/upload/44output/花随人圣盦摭忆/ - 处理时间:2026-03-04
处理流程
第一步:文件概况
- 命令:
wc -l - 结果:157行
- 文件规模较小,适合逐行grep
第二步:多轮grep提取
第1轮:制度词检索
- 关键词:
服色|舆服|冠服|章服|赐服|赐紫|赐绯|借紫|品色|紫袍|绯袍|绿袍|金带|玉带|鱼袋|幞头|补服 - 结果:无匹配
- 结论:本书不含官服制度类术语
第2轮:核心名词检索
- 关键词:
衣|裳|裘|冠|弁|佩|带|履|舄|笏|绶|冕|袍|衫|裙|袄|褐 - 匹配行号:6, 8, 18, 37, 43, 47, 51, 69, 73, 75, 83, 99, 119, 139, 149, 151
- 共16行命中
第3轮:织物材质检索
- 关键词:
帛|绢|绫|罗|缎|锦|绮|纱|绸|丝|布|葛|麻|棉|茧|蚕 - 匹配行号:6, 51, 69, 73, 119
- 共5行命中
第4轮:装饰词检索
- 关键词:
黼黻|文章|纹|绣|织|染|彩|画 - 匹配行号:51, 69, 73
- 共3行命中
第5轮:动作词检索
- 关键词:
戴|穿|著|被|披|裹|束|系 - 匹配行号:10, 18, 35, 37, 43, 47, 59, 69, 73, 75, 83, 85, 99, 119, 149
- 共15行命中
第三步:去重合并与人工筛选
所有命中行号去重后:6, 8, 10, 18, 35, 37, 43, 47, 51, 59, 69, 73, 75, 83, 85, 99, 119, 139, 149, 151
人工甄别结果(排除伪命中):
| 行号 | 命中词 | 是否真命中 | 排除原因 |
|---|---|---|---|
| 6 | 绣、帛 | ✅ 是 | 红绣花荷包为定选证物 |
| 8 | 冠 | ❌ 否 | "唐冠卿"为人名 |
| 10 | 赐 | ❌ 否 | "赐其父密诏"非服饰语境 |
| 18 | 不详 | ❌ 否 | 无服饰实质内容 |
| 35 | 不详 | ❌ 否 | 无服饰实质内容 |
| 37 | 不详 | ❌ 否 | 无服饰实质内容 |
| 43 | 不详 | ❌ 否 | 无服饰实质内容 |
| 47 | 束 | ❌ 否 | "别束置之"非服饰语境 |
| 51 | 衣、裘、布、绣 | ✅ 是 | 马褂、狐裘、便服 |
| 59 | 裹 | ✅ 是 | "以毡裹投于井" |
| 69 | 衣、布、冠、穿、画 | ✅ 是 | 蓝布衣、梳汉头、官帽 |
| 73 | 帛、画 | ⚠️ 弱 | 诗词中"尺帛""翠羽明珰"为间接服饰意象 |
| 75 | 衣、袍、穿、著 | ✅ 是 | 珍妃长袍洋粉、背心月白 |
| 83 | 不详 | ❌ 否 | 无服饰实质内容 |
| 85 | 不详 | ❌ 否 | 无服饰实质内容 |
| 99 | 不详 | ❌ 否 | 无服饰实质内容 |
| 119 | 衣、服、布、衫、被、系 | ✅ 是 | 着朝服、褫去朝服、洋布衫 |
| 139 | 不详 | ❌ 否 | 无服饰实质内容 |
| 149 | 不详 | ❌ 否 | 无服饰实质内容 |
| 151 | 不详 | ❌ 否 | 无服饰实质内容 |
确认真命中行号:6, 51, 59, 69, 73, 75, 119(共7行,其中73行为弱相关)
第四步:sed提取上下文
对7行真命中行号,使用 sed -n 'N-1,N+1p' 提取上下文,确认段落完整。
第五步:分类整理
将7条服饰内容归纳为四大类:
- 宫廷选后礼仪服饰(第6行)
- 帝王便服与俭德(第51行)
- 庚子西逃服饰骤变(第59、69、119行)
- 珍妃日常装束与时尚(第75行)
- 诗词服饰意象(第73行,弱相关附录)
第六步:产出3份MD
| 文件名 | 内容 | 大小控制 |
|---|---|---|
| 花随人圣盦摭忆_总结.md | 服饰内容分类总结 | ≤20KB |
| 花随人圣盦摭忆_日志.md | 本日志 | ≤20KB |
| 花随人圣盦摭忆_原文提取.md | 服饰相关原文摘录 | ≤20KB |
伪命中分析总结
本书157行中,grep初筛命中20行,经人工甄别仅7行为真命中,伪命中率高达65%。主要伪命中类型:
- 人名干扰:如"唐冠卿"含"冠"字
- 动词歧义:如"赐密诏""别束置之"中"赐""束"非服饰语境
- 宽泛词泛化:如"文章""画"等词在非服饰语境中出现
- 文言虚词:如"被"作被动语态使用
此说明古籍服饰提取必须经过人工甄别,纯grep无法避免大量伪命中。