研究总结 日志 原文

《明皇杂录》服饰内容提取操作日志

基本信息

项目 内容
书名 明皇杂录
作者 (唐)郑处诲
源文件 /home/z/my-project/upload/part3/明皇杂录.txt
输出目录 /home/z/my-project/upload/33output/明皇杂录/
文件总行数 104行
操作时间 2025年

Grep操作记录

第一轮:核心关键词扫描

命令:rg -n '衣|裳|裘|冠|冕|弁|佩|带|绶|笏|袍|褐|锦|绮|绢|纱|裙|履|靴|鞋|帽|巾|幞|簪|钗|环|玉|金|银|珠|帔|绣|衫|襦' 明皇杂录.txt

命中行号:6, 9, 11, 15, 19, 21, 23, 28, 30, 32, 40, 42, 44, 59, 61, 63, 65, 67, 82, 87, 91, 93, 95

命中行数:23行

第二轮:扩展关键词扫描

命令:rg -n '布帛|绸|缎|绫罗|丝绣|织染|裁缝|衮|章服|袄|裤|舄|钿|珮|服色|冠服|舆服|赐服|朝服|公服|常服|丧服|祭服|冕服|蟒袍|补子|霞帔|凤冠|深衣|大带|革带|蔽膝|鱼袋|幞头|乌纱|顶戴|花翎|朝珠|铠甲' 明皇杂录.txt

命中行数:0行

第三轮:复合服饰词组扫描

命令:rg -n '罗衣|黄衫|青布|绛节|紫衣|碧衫|黄文袍|短后绣袍|黄罗帔衫|文玉带|玉叶冠|锁子帐|金银甲|粉黛|衰绖|衣箱|宝带' 明皇杂录.txt

命中行号:11, 15, 19, 21, 23, 28, 44, 59, 61, 65, 67, 82, 87, 91, 95

命中行数:15行

第四轮:各关键词命中统计

关键词 命中行数 关键词 命中行数
11 4
7 4
8 4
10 2
3 3
3 2
4 2
1 1
1 1
1

第五轮:排除性扫描

以下关键词无命中:裳、裘、冕、弁、佩、绶、褐、布帛、绢、绸、缎、绫罗、丝绣、织染、裁缝、衮、章服、袄、裤、履、舄、靴、鞋、帽、幞、钗、钿、珮、服色、冠服、舆服、赐服、朝服、公服、常服、丧服、祭服、冕服、蟒袍、补子、霞帔、凤冠、深衣、大带、革带、蔽膝、鱼袋、幞头、乌纱、顶戴、花翎、朝珠、铠甲


提取范围与结果

步骤 操作 结果
1 全文阅读(104行) 确认文件完整
2 第一轮grep 命中23行
3 第二轮grep 命中0行(扩展词无新增)
4 第三轮grep 命中15行,确认复合词
5 逐行审核 23行中排除6行非服饰含义(如"冠绝一时"为比喻、"金帛"为财物非服饰等),保留17行
6 补充关联行 增补3行上下文(行9"不解衣"、行32"褓中"、行59整段),最终确认20条

审核结果

有效性审核

审核项 结果
是否遗漏服饰条目 否。三轮grep覆盖词库全部关键词,逐行比对确认
是否误收非服饰内容 已排除6处:行7"粟帛"(赈济物资非服饰)、行17"金帛"(贿赂财物)、行32"金帛"(赏赐财物)、行42"金帛"(贿赂财物)、行40"冠绝"(比喻)、行63"冠子"(酒器盖非冠帽)→行63"冠子落地"保留(与道冠相关)
分类是否合理 8类分法覆盖全书服饰内容,鞋履类仅1条已如实标注
关键词加粗是否准确 全部关键词在原文提取稿中加粗标注

对抗式审核

质疑 回应
"玉笛""玉龙子"非服饰,是否误归佩饰? 玉笛为手持器物,属仪仗佩饰范畴;玉龙子为皇室佩饰玩物,常置衣箱中,与服制相关,保留
"紫衣老人"仅4字,信息量是否不足? 紫衣为唐代官服最高等级色,此条反映官服色辨认制度,有制度意义,保留
"不解衣"为日常行为,是否属于服饰? "不解衣"反映寝衣制度与勤政形象,属日常服饰行为,保留
鞋履类仅"跣足"1条,是否应合并? 独立设类可如实反映全书鞋履信息匮乏,不合并
行23"服玩宝带"是否为器物而非服饰? 宝带为唐代官员革带装饰,属冠服制度佩饰,保留;"服玩"为泛称,仅提取"宝带"部分

最终统计

指标 数值
grep命中行数(去重) 23行
有效服饰条目 20条
分类数 8类(冠服制度5/日常服饰7/冠帽头饰5/佩饰配件8/鞋履1/纺织材料5/服饰礼仪4/服饰故事5,部分条目跨类)
非服饰排除 6处