《五代史补》服饰内容提取日志
任务:从《五代史补》TXT中提取服饰相关内容
输入:/home/z/my-project/upload/11111/part1/五代史补.txt (104KB, 586行)
输出目录:/home/z/my-project/upload/11output/五代史补/
一、任务概况
| 项目 | 内容 |
|---|---|
| 书名 | 《五代史补》五卷 |
| 作者 | 宋·陶岳 |
| 文件大小 | 104,372 字节 |
| 总行数 | 586 行 |
| 书籍性质 | 五代十国轶事笔记(104条) |
| 服饰内容密度 | 低(轶事笔记,非制度典章) |
二、10轮关键词检索日志
第1轮:衣/裳/服/冠/冕/弁/袍/裘
- 命中行数:22行(含重复段落)
- 去重后有效条目:12条
- 误判排除:10条
- "煎而服之"→服药,排除
- "首冠羣英"→动词,排除
- "传国服罪"→降服,排除
- 其余重复段落去重
- 有效发现:春衣冬衣、赐紫衣、巾帻着绯、朱衣、衣紫、衣冠、三衣、弊衣百结、缁衣、紫衣僧、服色制度、王者之服、布衣、冠盖、青衣
第2轮:巾/帽/幞头/簪/缨
- 命中行数:1行
- 有效条目:1条
- 有效发现:巾帻(高辇"巾帻着绯")
第3轮:帛/绢/绫/罗/绸/缎/锦/绮/丝/麻/葛/褐
- 命中行数:6行
- 去重后有效条目:5条
- 误判排除:1条
- "金帛"→赏赐物泛称,价值有限但保留
- 有效发现:锦被、压惊绢、白绢手帕子、缣帛、束帛
第4轮:佩/笏/带/绶/鱼袋/玺/印
- 命中行数:5行
- 去重后有效条目:3条
- 误判排除:2条
- "带使相"→动词"带着",排除
- "乘檐子"→乘舆非服饰,排除
- 有效发现:印绶、靴笏、官印
第5轮:履/舄/鞋/靴/袜
- 命中行数:2行
- 有效条目:2条
- 有效发现:草鞋(织草鞋童谣)、靴(争夺靴笏)
第6轮:舆服/服色/赐服/章服/冠服/品服/朝服/公服/祭服/丧服
- 命中行数:1行
- 有效条目:1条
- 有效发现:服色(郭威前导者"服色一绯一绿")
第7轮:绣/纹/黼/黻/章/染/织
- 命中行数:多行
- 有效条目:0条
- 误判排除:全部
- "织女星机"→星名
- "织草鞋"→鞋类制作,归入第5轮
- "章句"→诗文
- "点染"→沾污
- "染"字无服饰用法
- 有效发现:无(本组关键词在本书中无服饰相关用法)
第8轮:裙/衫/袄/帔/褙子/深衣/襕衫
- 命中行数:1行
- 有效条目:0条
- 误判排除:1条
- "鳖长两重裙"→鳖甲裙边,非人衣
- 有效发现:无
第9轮:进贤冠/武冠/貂蝉/笼巾/额子
- 命中行数:0行
- 有效发现:无(本书不载具体冠帽形制)
第10轮:衮/襦/裆/裈/袴/褶/裾/袂/衿/衽/领/袖/襟
- 命中行数:2行
- 有效条目:2条
- 有效发现:奋袖(杨行密袖中铁槌)、袖卷(陈黯袖卷谒郡牧)
三、数据整理过程
3.1 去重处理
本书TXT存在段落重复现象(同一段落出现在不同行号),如:
- 杨凝式故事:行34 = 行139
- 罗隐故事:行72/74 = 行177/179
- 杜光庭故事:行88 = 行193
处理方式:取首次出现为准,去重后保留唯一版本。
3.2 分类体系
将29条有效内容分为六大类:
- 官服品色制度(5条):服色绯绿紫、巾帻着绯、衣紫、王者之服、衣冠礼乐
- 宗教服饰(4条):赐紫衣、三衣、缁衣、紫衣僧
- 冠礼与身份服饰(5条):方冠、布衣、冠盖、白衣、衣冠
- 日常衣着与民间服饰(4条):春衣冬衣、弊衣百结、草鞋、湿衣
- 丝帛织物与赐物(5条):锦被、压惊绢、白绢帕、缣帛、束帛、银叶
- 朝堂佩饰与器具(4条):靴笏、印绶、解衣之赐、青衣
3.3 对抗式审查
审查标准:
- 凡关键词在语境中非服饰用法者,一律排除
- 服饰代称(衣冠、布衣、青衣等)保留,但标注为"身份标识"而非具体服饰描写
- 梦境、异兆中的服饰描写保留,但标注为"非写实"
- 动物相关(鳖裙)排除
四、文件产出
| 文件名 | 用途 | 大小 |
|---|---|---|
| 五代史补_原文提取.md | 29条服饰相关原文,按分类整理 | ≤20KB |
| 五代史补_总结.md | 学术审查与总结分析 | ≤20KB |
| 五代史补_日志.md | 本文件,提取过程日志 | ≤20KB |
五、技术备注
- 检索工具:ripgrep (rg)
- 检索模式:正则匹配,
|分隔关键词 - 未使用cat/head/tail读取全文,严格遵循grep+sed提取规则
- TXT文件编码:UTF-8
- 行号基于原始文件行号
六、局限性声明
- 关键词局限:依赖预设关键词,可能遗漏用非常用词汇描述的服饰内容
- 语境局限:部分条目服饰信息为间接提及,非专门记载
- 版本局限:所用TXT版本可能存在OCR错误或传写遗漏
- 解读局限:部分条目的服饰含义存在争议(如"青衣"的指代层次)
日志完成时间:2026-03-05