《觚剩及续编》服饰内容提取日志
基本信息
- 源文件:
/home/z/my-project/upload/part4/觚剩及续编.txt - 文件行数:718行
- 输出目录:
/home/z/my-project/upload/44output/觚剩及续编/
处理流程
第一步:文件概览
- 执行
wc -l获取总行数:718行 - 确认文件为纯文本格式,内容为清·钮琇笔记小说
第二步:多轮关键词grep
第一轮:制度词搜索
- 搜索关键词:
服色|舆服|冠服|章服 - 命中行:第452行(砚赋中"冠服"1处)
第二轮:核心服饰词搜索
- 搜索关键词:
衣|裳|裘|冠|弁|佩|带|履|舄|笏|绶|冕 - 命中行:5, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 36, 40, 48, 52, 54, 58, 62, 68, 70, 74, 76, 82, 84, 86, 88, 90, 94, 98, 100, 102, 104, 114, 116, 120, 122, 128, 130, 132, 136, 138, 140, 142, 144, 146, 148, 150, 152, 156, 158, 162, 164, 166, 174, 176, 178, 204, 214, 220, 226, 232, 240, 242, 256, 268, 272, 290
- 伪命中排除:大量为诗文中的"衣"字泛用(如"钩衣""拂衣"等),需人工筛选
第三轮:织物词搜索
- 搜索关键词:
袍|衫|裙|袄|褐|帛|绢|绫|罗|缎|锦|绮|纱|绸 - 命中行:5, 10, 12, 16, 20, 22, 24, 26, 28, 52, 54, 62, 70, 74, 76, 88, 94, 100, 114, 116, 120, 122, 128, 130, 136, 138, 140, 142, 146, 148, 150, 152, 156, 158, 162, 174, 176, 178, 256, 268, 272, 290, 452, 454, 490, 622
第四轮:材质词搜索
- 搜索关键词:
丝|布|葛|麻|棉|茧|蚕 - 命中行:10, 20, 22, 28, 74, 84, 104, 122, 138, 146, 148, 152, 156, 268, 454
第五轮:制度词搜索
- 搜索关键词:
赐服|赐紫|赐绯|借紫|品色|紫袍|绯袍|绿袍|金带|玉带|鱼袋|幞头|补服 - 命中行:454("袍笏")、490("金带")、622("玉带金鱼")
第六轮:装饰词搜索
- 搜索关键词:
黼黻|文章|纹|绣|织|染|彩|画 - 命中行:多处,以"绣""画"最多
第七轮:动作词搜索
- 搜索关键词:
戴|穿|著|被|披|裹|束|系 - 命中行:多处,需排除"被"作被动语态用法的伪命中
第三步:sed提取关键段落
提取了以下关键段落的上下文:
- 行16:布囊焚余(张玄著乌巾葛衣)
- 行62:仙根(方巾布袍)
- 行74:泥无身(大红苎布袍)
- 行76:史痴(草衫破絮)
- 行94:吴充墓(赭袍碧带)
- 行130:云娘(戎服碧衫)
- 行138:河东君(貂冠锦靴、羽衣霞帔)
- 行272:秦大汉(赐袍靴)
- 行290:叶方伯(朝服殉节)
- 行622:双双(玉带金鱼)
第四步:分类整理
将提取内容分为五类:
- 人物服饰描写(10条)
- 服饰制度与品级(4条)
- 织物与工艺(6条)
- 刺绣与装饰(3条)
- 丧服与特殊服饰(2条)
第五步:产出MD文件
- 觚剩及续编_总结.md:分类总结与分析
- 觚剩及续编_日志.md:本文件,处理过程记录
- 觚剩及续编_原文提取.md:按条目逐条提取原文
质量控制
- 已排除诗词中泛用"衣"字的伪命中(如"树钩衣""拂衣"等)
- 已排除"被"作被动语态的伪命中
- 已排除"带"作动词/量词的伪命中(如"带鸟回")
- 保留砚赋中与织物纹样互喻的内容(因其反映织物认知)
- 所有提取均标注原文行号,便于溯源核查