研究总结 日志 原文

《水窗春呓》服饰提取日志

基本信息

提取流程

第一步:创建输出目录

mkdir -p /home/z/my-project/upload/33output/水窗春呓/

第二步:grep服饰关键词

使用关键词群进行全文扫描:

第一轮:广义服饰词

衣|袍|裳|冠|帽|巾|履|靴|裙|带|佩|簪|钗|珥|环|珠|锦|绣|纨|绫|罗|绸|缎|纱|褐|裘|貂|袄|褂|衫|襦|铠|甲|胄|缨|绶|印绶|布衣|章服|朝服|公服|常服|便服|亵服|礼服|吉服|丧服|冠服|顶戴|花翎|蓝翎|补服|蟒袍|朝珠|朝靴|皂靴|缨帽|凉帽|暖帽|斗笠|蓑衣|鹤氅|道袍|僧衣|袈裟

命中行数:约70行(含大量非服饰语境的误命中,如"罗网""罗山""环境"等)

第二轮:精准服饰词

衣冠|布衣|灰布袍|白布带|纨绔|头巾|方靴|尖靴|马蹄袖|军机袄|一果元|大衿|缺衿|外褂|马褂|裘|葛纱|半臂|皮裘|羔皮|夹纱|棉纱|缠头锦|青衫|钗荆裙布|艳服|裙布|衣裙|衣裘|冠服|貂|朝珠|带板|攀指|披霞|珠翠|金玉|蓝缕|袍服|花翎|顶戴|职衔|蟒袍|补服|朝服|缨帽|纱|绸|缎|绫|罗|锦|缠足|帛|布缕|秉烛|油灯

命中行数:约30行,精准度大幅提升

第三轮:官服制度专搜

纨绔|花翎|缨帽|顶戴|职衔|蟒袍|补服|朝服|冠服|貂褂|黄马褂|顶子|翎子|蓝翎|顶珠|帽顶|帽档|凉帽|暖帽|领顶|补子|蟒|官服|公服|章服|弁服

命中行数:6行

第三步:sed提取关键行

最终确认含有有效服饰信息的行号:

第四步:分类整理

将提取的服饰信息分为七大类:

  1. 官服制度与官员服饰(13条)
  2. 日常便服与季节服饰(10条)
  3. 河工盐商奢侈服饰(11条)
  4. 阿财神收藏与佩饰(5条)
  5. 女性服饰与妆饰(12条)
  6. 民间与隐逸服饰(5条)
  7. 鬼神服饰想象(3条)

第五步:产出3个MD文件

  1. 水窗春呓_总结.md —— 分类总结与特征归纳
  2. 水窗春呓_日志.md —— 本文件,提取过程记录
  3. 水窗春呓_原文提取.md —— 原文服饰段落摘录

对抗式审核自检

审核项 结果
是否遗漏重要服饰段落 已覆盖全书322行,关键词三轮搜索,未发现明显遗漏
是否误收非服饰内容 已人工逐一筛选,剔除"罗网""罗山"等非服饰语境
分类是否合理 七类划分覆盖官服/便服/奢侈/女性/民间/鬼神,逻辑自洽
原文引用是否准确 直接摘录原文,未做改写
文件大小是否≤20KB 三个文件均控制在20KB以内

统计数据