研究总结 日志 原文

《胡涂世界》服饰提取日志


基本信息

项目 内容
书名 胡涂世界
作者 清·吴趼人
版本 光绪三十二(1906)丙午年中秋,世界繁华报馆出版单行本
卷回 十二卷十二回
源文件 /home/z/my-project/upload/part3/胡涂世界.txt
文件行数 595行
文件大小 290,456字节
输出目录 /home/z/my-project/upload/3小说output/胡涂世界/

提取流程

第1轮grep:基础服饰关键词(衣、裳、袍、衫)

搜索命令rg -n '衣|裳|袍|衫'

命中行数:约25行,有效服饰相关约20行

有效发现

过滤掉:纯语气词"衣"的无实义搭配若干

第2轮grep:基础服饰关键词(裙、裤、帽、冠、履、鞋、靴)

搜索命令rg -n '裙|裤|帽|冠|履|鞋|靴'

命中行数:约20行,有效约15行

有效发现

过滤掉:第191行"履声橐橐"仅为脚步声描写

第3轮grep:配饰/织物关键词(带、佩、簪、钗、钏、环)

搜索命令rg -n '带|佩|簪|钗|钏|环'

命中行数:大量("带""环"为常见字),有效服饰相关约5行

有效发现

过滤掉:"带"字大量无关用法(带着、带来等),"环"字无首饰实义用法

第4轮grep:织物关键词(锦、绢、绸、缎、纱、罗)

搜索命令rg -n '锦|绢|绸|缎|纱|罗'

命中行数:约10行,有效约5行

有效发现

过滤掉:第224行"纺纱织布"为工厂名称,非服饰描写

第5轮grep:颜色/纹饰/身份服饰(红、绿、青、紫、绣、蟒、补、顶戴、花翎、朝珠)

搜索命令rg -n '红|绿|青|紫|绣|蟒|补褂|补子|顶子|顶戴|花翎|朝珠'

命中行数:约30行,有效约20行

有效发现

过滤掉:大量"红人"(指得势者)、"红封袋"等非服饰用法

第6轮grep:官场/丧服专词(马褂、褂子、翎子、功牌、吉服、素服、孝服、成服、号褂等)

搜索命令rg -n '马褂|褂子|翎子|功牌|功碑|吉服|素服|孝服|成服|衰绖|朝服|公服|号衣|号褂'

命中行数:约15行,有效约12行

有效发现

过滤掉:无


过滤统计

轮次 命中行 有效行 过滤率
第1轮 ~25 20 20%
第2轮 ~20 15 25%
第3轮 大量 5 >90%
第4轮 ~10 5 50%
第5轮 ~30 20 33%
第6轮 ~15 12 20%

主要过滤原因

  1. "带"字作为动词(带着、带来)占比极高
  2. "红"字用于"红人"(得势者)非颜色服饰
  3. "衣"字在某些搭配中为泛指而非具体服饰描写
  4. "纱"出现于"纺纱织布局"为工业名词

审查结论

  1. 全书服饰描写约40条有效记录,数量不多但信息密度高
  2. 核心服饰集中在官服品级丧服礼制两个系统
  3. 最精妙段落:第231行妓女论顶戴品级、第281行"画眉笼子"典故
  4. 服饰描写的文学功能以讽刺为主,非以审美为主
  5. 无虚构或生造服饰名称,所有服饰均有清代实物对应

产出文件

文件名 大小限制 内容
胡涂世界_总结.md ≤20KB 服饰分类分析与核心发现
胡涂世界_日志.md ≤20KB 本文件,提取流程记录
胡涂世界_原文提取.md ≤20KB 服饰相关原文摘录