研究总结 日志 原文

《犬窝谜话》服饰内容提取 · 工作日志

时间:2026-04-19 任务:提取《犬窝谜话》全部服饰相关内容,整理分类总结 输入文件:/home/z/my-project/upload/谜语/谜语/犬窝谜话.txt 输出目录:/home/z/my-project/upload/谜语output/犬窝谜话/


操作流程

Step 1: 检查文件基本信息

wc -c 犬窝谜话.txt
→ 293249 字节(约286KB)
file 犬窝谜话.txt
→ Unicode text, UTF-8 text, with very long lines (1767), with CRLF line terminators

文件为UTF-8编码,行数约244行(极长行),总字数约9万字。

Step 2: 读取参考模板

读取三个参考模板文件:

了解格式规范:总结MD按分类章节+原文引用+注释+总结表格;日志MD按Step编号;原文提取MD按分类带行号+关键词加粗。

Step 3: 多轮grep检索服饰关键词

使用python3逐行检索,按关键词统计命中数:

关键词 命中数 关键词 命中数 关键词 命中数
34 12 12
13 9 6
2 7 10
6 0 16
3 8 3
1 8 0
2 5 2
13 12 7
1 17 2
4 7 15
3 7 2
1 1 6
1 3 1
2 11 20
51 45 12
9 4 1
1 3 3
8 9 脂粉 3

总计约123行含服饰关键词,但需大量噪音过滤。

Step 4: 噪音识别与过滤

逐行审阅后确认以下高命中关键词噪音极多:

过滤后实质性服饰内容约40余条。

Step 5: 关键行提取与上下文审读

使用python3逐行提取关键行(约60行),对超长行截取关键词前后30-40字上下文。识别出以下核心服饰内容分布:

  1. 谜面含服饰(约18条):牛衣对泣、缟素衣裳、衣披一品上金銮、钗环裙袄等
  2. 谜底含服饰(约6条):凤冠、大红纱裙、色丝等
  3. 诗词隐语服饰(约12条):绣罗襦、绛帻、流黄锦等
  4. 红楼梦服饰谜(约15条):最为集中的服饰内容来源
  5. 染织工艺(约8条):织造、染色、丝帛
  6. 冠弁礼制(约6条):衮服、冕旒、笏
  7. 民俗歌谣服饰(约9条):衣裳、帽、草鞋、耳环

Step 6: 对抗式学术审查

Step 7: 撰写三份MD文档

按参考模板格式撰写:


关键发现

  1. 服饰内容附属性强:全书无任何系统性服饰记载,服饰术语均为谜语艺术的服务工具
  2. 红楼梦为最大来源:约15条服饰相关谜语出自《红楼梦》,占实质性服饰内容近40%
  3. 谜面>谜底:以服饰入面远多于以服饰为底,服饰词汇主要承担扣合线索功能
  4. 民俗歌谣贴近日常:草鞋、耳环、手巾等日常物品在歌谣体谜语中出现
  5. 曹家织造为唯一史实:L200关于曹雪芹先世任江宁织造58年的记载,是全书最接近服饰制度史的内容

关键踩坑记录

审核结果

全部通过 ✅ ——原文均从本地TXT文件python3逐行提取,有明确行号对应。已做噪音过滤和存疑标注。