《王右丞集笺注》服饰提取日志
任务ID:batch-r5-c
书名:王右丞集笺注
源文件:四库别集/王右丞集笺注.txt
输出目录:四库别集output/王右丞集笺注/
执行时间:2026-03-04
工作流程记录
Step 1:环境准备
- 创建输出目录
/home/z/my-project/upload/四库别集output/王右丞集笺注/ - 源文件行数:3765行
Step 2:五轮关键词Grep搜索
| 轮次 | 搜索策略 | 关键词示例 | 命中行数(粗筛) |
|---|---|---|---|
| 第1轮 | 基础服饰名词 | 衣/裳/冠/带/袍/衫/裙/裘/褐/襟/袖/履/靴/笠/蓑 | ~180 |
| 第2轮 | 材质/装饰/配饰 | 罗/纱/绫/锦/绢/绮/纨/缟/丝/帛/绣/珠/翠/簪/珥/环/钗 | ~200 |
| 第3轮 | 冕服/朝服/礼制 | 冕/旒/衮/黻/绶/绂/簪缨/朝衣/尚衣/铁衣/绛帻/鹖冠 | ~150 |
| 第4轮 | 特殊/民族/军事/宗教 | 氅/袈裟/毡/毳/卉服/左衽/貂/介胄/戎装 | ~50 |
| 第5轮 | 补充遗漏 | 霓裳/纱帽/帔/翟/脂粉/妆/鬟/笄/珈 | ~80 |
Step 3:上下文提取与去重
- 对五轮grep命中的所有行号合并去重
- 使用sed提取完整行原文,确认服饰语境
- 合计粗筛命中行:约350行(含大量重复)
Step 4:对抗式审查过滤
过滤规则:
非服饰用法过滤:
- "带"作动词(如"带行客"L619、"带荒村"L1299、"带余晖"L1333、"带长薄"L1368)→ 排除
- "衣"作比喻(如"空翠湿人衣"L2846、"欲上人衣来"L2880)→ 保留(反映服饰观念投射)
- "冠"作动词/修饰(如"冠群英"L1757、"冠古"L3050、"冠世"L3058)→ 排除
- "翠"仅指色彩非服饰(如"苍翠"L1352、"翠岭"L231)→ 大部分排除
- "丝"仅指细线非织物(如"丝骑"L2861、"丝纶"L1886)→ 排除
重复注释行处理:同一诗句在不同注本中重复出现时,仅保留首次出现
编者评论中的服饰引用:如L1894毛西河评"衣冠"用语→保留(反映服饰概念的接受史)
画中服饰描述:附录题画诗文中的服饰描写→保留(有独立考证价值)
过滤后有效条目:96条
Step 5:分类与输出
| 输出文件 | 大小 | 内容 |
|---|---|---|
| 王右丞集笺注_原文提取.md | ~12KB | 96条有效原文,9大类 |
| 王右丞集笺注_总结.md | ~6KB | 分析总结 |
| 王右丞集笺注_日志.md | ~3KB | 本文件 |
争议条目记录
| 行号 | 原文 | 争议 | 判定 |
|---|---|---|---|
| L619 | 远树带行客 | "带"为动词,非服饰 | 排除 |
| L1299 | 贫居依谷口,乔木带荒村 | "带"为环绕义 | 排除 |
| L1333 | 行人返深巷,积雪带余晖 | "带"为映带义 | 排除 |
| L1352 | 寒山转苍翠 | "苍翠"指山色 | 排除 |
| L1169 | 养得成毛衣 | "毛衣"指鸟羽 | 保留(鸟羽衣为服饰隐喻) |
| L1385 | 红莲落故衣 | "故衣"喻荷叶 | 保留(服饰意象投射) |
| L2622 | 红衣浅复深 | "红衣"指荷花瓣 | 保留(服饰隐喻传统) |
| L2846 | 空翠湿人衣 | 衣为实景 | 保留 |
| L2880 | 欲上人衣来 | 衣为实景 | 保留 |
| L3114 | 色夺齐侯之衣 | "齐侯之衣"典出紫衣 | 保留(服饰典故) |
质量自检
- 未加载整本TXT(仅用grep+sed按行提取)
- 未编造任何原文(所有引用均来自源文件实际行号)
- 未灌水(每条均含明确服饰关键词)
- 已做对抗式审查(过滤非服饰用法、比喻用法单独标注)
- 三份MD文件均≤20KB
- 关键词加粗标注