《瑶石山人稿》服饰提取日志
任务ID: batch-r9-c
书名: 瑶石山人稿
源文件: /home/z/my-project/upload/四库别集/瑶石山人稿.txt
输出目录: /home/z/my-project/upload/四库别集output/瑶石山人稿/
执行时间: 2026-03-05
执行流程
Step 1: 基础信息
- mkdir -p 输出目录 ✓
- wc -l 源文件:5333行
Step 2: 五轮grep检索
| 轮次 | 关键词组 | 命中行数(估) |
|---|---|---|
| R1 | 衣裳袍衫裙裘褐襟袖领带冠帽履屐鞋袜簪钗珥环佩绶笏幘弁冕 | ~180行 |
| R2 | 狐貂鹤氅蓑笠舄屦绯紫青朱绿皂白黄絺绤罗绸缎绢锦绣 | ~120行 |
| R3 | 玉珠金银翠碧琥珀琉璃犀角象牙玳瑁步摇钿璎珞帔褙襦袄袴裈 | ~80行 |
| R4 | 朝服祭服公服常服燕服丧服凶服吉服道服僧衣儒衣儒冠布衣朝衣赐衣赐服 | ~12行 |
| R5 | 服妆饰装梳裹披缠束系挂戴穿著覆遮 | ~200行(含大量噪声) |
Step 3: 上下文提取
对47个关键行号执行sed提取,Python读取验证,获取完整上下文。
Step 4: 对抗式审查
剔除的误报条目:
- "佩"作"佩服/钦佩"义(如"佩其为人")——非服饰
- "带"作"带领/携带"义——非腰带
- "冠"作"冠军/冠绝"义——非冠帽
- "服"作"服食/服用"义(如"服食丹砂")——非服饰
- "装"作"装裱/装帧"义——非服装
- "绣"作"绣画/绣像"义——非绣衣
- "锦"作"锦绣山河"隐喻——非锦缎材质
- "裳"作"衣裳"泛指而非具体服饰描述
- "翠"仅作颜色修饰(翠壁/翠峰)——非翠玉饰品
- 纯修仙幻想中的服饰(如"霞衣""云裳"无社会史料价值)
保留但标注为"意象"的条目:
- 霓衣、羽衣、铢衣——虽有仙道色彩,但反映了当时对仙道服饰的想象
Step 5: 输出文件
| 文件名 | 大小 | 说明 |
|---|---|---|
| 瑶石山人稿_原文提取.md | ~9.3KB | 55条有效条目,分6大类 |
| 瑶石山人稿_总结.md | ~4.1KB | 核心发现与统计分析 |
| 瑶石山人稿_日志.md | 本文件 | 执行流程与审查记录 |
数据统计
- 源文件总行数:5333
- 五轮grep总命中行数(去重后):约250行
- 经过滤后的有效行数:55行
- 有效条目率:22%
- 剔除误报类型:10种
- 服饰类别:6大类
- 高频服饰词:布衣(6次)、赐衣/朝衣(4次)、绨袍(2次)、牛衣(3次)、被褐(3次)
质量自检
- 未加载整本TXT(仅用grep+sed+Python逐行提取)
- 未编造任何原文(所有引文均来自源文件实际行号)
- 未灌水(每条均有服饰关联性论证)
- 已执行对抗式审查(10类误报已剔除)
- 三份MD均≤20KB
- 原文提取开头格式正确