《京尘杂录》服饰提取工作日志
基本信息
- 源文件:
/home/z/my-project/upload/11111/part1/京尘杂录.txt - 文件大小:198,176 字节 / 158 行
- 文件编码:UTF-8(有极少量乱码字符)
- 输出目录:
/home/z/my-project/upload/11output/京尘杂录/ - 处理时间:2026年
处理流程
步骤1:文件探查
- 确认文件存在,158行,约198KB
- 行长度差异大:最短2字符,最长约3430字符
- 文件为长段落式排版,每行即一个完整段落
步骤2:10轮关键词grep提取
| 轮次 | 关键词组 | 命中行数 | 总匹配次数 |
|---|---|---|---|
| R1 | 衣/裳/服/冠/冕/弁/袍/裘 | 59 | ~120 |
| R2 | 巾/帽/帻/幞头/簪/缨 | 17 | ~25 |
| R3 | 帛/绢/绫/罗/绸/缎/锦/绮/丝/麻/葛/褐 | 50 | ~90 |
| R4 | 佩/笏/带/绶/鱼袋/玺/印 | 26 | ~40 |
| R5 | 履/舄/鞋/靴/袜 | 6 | ~8 |
| R6 | 舆服/服色/赐服/章服/冠服/品服/朝服/公服/祭服/丧服 | 0 | 0 |
| R7 | 绣/纹/黼/黻/章/染/织 | 26 | ~35 |
| R8 | 裙/衫/袄/褐/帔/褙子/深衣/襕衫 | 10 | ~12 |
| R9 | 进贤冠/武冠/貂蝉/笼巾/额子 | 0 | 0 |
| R10 | 衮/襦/裆/裈/袴/褶/裾/袂/衿/衽/领/袖/襟 | 20 | ~30 |
合计:348次匹配,覆盖约80个唯一行号
步骤3:语境审查(逐条判读)
对348次匹配逐一审查,判别服饰义/非服饰义:
主要伪阳性类型:
- 人名:"冠卿"出现约30次,均为伶人潘冠卿之名,非冠帽义
- 冠军/首位义:"艳冠群芳""冠绝""四部冠""冠军侯"等约15处
- 音乐义:"丝竹""丝管""丝弦"约20处,丝=丝弦非丝帛
- 服用义:"服阿芙蓉"=服用鸦片,"服香小坞"=佩服
- 地名:"小李纱帽胡同"为北京街巷名,3处
- 曲名:"轮袍""霓裳中序第"等
- 动词义:"带"作携带/地带义约15处
审查结果:348次 → 约57条服饰相关 → 去重归并为31条核心记录
步骤4:对抗式学术审查
4.1 伪阳性审查(14条)
- 删除:帘衣(帘幕比喻,非衣物)
- 降级:霓裳(曲名)、白袍鹄立(比喻)
- 保留:衣钵(宗教服饰)、典衣(衣物经济价值)、裸裎/袒裼(反面证据)
- 确认排除:菟裘(退隐之所)、轮袍(曲名)、冠卿(人名)、服阿芙蓉(服用鸦片)
4.2 伪阴性审查(8条)
- 补充:裹头装、天人装、软棚装、男子装、梳掠
- 确认已录:花边小毡帽、金翠迷离
- 跳过:敷粉(化妆非服饰)
4.3 断代审查(4条)
- 裼裘:典出《礼记》,用典非实录 → 标注
- 弱冠:年龄称谓,非实际冠礼 → 标注
- 青衣:身份代称,源自服色制度但非当朝服制 → 标注
- L139服饰等级:当朝实录,核心史料 → 重点标注
步骤5:产出3个MD文件
| 文件 | 内容 | 大小限制 |
|---|---|---|
| 京尘杂录_总结.md | 分类总结+核心发现 | ≤20KB |
| 京尘杂录_日志.md | 工作流程记录 | ≤20KB |
| 京尘杂录_原文提取.md | 审查后的原文句段 | ≤20KB |
关键决策记录
- 是否纳入典故中的服饰词? → 纳入但标注"用典非实录"。理由:典故本身反映服饰文化记忆,虽非当朝实录但有文化史价值。
- "冠卿"是否纳入? → 排除。虽"冠"为冠帽义,但"冠卿"为固定人名,非服饰讨论。
- 纱帽胡同是否纳入? → 排除。虽含"帽"字,但为北京地名,与服饰无关。
- 裸裎/袒裼是否纳入? → 纳入。作为"服饰缺失"的反面证据,有学术价值。
- R6/R9零命中如何处理? → 如实记录。本书为梨园笔记,不涉正式舆服制度,零命中符合预期。
质量控制
- 严禁加载整本TXT → 使用grep式逐行匹配+句段提取
- 每篇MD≤20KB → 均在限制内
- 对抗式学术审查 → 伪阳性/伪阴性/断代三维审查
- 无服饰内容如实说明 → R6/R9零命中已如实记录
遗留问题
- L81"衣贫珠"疑为误字,原义待考
- L139服饰等级记载可与《大清会典》对勘,待后续研究
- 本书"丝竹"高频出现(约20处),如需研究丝弦与丝帛的语义关系,可另行分析