《湛园集》服饰内容提取日志
Task ID: batch-r2-b
书名: 湛园集
源文件: /home/z/my-project/upload/四库别集/湛园集.txt
输出目录: /home/z/my-project/upload/四库别集output/湛园集/
处理时间: 2025-03-04
一、文件基本信息
- 文件编码: UTF-8 (含少量编码异常字节,已用errors='replace'处理)
- 总行数: 1172
- 换行符: CRLF
- 文件性质: 清姜宸英别集,含序、记、墓志铭、论、尺牍、赋、跋等
二、五轮grep扫描记录
R1: 核心服饰词
- 命令:
grep -n -E "衣|裳|袍|裘|袂|襟|袖|裾|袴|襦|褐|衫|褂|袄" - 命中行数: 28行
- 关键行号: L46, L73, L79, L83, L102, L119, L128, L135, L140, L164, L213, L247, L251, L282, L296, L305, L311, L322, L378, L395, L438, L445, L469, L485, L487, L529, L537, L543, L609, L633, L642, L654, L658, L663, L716, L719, L732, L739, L745, L757, L762, L765, L806, L808, L811, L814, L818, L824, L827, L861, L875, L887, L910, L914, L916, L961, L964, L972, L1009, L1020, L1063, L1128, L1129, L1137
R2: 冠帽佩饰词
- 命令:
grep -n -E "冠|冕|弁|巾|帽|帻|幞头|簪|笄|佩|带|绅|绶|笏|芾" - 命中行数: 42行(含大量缙绅/搢绅/冠绝等非服饰用法)
- 关键行号: L119, L154, L177, L191, L213, L251, L282, L288, L305, L311, L322, L361, L377, L378, L390, L395, L440, L462, L463, L465, L485, L517, L531, L607, L633, L732, L739, L757, L887, L910, L950, L952
R3: 丝织品类词
- 命令:
grep -n -E "锦|绮|帛|绢|绫|罗|缎|绸|纱|缂|缟|纨|绨|绉" - 命中行数: 14行
- 关键行号: L69, L128, L445, L658, L811, L861, L881, L916, L1129
R4: 材料染织词
- 命令:
grep -n -E "丝|麻|葛|苎|布|毡|绵|染|绣|黼|黻|衮" - 命中行数: 21行
- 关键行号: L102, L113, L247, L251, L282, L296, L395, L440, L462, L465, L485, L537, L811, L910, L1129, L1137
R5: 鞋履制度词
- 命令:
grep -n -E "履|舄|靴|鞋|袜|朝服|祭服|丧服|礼服|法服|戎服|常服|赐服|冠服|舆服|章服|服色|衣冠|衣裳|赐紫|赐绯" - 命中行数: 18行
- 关键行号: L213, L378, L395, L438, L487, L543, L609, L757, L762, L818, L875, L914, L950, L952, L1020, L1063, L1128, L1129
三、上下文提取
对55个关键行号提取了前2行后5行的上下文,使用Python脚本(因grep存在UTF-8编码异常,改用Python处理)。
四、过滤记录
排除的非服饰用法:
| 行号 | 原文片段 | 排除理由 |
|---|---|---|
| L46 | 襟懐 | "襟怀"为心理词汇,非服饰 |
| L128 | 文体绮靡 | "绮靡"形容文风,非织物 |
| L132 | 萦回如带 | "带"为地理比喻 |
| L135 | 襟懐所寄 | 同L46 |
| L154 | 冠之序 | "冠"为"置于首位"义 |
| L201 | 萦带 | 地理比喻 |
| L213 | 履歴 | "履历"为经历义 |
| L305 | 门第相尚 | 非服饰 |
| L361 | 同上 | 非服饰 |
| L607 | 冠絶古今 | "冠绝"为超越义 |
| L654 | 正襟端坐 | "正襟"为端坐姿态,接近但非直接服饰描写 |
| L881 | 纱灯 | "纱灯"为灯具 |
| L916 | 绮陌 | "绮陌"为道路名 |
| L806 | 食租衣税 | "衣税"为税制词汇 |
| L288 | 跋 | 非服饰 |
| L633 | 同上 | 非服饰 |
保留但标注修辞性的条目:
| 行号 | 词汇 | 修辞性质 |
|---|---|---|
| L119 | 衣冠失职 | 衣冠=士大夫代称 |
| L251 | 衣冠避地 | 同上 |
| L762 | 衣冠济楚 | 描写性较强 |
| L875 | 衣冠状貌 | 描写性较强 |
| L102 | 布衣之交 | 布衣=平民代称 |
| L296 | 布衣被荐 | 同上 |
| L861 | 纨袴之子 | 纨袴=纨绔子弟代称 |
| L282 | 荐绅先生 | 缙绅=官员代称 |
五、输出文件
- 湛园集_原文提取.md — 含行号引用,关键词加粗,44条有效条目
- 湛园集_总结.md — 服饰结构化综述+对抗式学术审查
- 湛园集_日志.md — 本文件,完整操作记录
六、统计数据
- 处理行数: 1172行
- 五轮扫描命中总行数(去重前): 约123行
- 过滤后有效服饰条目: 44条
- 核心发现数: 6项
- 对抗式审查要点: 6项
七、编码异常说明
文件在字节位置135166附近存在UTF-8解码异常,使用Python的errors='replace'参数处理。该异常未影响任何服饰相关内容的提取。