《经学通论》服饰提取日志
提取日期:2026-03-04
书名:经学通论
作者:清·皮锡瑞
文件路径:/home/z/my-project/upload/五经总义/五经总义/经学通论.txt
输出目录:/home/z/my-project/upload/五经总义output/经学通论/
一、文件基本信息
| 项目 | 内容 |
|---|---|
| 文件编码 | UTF-8 (含CRLF行终止符) |
| 总行数 | 425行 |
| 行特征 | 超长行(最长1624字符),行数少而内容密集 |
| 文件大小 | 约130KB |
二、提取过程
第一步:关键词初筛
使用三批关键词对全文进行grep扫描:
批次1(服饰本体词):衣裳、冠冕、服佩、裘、弁、带履、舄、芾、褐、袍、衫、裙、袂、袪、绅、缨、笄、簪、绶、褶、襦、裾、帻、巾帽、铠甲
批次2(材质纹饰词):绮、锦、帛、绢、纱罗、丝麻、葛棉、布、黼、黻、章绣、纹染、衮、韨、蔽膝、大带、革带
批次3(服制专词):舆服、冠服、祭服、朝服、丧服、冕服、弁服、深衣、玄端、皮弁、爵弁、斩衰、齐衰、缌麻
第二步:排除噪声
初筛命中102行(含大量"服"字非服饰用法),需排除以下噪声类别:
- 服义、服制、服刑、服丧(动词/制度用法)
- 大功、小功、九服、五服(丧服等级/行政区划)
- 服经、服传、服要、服谱(书名用法)
- 降服、克服、不服(非服饰用法)
排除后保留有效服饰内容约20余处。
第三步:精确定位
对保留行进行逐条审读,锁定21条确实涉及服饰的原文段落,覆盖行号:4、204、233、235、237、239、249、255、261、299、301、303、326、372等。
第四步:分类整理
将21条内容按主题分为八大类别:
- 服色变革(2条)
- 冠服制度(4条)
- 丧服制度(6条)
- 郑注推次服制(3条)
- 诗中服饰名物(2条)
- 孔子冠服殷礼(2条)
- 深衣考(1条)
- 衣冠车旗(1条)
三、提取难点
难点1:行过长导致上下文缺失
本书行数仅425行,但每行极长(平均约300字,最长1624字),grep匹配后难以直接截取局部上下文。需手动在匹配行中定位服饰关键词的具体位置及前后文。
难点2:"服"字多义
"服"在本书中出现频率极高,但大量用法为"服丧""从服""服刑""心服"等非服饰含义,需逐一排除。
难点3:服饰内容嵌入经学论述
本书非服饰专书,服饰内容几乎全部嵌套在礼制讨论、经学辨析、郑注考证中,需从经学论述中剥离出服饰要素。
难点4:OCR/数字化特殊字符
部分服饰相关文字存在数字化特殊字符,如"衤暴"(襮)、"纟委"(繻)、"纟墨"等,需辨识还原。
四、提取统计
| 统计项 | 数值 |
|---|---|
| 全书总行数 | 425 |
| 关键词命中行数(初筛) | 102 |
| 有效服饰内容行数 | 约20 |
| 最终提取条目数 | 21 |
| 涉及服饰关键词 | 衣冠、服色、冕、弁、裘、冠、深衣、玄端、上衣下裳、斩衰、齐衰、麻冕、裼裘、袭裘、章甫、逢掖、绣黼、大裘、布衣布冠、菅屦、苴绖带、衰绖、阙狄、揄狄、禄衣、委貌、爵弁、皮弁、韨等 |
| 涉及篇章 | 易论(1条)、诗论(2条)、礼论(18条) |
五、质量自检
- 所有三份文件不超过20KB
- 仅处理本书内容,未混入他书
- 使用grep+sed提取,未载入全文
- 如实反映服饰内容分布(礼论部分最集中)
- 保留原文上下文,不断章取义
- 排除非服饰用法的"服"字噪声
日志完成。