研究总结 日志 原文

《经学通论》服饰提取日志

提取日期:2026-03-04
书名:经学通论
作者:清·皮锡瑞
文件路径:/home/z/my-project/upload/五经总义/五经总义/经学通论.txt
输出目录:/home/z/my-project/upload/五经总义output/经学通论/


一、文件基本信息

项目 内容
文件编码 UTF-8 (含CRLF行终止符)
总行数 425行
行特征 超长行(最长1624字符),行数少而内容密集
文件大小 约130KB

二、提取过程

第一步:关键词初筛

使用三批关键词对全文进行grep扫描:

批次1(服饰本体词):衣裳、冠冕、服佩、裘、弁、带履、舄、芾、褐、袍、衫、裙、袂、袪、绅、缨、笄、簪、绶、褶、襦、裾、帻、巾帽、铠甲

批次2(材质纹饰词):绮、锦、帛、绢、纱罗、丝麻、葛棉、布、黼、黻、章绣、纹染、衮、韨、蔽膝、大带、革带

批次3(服制专词):舆服、冠服、祭服、朝服、丧服、冕服、弁服、深衣、玄端、皮弁、爵弁、斩衰、齐衰、缌麻

第二步:排除噪声

初筛命中102行(含大量"服"字非服饰用法),需排除以下噪声类别:

排除后保留有效服饰内容约20余处。

第三步:精确定位

对保留行进行逐条审读,锁定21条确实涉及服饰的原文段落,覆盖行号:4、204、233、235、237、239、249、255、261、299、301、303、326、372等。

第四步:分类整理

将21条内容按主题分为八大类别:

  1. 服色变革(2条)
  2. 冠服制度(4条)
  3. 丧服制度(6条)
  4. 郑注推次服制(3条)
  5. 诗中服饰名物(2条)
  6. 孔子冠服殷礼(2条)
  7. 深衣考(1条)
  8. 衣冠车旗(1条)

三、提取难点

难点1:行过长导致上下文缺失

本书行数仅425行,但每行极长(平均约300字,最长1624字),grep匹配后难以直接截取局部上下文。需手动在匹配行中定位服饰关键词的具体位置及前后文。

难点2:"服"字多义

"服"在本书中出现频率极高,但大量用法为"服丧""从服""服刑""心服"等非服饰含义,需逐一排除。

难点3:服饰内容嵌入经学论述

本书非服饰专书,服饰内容几乎全部嵌套在礼制讨论、经学辨析、郑注考证中,需从经学论述中剥离出服饰要素。

难点4:OCR/数字化特殊字符

部分服饰相关文字存在数字化特殊字符,如"衤暴"(襮)、"纟委"(繻)、"纟墨"等,需辨识还原。


四、提取统计

统计项 数值
全书总行数 425
关键词命中行数(初筛) 102
有效服饰内容行数 约20
最终提取条目数 21
涉及服饰关键词 衣冠、服色、冕、弁、裘、冠、深衣、玄端、上衣下裳、斩衰、齐衰、麻冕、裼裘、袭裘、章甫、逢掖、绣黼、大裘、布衣布冠、菅屦、苴绖带、衰绖、阙狄、揄狄、禄衣、委貌、爵弁、皮弁、韨等
涉及篇章 易论(1条)、诗论(2条)、礼论(18条)

五、质量自检


日志完成。