《经典释文》服饰提取日志
基本信息
| 项目 | 内容 |
|---|---|
| 书名 | 经典释文 |
| 作者 | 唐陆德明 |
| 文件路径 | /home/z/my-project/upload/五经总义/五经总义/经典释文.txt |
| 输出目录 | /home/z/my-project/upload/五经总义output/经典释文/ |
| 文件行数 | 2123行 |
| 文件大小 | 1,947,171字节(约1.9MB) |
提取过程
第一步:初探文件结构
- 读取文件前50行,了解体裁为音义书
- 确认本书为陆德明《经典释文》三十卷
- 体例:摘字为音,标注反切、异文、简短释义
第二步:关键词频次统计
使用Grep工具搜索各类服饰关键词的出现频次:
| 关键词组 | 命中数 | 备注 |
|---|---|---|
| 丧服 | 39 | 含篇名引用 |
| 冠服/祭服/朝服/冕服/弁服/深衣/玄端/皮弁/爵弁 | 39 | 朝服占绝大多数 |
| 衮韨/蔽膝/大带/革带/舆服 | 3 | 大带、蔽膝为主 |
| 衣裳/冠冕/服佩/裘弁/带履/舄芾/褐袍/衫裙 | 7 | |
| 黼黻/章绣/纹染 | 3 | |
| 袂袪/绅缨/笄簪/绶褶/襦裾/帻巾/帽铠/甲衣 | 2 |
单字频次:
- 衣:366次(大量非服饰用法)
- 冠:155次(含冠帽、冠军等)
- 带:132次
- 裘:27次
- 弁:40次
- 裳:39次
第三步:精细化提取
采用Python脚本进行正则表达式匹配,分两个层次:
层次一:宽泛匹配(含纯注音条目)
- 匹配472行含服饰关键词的行
- 大量为纯注音,如"朝服【直遥反】""黼【音甫】"
层次二:释义筛选(仅含实质服饰释义)
- 使用正则匹配含服饰相关释义关键词的条目
- 如"蔽膝""冕服""六服""细葛""衣袖"等
- 筛选得约121条有释义的条目
第四步:分类整理
将提取结果按以下16类组织:
- 冕服冠弁(衮、鷩、毳、希冕、皮弁、頍弁、毋追、冔)
- 后妃六服(袆衣、揄狄、鞠衣、展衣、褖衣、屈狄)
- 韨韠蔽膝(韨、韠、赤芾、芾)
- 丧服(斩衰、齐衰、丧服篇名释义)
- 朝服(纯注音,无实质释义)
- 司服等职官
- 黼黻章绣
- 韎韐
- 织物丝帛(絺、绤、缟、纁、缯、纩)
- 笄簪首饰(纮、紞、瑱、綖、副、六珈)
- 佩饰(佩、鞶、帨)
- 衣袍袖(纯衣、袍、襦、袂、袪)
- 屦舄行縢(屦、舄、絇、偪、幅、行縢)
- 带绅(缁带、绅)
- 染工(染夏、縓、赪)
- 其他(翣等)
第五步:生成输出文件
三份MD文件:
- 总结.md:整体评估、核心条目、比较分析
- 日志.md:提取过程记录(本文件)
- 原文提取.md:分类整理的服饰相关原文
关键发现
1. 服饰内容确实极少
如任务提示所言,《经典释文》为音义书,服饰内容极少。绝大多数条目仅标注反切读音,无实质释义。
2. 有价值的条目特点
有价值的条目通常出现在以下情况:
- 经注原文本身涉及服饰制度(如《周礼·司服》《仪礼·士冠礼》)
- 陆德明认为需要解释字义时附简短训诂
- 引用他家异说时偶涉服饰内容
3. 特殊价值
- 保存了服饰字词的古读(反切)
- 记录了异文(如希冕=絺冕,展衣=襢衣)
- 偶存训诂(如"絺,葛之精者""纁,浅绛也")
4. 需排除的干扰项
- "衣"字大量用于非服饰语境(依、衰等偏旁)
- "冠"字含"冠军""冠绝"等非服饰用法
- "佩"字含人名
- "帛"字多指书写载体(竹帛)
- "带"字含"地带""连带"等非服饰用法
技术说明
- 提取工具:Grep + Python正则表达式
- 未载入全文,使用grep+sed方式提取
- 输出文件均控制在20KB以内