研究总结 日志 原文

史记索隐——服饰提取日志

书名:史记索隐
处理时间:2026-05-23 04:45
输入文件:/home/z/my-project/upload/zhengshi/正史/史记索隐.txt
输出目录:/home/z/my-project/upload/正史重制output/史记索隐/


一、文件基本信息

项目
文件路径 /home/z/my-project/upload/zhengshi/正史/史记索隐.txt
文件编码 UTF-8
总行数 910
文件特征 Unicode text, UTF-8 text, with very long lines (4797)

二、关键词词库与命中统计

2.1 冠冕头饰类

关键词 命中行数 说明
27 含冠制、冠名、冠军等多种含义
3 冕名、冕服
2 青巾裹头
1 青帽

2.2 衣裳袍服类

关键词 命中行数 说明
36 含衣服、衣制、衣色等多义
4 衣裳
2 绨袍
2 小袖衫
4 褐衣、短褐
1 裘服
1 襦服
1 中帬

2.3 制度服制类

关键词 命中行数 说明
丧服 1 丧服散麻
舆服 5 舆服志、舆服制度
车服 1 车服冕
卤簿 2 天子卤簿
服制 2 吉凶服制
冠带 3 冠带制度

2.4 色彩类

关键词 命中行数 说明
10 紫绶、紫色
1 绯色
31 含青衣(县名)、青色等多义
53 含黄钟(律名)、黄帝、黄色等多义
59 含白色、地名、人名等多义
14 含黑色、黑帝等多义
32 含朱方(地名)、朱色等多义
3 赭色

2.5 佩饰类

关键词 命中行数 说明
14 佩服、佩印、佩六印等
1 挺笏于绅带
20 含带剑、地带、大带等多义
4 紫绶、青绶
3 宛珠之簪
1 羽钗

2.6 织物类

关键词 命中行数 说明
8 执帛、布帛、帛长丈五
3 黄绢裹梁卵
7 绮里季、绮衣
8 含罗网、罗县等多义
5 锦绣千纯
2 绸缪
9 厚缯、缯国

三、提取流程

步骤1:文件统计

wc -l 史记索隐.txt  # 结果:910行

步骤2:关键词计数

对服饰关键词词库中所有关键词逐一grep -c统计,筛选出命中数>0的关键词共38个。

步骤3:行号提取

使用Python re模块对所有关键词进行多模式匹配,提取命中行号及匹配关键词。

步骤4:上下文提取

基于【】标记分割条目,提取含关键词的子条目及其上下文。对单字符关键词(色彩类)施加严格上下文过滤,要求条目中至少包含2个服饰相关指示词。

步骤5:分类与去重

按冠冕头饰、衣裳袍服、制度舆服、佩饰带绶、织物帛品五大类分类,按条目前80字符去重。

步骤6:撰写产出文件


四、提取质量说明

4.1 噪声处理

4.2 遗漏风险

4.3 最终统计


五、产出文件清单

文件名 大小 说明
史记索隐_总结.md ~6KB 服饰内容综述与核心条目解读
史记索隐_日志.md ~5KB 提取过程与质量说明
史记索隐_原文提取.md ~19KB 分类原文摘录