研究总结 日志 原文

史记集解·服饰提取日志

处理信息

步骤记录

步骤1:文件检查

步骤2:关键词统计

使用grep -c统计全部服饰关键词出现次数,有效关键词(出现次数>0)如下:

关键词 次数 关键词 次数 关键词 次数
74 5 3
11 1 武冠 1
113 4 3
1 11 17
中衣 3 3 1
朝服 5 祭服 2 公服 2
章服 1 丧服 1 11
绿 1 45 116
111 22 45
6 20 2
38 9 7
舆服 3 车服 7 卤簿 1
41 2 7
18 6 1
21 7 服色 13
冠带 10 服制 1

未出现关键词(0次):幞头、进贤冠、通天冠、远游冠、裤、半袖、衮服、冕服、常服、法服、燕服、鱼袋、鞶囊、香囊、步摇、仪仗、绫、缎、纨、品色、冠制、赐服、赐紫、赐绯、借紫、借绯、钗

注:黄(116)、白(111)、衣(113)、青(45)、朱(45)等高频词含大量非服饰用法,需语境过滤。

步骤3:行号提取

使用grep -n提取各关键词所在行号。因文件行极长(部分行超8000字符),采用Python脚本进行上下文截取。

步骤4:上下文提取与过滤

步骤5:提取结果

步骤6:MD文件生成

文件名 大小 说明
史记集解_原文提取.md ≤20KB 服饰原文提取,按类别分章
史记集解_总结.md ≤20KB 服饰内容分析总结
史记集解_日志.md ≤20KB 本处理日志

注意事项

  1. 《史记集解》行极长,每行常包含一整卷或大段内容,grep行号与实际篇章位置需对照原文确认。
  2. 高频词(黄、白、衣等)大部分为非服饰用法,已做语境过滤,但仍可能有少量误收或遗漏。
  3. 色彩词(青、朱、黑等)单独统计次数高,但纯色彩描述(如"青龙""朱鸟")非服饰内容,已尽量排除。
  4. 25个关键词在本书中未出现(0次),包括幞头、进贤冠、通天冠等唐以后服饰用语,与本书汉晋时代背景一致。

处理完成 | 输出目录:/home/z/my-project/upload/正史重制output/史记集解/