研究总结 日志 原文

全宋诗 服饰提取处理日志

基本信息

处理流程

第1步: 文件大小确认

$ wc -c -l 全宋诗.txt
  1167159 44677333 全宋诗.txt

文件约42.6MB,116万行,严禁整本载入LLM。

第2步: 5轮关键词检索

轮次 类别 关键词 匹配行数
1 核心词 衣裳裘冠冕弁帻巾帽佩玉带绶笏舄履靴袍衫裙褶袂襟领 25,738
2 材质词 锦绮绢帛缎绫罗纱缟葛褐绵茧绸缃 15,439
3 色彩纹饰复合 紫袍绯袍朱衣青衫等 1,786
4 制度词 赐紫赐绯章服冠服朝服祭服丧服常服加冠衮服衮衣品色舆服 203
5 配饰词 簪钗钿珰珥鱼袋幞头云肩霞帔蔽膝芾韠佩鱼 3,626

全量匹配约8175条(去重后估计)。

第3步: Python流式精准提取

由于文件超大(116万行),采用流式处理策略:

提取结果:

类别 全量条数 提取条数
服制 203 30
袍服 267 30
衫裙 500 30
上衣 2,670 30
冠帽 1,090 30
巾帻 607 30
履舄 611 30
裘皮 588 30
佩饰 780 30
头饰 17 17
纹饰 558 30
织绣 86 30
钗钿 198 30
合计 8,175 347

第4步: 对抗式审查

  1. "芾"字审查: 原匹配1248条,99%为"米芾"等人名,全部排除。实际蔽膝4条+韠7条。
  2. "华衮"审查: 排除"年华衮衮"(约500条),保留49条服饰义。
  3. "黼"字审查: 排除"王黼"等人名,保留"黼黻"40条。
  4. "弁"字审查: "弁山"为地名,非冠弁,需逐条判断。
  5. "蜀锦"审查: 部分为"蜀锦城"(成都地名)。

第5步: 输出文件

文件 大小 说明
全宋诗_总结.md ~7.4KB 分类总结分析
全宋诗_原文提取.md ~11.3KB 精选原文(每类代表性条目)
全宋诗_日志.md ~3KB 处理日志(本文件)

关键命令记录

# 文件大小
wc -c -l 全宋诗.txt

# 5轮grep统计
rg -n '衣裳|裘|冠|冕|...' 全宋诗.txt | wc -l
# (每轮具体关键词见第2步)

# Python流式处理(核心)
python3 /tmp/process_qss.py
python3 /tmp/gen_qss_md.py

处理耗时