研究总结 日志 原文

全唐诗补编 服饰提取处理日志

基本信息

处理流程

第1步: 文件大小确认

$ wc -c -l 全唐诗补编.txt
  21006 2003991 全唐诗补编.txt

文件约1.9MB,21,006行,不可整本载入LLM。

第2步: 5轮关键词检索

轮次 类别 关键词 匹配行数
1 核心词 衣裳裘冠冕弁帻巾帽佩玉带绶笏舄履靴袍衫裙褶袂襟领 551
2 材质词 锦绮绢帛丝缎绫罗纱缟绸葛麻褐布绵茧 829
3 色彩纹饰 紫绯朱赭青绿白玄黄丹素绣纹章黼黻华 3445
4 制度词 服赐赐紫赐绯品色舆服章服冠服朝服祭服丧服常服加冠衮 36
5 配饰词 簪钗钿珰珥环镯鱼袋幞头云肩霞帔蔽膝芾韠佩鱼 155

第3轮色彩词匹配过多(3445行),改为复合词检索(紫袍+绯袍+朱衣等),收窄至37行。

第3步: 合并去重

合并5轮结果,去除第3轮过泛匹配后,共得1311个唯一行号。

第4步: 两阶段精准过滤

阶段1 - 高置信度匹配: 使用约60个复合服饰词(衣裳、锦袍、幞头等)直接匹配,得458行。

阶段2 - 中置信度匹配: 对单字词(衣、冠、巾等)要求同行出现2个以上服饰关键词,得238行。

合计去重后585行。

第5步: Python精准分类筛选

使用更严格的匹配规则,按13个服饰类别分别提取:

类别 筛选后条数
上衣 106
袍服 11
衫裙 10
裘皮 27
冠帽 38
巾帻 7
履舄 30
佩饰 123
头饰腰饰 1
纹饰 1
服制 18
织绣材质 6
衣件 20
合计 398

第6步: 对抗式审查

针对高误判关键词进行3轮审查:

  1. "冠"字审查(125→38): 排除"冠军""冠绝""冠世""冠英儒""芳名冠一时"等非服饰用法,保留"挂冠""黄冠""金冠""芙蓉冠"等服饰义。
  2. "襟"字审查(39→9): 排除"披襟""冲襟""胸襟""襟怀""襟抱""襟带"等比喻义,保留"沾襟""泪沾襟""短襟"等服饰义。
  3. "履"字审查(52→8): 排除"履冰""履霜""履行""步履""杖履""履道""履真"等非鞋履义,保留"蹑履""脱履""珠履"等鞋履义。
  4. 材质词审查: 排除"锦城""锦江""罗网""罗浮"等地名和比喻用法。
  5. "簪"字处理: "抽簪""投簪"虽为辞官典故,但涉及簪的佩戴文化,予以保留。

第7步: 输出文件

文件 大小 说明
全唐诗补编_总结.md ~7.8KB 分类总结分析
全唐诗补编_原文提取.md ~18KB 精选原文(每类代表性条目)
全唐诗补编_日志.md ~3KB 处理日志(本文件)

关键命令记录

# 文件大小
wc -c -l 全唐诗补编.txt

# 5轮grep
rg -n '衣裳|裘|冠|冕|弁|帻|巾|帽|佩玉|带|绶|笏|舄|履|靴|袍|衫|裙|褶|袂|襟|领' 全唐诗补编.txt | wc -l
rg -n '锦|绮|绢|帛|缎|绫|罗|纱|缟|葛|褐|绵|茧' 全唐诗补编.txt | wc -l
rg -n '紫袍|绯袍|朱衣|青衫|绿衫|白衣|玄衣|黄袍|丹裳|素衣|绣衣|黼|黻|华衮|紫绶' 全唐诗补编.txt | wc -l
rg -n '赐紫|赐绯|章服|冠服|朝服|祭服|丧服|常服|加冠|衮服|品色|舆服' 全唐诗补编.txt | wc -l
rg -n '簪|钗|钿|珰|珥|鱼袋|幞头|云肩|霞帔|蔽膝|芾|韠|佩鱼' 全唐诗补编.txt | wc -l

# Python精准分类筛选(核心处理步骤)
python3 /tmp/tscb_精准筛选.py

处理耗时