研究总结 日志 原文

《五代史阙文》服饰内容提取日志

任务信息

项目 内容
任务名称 《五代史阙文》服饰内容提取
输入文件 /home/z/my-project/upload/11111/part1/五代史阙文.txt
输出目录 /home/z/my-project/upload/11output/五代史阙文/
文件规格 14,539字节,54行
提取方法 ripgrep关键词检索 + sed行提取 + 人工二次筛选
执行时间 2026-03-04

10轮关键词检索执行日志

第1轮:衣/裳/服/冠/冕/弁/袍/裘

命令rg -n '衣\|裳\|服\|冠\|冕\|弁\|袍\|裘' 五代史阙文.txt

命中:1行(第14行)

第2轮:巾/帽/帻/幞头/簪/缨

命令rg -n '巾\|帽\|帻\|幞头\|簪\|缨' 五代史阙文.txt

命中:0行

第3轮:帛/绢/绫/罗/绸/缎/锦/绮/丝/麻/葛/褐

命令rg -n '帛\|绢\|绫\|罗\|绸\|缎\|锦\|绮\|丝\|麻\|葛\|褐' 五代史阙文.txt

命中:3行

第4轮:佩/笏/带/绶/鱼袋/玺/印

命令rg -n '佩\|笏\|带\|绶\|鱼袋\|玺\|印' 五代史阙文.txt

命中:2行

第5轮:履/舄/鞋/靴/袜

命令rg -n '履\|舄\|鞋\|靴\|袜' 五代史阙文.txt

命中:1行

第6轮:舆服/服色/赐服/章服/冠服/品服/朝服/公服/祭服/丧服

命令rg -n '舆服\|服色\|赐服\|章服\|冠服\|品服\|朝服\|公服\|祭服\|丧服' 五代史阙文.txt

命中:0行

第7轮:绣/纹/黼/黻/章/染/织

命令rg -n '绣\|纹\|黼\|黻\|章\|染\|织' 五代史阙文.txt

命中:1行

第8轮:裙/衫/袄/褐/帔/褙子/深衣/襕衫

命令rg -n '裙\|衫\|袄\|褐\|帔\|褙子\|深衣\|襕衫' 五代史阙文.txt

命中:0行

第9轮:进贤冠/武冠/貂蝉/笼巾/额子

命令rg -n '进贤冠\|武冠\|貂蝉\|笼巾\|额子' 五代史阙文.txt

命中:0行

第10轮:衮/襦/裆/裈/袴/褶/裾/袂/衿/衽/领/袖/襟

命令rg -n '衮\|襦\|裆\|裈\|袴\|褶\|裾\|袂\|衿\|衽\|领\|袖\|襟' 五代史阙文.txt

命中:1行

检索结果统计

指标 数值
总检索轮次 10
总命中行数(含重复) 10
去重命中行数 3(第14、18、21行)
有效服饰条目 5
误判条目 5
零命中轮次 4(第2、6、8、9轮)
误判率 50%(5/10)

误判分析

误判关键词 所在行 误判原因 正确语义
28 "诸葛"为复姓 人名——诸葛爽
28 "罗"为姓氏 人名——罗贯
50 "带"为动词 "带有军职"之意
28 "文章"为合成词 文章/文辞,非纹章
28 "首领"为合成词 头领/性命,非衣领

教训:在非服饰专书中进行关键词检索,姓氏(诸葛、罗)和一词多义(带、领、章)是主要误判来源,必须人工复核。

方法论反思

  1. 关键词法的局限:对《五代史阙文》这类政治史论文献,关键词法命中精度低(50%误判率),因为大量通用汉字在非服饰语境中频繁出现。
  2. 复合词检索的必要性:第6轮使用复合词(舆服、朝服等)检索零命中,说明本书确实无服饰制度术语;而单字检索虽命中多但误判率高。两种策略互补方可得出可靠结论。
  3. 人工不可替代:5处误判全部依赖人工语义分析排除,纯自动提取将产生严重失真。