《五代史阙文》服饰内容提取日志
任务信息
| 项目 | 内容 |
|---|---|
| 任务名称 | 《五代史阙文》服饰内容提取 |
| 输入文件 | /home/z/my-project/upload/11111/part1/五代史阙文.txt |
| 输出目录 | /home/z/my-project/upload/11output/五代史阙文/ |
| 文件规格 | 14,539字节,54行 |
| 提取方法 | ripgrep关键词检索 + sed行提取 + 人工二次筛选 |
| 执行时间 | 2026-03-04 |
10轮关键词检索执行日志
第1轮:衣/裳/服/冠/冕/弁/袍/裘
命令:rg -n '衣\|裳\|服\|冠\|冕\|弁\|袍\|裘' 五代史阙文.txt
命中:1行(第14行)
- ✅ 有效:第14行"素服待罪"——"服"字命中,素服为丧服/请罪服饰
- 备注:同行"系鞋"中"鞋"字未在此轮检索范围内(属第5轮)
第2轮:巾/帽/帻/幞头/簪/缨
命令:rg -n '巾\|帽\|帻\|幞头\|簪\|缨' 五代史阙文.txt
命中:0行
- ❌ 无任何命中
第3轮:帛/绢/绫/罗/绸/缎/锦/绮/丝/麻/葛/褐
命令:rg -n '帛\|绢\|绫\|罗\|绸\|缎\|锦\|绮\|丝\|麻\|葛\|褐' 五代史阙文.txt
命中:3行
- ✅ 有效:第18行"得绢数千匹"——"绢"字命中,绢帛作为经济报酬
- ✅ 有效:第21行"盛以锦囊"——"锦"字命中,锦囊为锦缎容器
- ❌ 误判:第28行"诸葛爽"——"葛"字命中,但"诸葛"为复姓,非葛布
- ❌ 误判:第28行"罗贯"——"罗"字命中,但"罗"为姓氏,非丝罗织物
第4轮:佩/笏/带/绶/鱼袋/玺/印
命令:rg -n '佩\|笏\|带\|绶\|鱼袋\|玺\|印' 五代史阙文.txt
命中:2行
- ✅ 有效:第18行"借笏趋朝参"——"笏"字命中,笏为朝会佩饰
- ❌ 误判:第50行"况带军职"——"带"字命中,但此处"带"为动词"带有",非腰带
第5轮:履/舄/鞋/靴/袜
命令:rg -n '履\|舄\|鞋\|靴\|袜' 五代史阙文.txt
命中:1行
- ✅ 有效:第14行"佯为鞋系脱""为吾系鞋"——"鞋"字命中,帝王鞋履
第6轮:舆服/服色/赐服/章服/冠服/品服/朝服/公服/祭服/丧服
命令:rg -n '舆服\|服色\|赐服\|章服\|冠服\|品服\|朝服\|公服\|祭服\|丧服' 五代史阙文.txt
命中:0行
- ❌ 无任何命中
第7轮:绣/纹/黼/黻/章/染/织
命令:rg -n '绣\|纹\|黼\|黻\|章\|染\|织' 五代史阙文.txt
命中:1行
- ❌ 误判:第28行"文章之士"——"章"字命中,但"文章"为"文章"之义,非服饰纹章
第8轮:裙/衫/袄/褐/帔/褙子/深衣/襕衫
命令:rg -n '裙\|衫\|袄\|褐\|帔\|褙子\|深衣\|襕衫' 五代史阙文.txt
命中:0行
- ❌ 无任何命中
第9轮:进贤冠/武冠/貂蝉/笼巾/额子
命令:rg -n '进贤冠\|武冠\|貂蝉\|笼巾\|额子' 五代史阙文.txt
命中:0行
- ❌ 无任何命中
第10轮:衮/襦/裆/裈/袴/褶/裾/袂/衿/衽/领/袖/襟
命令:rg -n '衮\|襦\|裆\|裈\|袴\|褶\|裾\|袂\|衿\|衽\|领\|袖\|襟' 五代史阙文.txt
命中:1行
- ❌ 误判:第28行"得保首领"——"领"字命中,但"首领"指头颅/性命,非衣领
检索结果统计
| 指标 | 数值 |
|---|---|
| 总检索轮次 | 10 |
| 总命中行数(含重复) | 10 |
| 去重命中行数 | 3(第14、18、21行) |
| 有效服饰条目 | 5 |
| 误判条目 | 5 |
| 零命中轮次 | 4(第2、6、8、9轮) |
| 误判率 | 50%(5/10) |
误判分析
| 误判关键词 | 所在行 | 误判原因 | 正确语义 |
|---|---|---|---|
| 葛 | 28 | "诸葛"为复姓 | 人名——诸葛爽 |
| 罗 | 28 | "罗"为姓氏 | 人名——罗贯 |
| 带 | 50 | "带"为动词 | "带有军职"之意 |
| 章 | 28 | "文章"为合成词 | 文章/文辞,非纹章 |
| 领 | 28 | "首领"为合成词 | 头领/性命,非衣领 |
教训:在非服饰专书中进行关键词检索,姓氏(诸葛、罗)和一词多义(带、领、章)是主要误判来源,必须人工复核。
方法论反思
- 关键词法的局限:对《五代史阙文》这类政治史论文献,关键词法命中精度低(50%误判率),因为大量通用汉字在非服饰语境中频繁出现。
- 复合词检索的必要性:第6轮使用复合词(舆服、朝服等)检索零命中,说明本书确实无服饰制度术语;而单字检索虽命中多但误判率高。两种策略互补方可得出可靠结论。
- 人工不可替代:5处误判全部依赖人工语义分析排除,纯自动提取将产生严重失真。