《蜀乱述闻》服饰内容提取日志
任务信息
- 任务ID:11-c
- 输入文件:/home/z/my-project/upload/part4/蜀乱述闻.txt
- 输出目录:/home/z/my-project/upload/44output/蜀乱述闻/
- 处理时间:2026-03-05
处理步骤记录
第一步:文件基本信息
wc -l /home/z/my-project/upload/part4/蜀乱述闻.txt
# 结果:11 行
wc -c /home/z/my-project/upload/part4/蜀乱述闻.txt
# 结果:5769 字节
文件极小,仅11行,全文约5.7KB。
第二步:多轮grep检索
第1轮:制度词检索
grep -n '服色\|舆服\|冠服\|章服\|赐服\|赐紫\|赐绯\|借紫\|品色\|紫袍\|绯袍\|绿袍\|金带\|玉带\|鱼袋\|幞头\|补服' 蜀乱述闻.txt
# 结果:无命中
第2轮:核心衣物词检索
grep -n '衣\|裳\|裘\|冠\|弁\|佩\|带\|履\|舄\|笏\|绶\|冕\|袍\|衫\|裙\|袄\|褐\|帛\|绢\|绫\|罗\|缎\|锦\|绮\|纱\|绸\|丝\|布\|葛\|麻\|棉\|茧\|蚕' 蜀乱述闻.txt
# 结果:命中第3、5、7行
第3轮:装饰词检索
grep -n '黼黻\|文章\|纹\|绣\|织\|染\|彩\|画' 蜀乱述闻.txt
# 结果:无命中
第4轮:动作词检索
grep -n '服\|冠\|戴\|穿\|著\|被\|衣\|披\|裹\|束\|系' 蜀乱述闻.txt
# 结果:命中第3、5、7、9行
第5轮:精确衣物专用词检索
grep -n '衣\|裳\|裘\|冠\|佩\|带\|履\|舄\|笏\|绶\|冕\|袍\|衫\|裙\|袄\|褐\|帛\|绢\|绫\|缎\|绮\|纱\|绸\|丝\|葛\|麻\|棉\|茧\|蚕\|绣\|织\|染\|彩\|纹\|黼\|黻' 蜀乱述闻.txt
# 结果:无命中
此轮证明:所有专用服饰词(衣裳袍衫裙袄等)在全文中完全不存在。
第6轮:逐字上下文甄别
对第2轮命中的弁、披、锦、罗、布、被逐一进行上下文检查:
| 字 | 命令 | 语境 | 判定 |
|---|---|---|---|
| 弁 | rg -n '弁' |
"汛弁"=武官名 | 假阳性 |
| 披 | rg -n '披' |
"披猖"=蔓延 | 假阳性 |
| 锦 | rg -n '锦' |
"锦州"=地名 | 假阳性 |
| 罗 | rg -n '罗' |
"罗江"=地名 | 假阳性 |
| 布 | rg -n '布' |
"布政使"×3、"布其党" | 假阳性 |
| 被 | rg -n '被' |
"被擒""被劾""被惩创" | 假阳性 |
第三步:sed提取上下文
由于所有命中均为假阳性,无需进一步sed提取段落上下文。
第四步:分类整理
| 分类 | 条目数 |
|---|---|
| 假阳性——官职名 | 4(弁1次+布3次) |
| 假阳性——地名 | 2(锦1次+罗1次) |
| 假阳性——被动标记 | 3(被3次) |
| 假阳性——动词非服饰义 | 2(披1次+布1次) |
| 真实服饰内容 | 0 |
第五步:产出文件
| 文件名 | 内容 | 大小 |
|---|---|---|
| 蜀乱述闻_总结.md | 服饰提取总结报告 | ≤20KB |
| 蜀乱述闻_日志.md | 本文件——处理过程日志 | ≤20KB |
| 蜀乱述闻_原文提取.md | 原文提取(假阳性甄别清单) | ≤20KB |
结论
《蜀乱述闻》为纯粹的晚清军事纪事文本,无任何服饰相关内容。所有关键词命中均为假阳性,经逐条甄别后无一通过服饰语境验证。