《英吉利广东入城始末》服饰内容提取日志
基本信息
- 源文件:
/home/z/my-project/upload/part4/英吉利广东入城始末.txt - 输出目录:
/home/z/my-project/upload/44output/英吉利广东入城始末/ - 处理时间:2026-03-04
- 文件行数:38行
- 文件大小:23,053字节
处理步骤记录
步骤1:文件概况
wc -l→ 38行wc -c→ 23,053字节- 文本较短,但严禁加载全文,仍采用grep+sed片段提取法
步骤2:多轮grep检索
第1轮:核心词(服色|舆服|冠服|章服)
结果:0处命中
第2轮:服饰名物词(衣|裳|裘|冠|弁|佩|带|履|舄|笏|绶|冕|袍|衫|裙|袄|褐)
命中行号及关键词:
- 行11:偃旗(旗非服饰)、冠带肩舆(冠、带)
- 行24:冠带肩舆(冠、带)
- 行30:衣服食物(衣)、缴箱盒衣服(衣)
- 行34:带路(带路非服饰)
排除误命后:有效命中4处(行11冠带、行24冠带、行30衣服×2)
第3轮:织物词(帛|绢|绫|罗|缎|锦|绮|纱|绸|丝|布|葛|麻|棉|茧|蚕)
结果:0处命中
第4轮:制度词(赐服|赐紫|赐绯|借紫|品色|紫袍|绯袍|绿袍|金带|玉带|鱼袋|幞头|补服)
结果:0处命中
第5轮:装饰词(黼黻|文章|纹|绣|织|染|彩|画)
结果:0处命中
第6轮:动作词(服|冠|戴|穿|著|被|衣|披|裹|束|系)
命中行号及关键词:
- 行8:系身船桅(系,非服饰语境——沈棣辉以巨绠系身船桅指挥督战)
- 行22:盛服自缢(服)
- 行24:冠带肩舆(冠)、盛服将事(服)
- 行26:盛服将事(服)
- 行30:备衣服(衣)、缴箱盒衣服(衣)
- 行34:带路(非服饰语境)
- 行35:无服饰相关
排除误命后:有效命中5处
补充轮:仪仗相关词(旗|箭|轿|舆|仪|卫)
命中行号:
- 行10:拔艇上旗帜
- 行11:毁旗帜、偃旗、令箭(2处)
- 行13:肩舆进老城
- 行17:船插白旗
- 行21:已插三红旗、已插红旗
- 行22:持令箭、盛服自缢
- 行23:插白旗、旗下街
- 行24:冠带肩舆
- 行26:肩舆(3处)、轿马仪从
步骤3:sed提取上下文
对有效命中行提取上下文段落:
sed -n '10,12p'→ 提取行10-12(冠带肩舆上下文)sed -n '21,27p'→ 提取行21-27(盛服自缢、冠带肩舆、盛服将事上下文)sed -n '29,31p'→ 提取行29-31(备衣服、缴箱盒衣服上下文)sed -n '33,35p'→ 提取行33-35(带路误命排除确认)
步骤4:分类整理
将5处有效服饰条目分为两类:
- 官服礼仪类(3处):冠带肩舆、盛服将事、盛服自缢
- 日常衣物类(2处):备衣服食物、缴箱盒衣服
步骤5:产出文件
| 文件名 | 内容 | 大小 |
|---|---|---|
| 英吉利广东入城始末_总结.md | 服饰内容分类总结与分析 | ≤20KB |
| 英吉利广东入城始末_日志.md | 本文件,处理过程日志 | ≤20KB |
| 英吉利广东入城始末_原文提取.md | 服饰相关原文片段及注释 | ≤20KB |
质量检查
- 未加载整本TXT进入LLM
- 使用grep+sed逐段提取
- 服饰关键词使用内置词库
- 误命排除(系身船桅、带路等非服饰语境已剔除)
- 每份MD ≤ 20KB
- 3份MD完整产出