《述报法兵侵台纪事残辑》服饰内容提取日志
任务信息
| 项目 | 内容 |
|---|---|
| 任务ID | 23-b-retry |
| 输入文件 | /home/z/my-project/upload/part4/述报法兵侵台纪事残辑.txt |
| 输出目录 | /home/z/my-project/upload/44output/述报法兵侵台纪事残辑/ |
| 执行时间 | 2026-03-05 |
执行步骤
步骤1:文件基本信息
wc -l 述报法兵侵台纪事残辑.txt
→ 4560行
步骤2:多轮grep搜索
第1轮:制度词搜索
rg -n '服色|舆服|冠服|章服|赐服|赐紫|赐绯|借紫|品色|紫袍|绯袍|绿袍|金带|玉带|鱼袋|幞头|补服'
→ NO_MATCH(无制度性服饰词汇命中)
结论:本书不含服饰制度相关内容。
第2轮:核心词搜索(衣料类)
rg -n '衣|裳|裘|冠|弁|佩|带|履|舄|笏|绶|冕|袍|衫|裙|袄|褐|帛|绢|绫|罗|缎|锦|绮|纱|绸|丝|布|葛|麻|棉|茧|蚕'
→ 命中极多(含大量非服饰用法如"衣"在"依"、"带"在"地带"等)
处理:逐条人工筛选,剔除非服饰用法的误命中,保留服饰相关条目。
第3轮:装饰词搜索
rg -n '黼黻|文章|纹|绣|织|染|彩|画'
→ "文章"命中多为"着有文章""岂无文章"等非服饰用法
→ "画"命中多为"画饼""画策""画押"等非服饰用法
→ "织造"命中1处(line 636),为官署名
→ "染"命中多为"染病""染皮肤之病"等非服饰用法
结论:装饰性服饰词汇基本无命中。
第4轮:动作词搜索
rg -n '戴|穿|著|被|披|裹|束|系'
→ "穿"命中1处:line 518"均穿黑衣红袖"
→ "裹"命中多处:多为"裹足""裹粮"等非服饰用法
→ "披"命中多为"披猖""披靡"等非服饰用法
→ 超时截断
第5轮:精确组合搜索
rg -n '黑衣|红袖|衣履|解衣|织造|法衣|洋衣|衣服|马甲|裹尸|衣裳|玉帛|丝绸|棉花|黑麻|蚕桑|土布|疋头|衣甲|冠带|甲冑|旗帜'
→ 精确命中约20条,为最终提取基础
步骤3:sed提取
使用sed按行号提取关键片段,输出至临时文件raw_extracts.txt(17941字节)。
提取行号清单:
- 物产类:124, 126, 128, 130, 1946
- 军事服饰类:336, 506, 518, 804, 1570, 3379
- 礼仪制度类:636, 750, 894, 2058, 2921, 4269
- 旗帜类:1480, 3111, 3253, 4323
步骤4:分类整理
将提取结果按以下四类整理:
| 分类 | 条目数 | 说明 |
|---|---|---|
| 甲·面料物产 | 5 | 丝绸、棉花、麻、靛、土布、疋头 |
| 乙·军事服饰 | 6 | 法衣、洋衣、黑衣红袖、衣履、衣甲、马甲 |
| 丙·礼仪制度 | 5 | 织造、玉帛、衣裳、冠带、甲冑 |
| 丁·旗帜标识 | 5 | 旗帜、龙旗、大纛 |
步骤5:产出3份MD
| 文件名 | 内容 | 大小限制 |
|---|---|---|
| 述报法兵侵台纪事残辑_总结.md | 服饰内容分类总结 | ≤20KB |
| 述报法兵侵台纪事残辑_日志.md | 本文件,提取过程日志 | ≤20KB |
| 述报法兵侵台纪事残辑_原文提取.md | 原文片段摘录 | ≤20KB |
搜索词库使用统计
| 词库类别 | 搜索词数 | 命中数(服饰相关) | 备注 |
|---|---|---|---|
| 核心词 | 32 | 约8 | 大量误命中需人工筛选 |
| 制度词 | 12 | 0 | 本书不含制度性服饰 |
| 装饰词 | 8 | 1(织造) | 多数命中为非服饰用法 |
| 动作词 | 8 | 1(穿) | 多数为非服饰用法 |
难点与处理
- 误命中过滤:书中"衣"大量出现于"依""衣服"等组合,"带"出现在"地带""带领"等处,"冠"出现在"冠军"等处,需逐一甄别
- "蚕食"干扰:书中"蚕食"出现十余处,均为"蚕食鲸吞"的比喻用法,与纺织无关,已全部剔除
- "画"字干扰:书中"画"出现极多("画饼""画策""画押""三画"军衔等),与服饰纹样无关
- "文章"干扰:line 3669"着有文章"指规章制度,非服饰纹样
- "玉帛"归类:虽为典故用法而非实指丝帛,但作为服饰制度词仍予收录并注明
质量检查
- 未加载整本TXT进入LLM
- 先grep定位再sed提取
- 使用内置词库关键词
- 每份MD ≤20KB
- 未偷懒简写批量合并
- 3份MD文件命名正确
日志记录时间:2026-03-05