《辽阳闻见录》服饰内容提取日志
任务信息
- 任务ID:25-b
- 输入文件:
/home/z/my-project/upload/part4/辽阳闻见录.txt - 输出目录:
/home/z/my-project/upload/44output/辽阳闻见录/ - 执行时间:2026-03-05
步骤1:文件基本信息
$ wc -l /home/z/my-project/upload/part4/辽阳闻见录.txt
42 /home/z/my-project/upload/part4/辽阳闻见录.txt
- 全本仅42行,行均约1380字,总字数约5.8万字
- 行特长,需精准定位关键词上下文
步骤2:多轮grep -n 提取
第1轮:核心词(服色|舆服|冠服|章服)
$ rg -n '服色|舆服|冠服|章服' 辽阳闻见录.txt
(无命中)
结果:0条命中。本书为战争纪事,不涉典章制度专篇。
第2轮:核心词(衣|裳|裘|冠|弁|佩|带|履|舄|笏|绶|冕)
$ rg -n '衣|裳|裘|冠|弁|佩|带|履|舄|笏|绶|冕' 辽阳闻见录.txt
命中行:20, 32, 39(服饰相关)
其余行含"衣"者多为"衣服"泛指或非常规用法
筛选后有效命中:3行
- 行20:"帕首衣我号衣手令箭者"
- 行32:"帕首短衣蹀躞冰雪中"
- 行39:"原庙出衣冠知否苍茫烟尘"
第3轮:核心词(袍|衫|裙|袄|褐|帛|绢|绫|罗|缎|锦|绮|纱|绸|丝|布|葛|麻|棉|茧|蚕)
$ rg -n '袍|衫|裙|袄|褐|帛|绢|绫|罗|缎|锦|绮|纱|绸|丝|布|葛|麻|棉|茧|蚕' 辽阳闻见录.txt
(无服饰相关命中)
结果:0条命中。本书无纺织品、面料相关内容。
第4轮:制度词(赐服|赐紫|赐绯|借紫|品色|紫袍|绯袍|绿袍|金带|玉带|鱼袋|幞头|补服)
$ rg -n '赐服|赐紫|赐绯|借紫|品色|紫袍|绯袍|绿袍|金带|玉带|鱼袋|幞头|补服' 辽阳闻见录.txt
(无命中)
结果:0条命中。本书无品色服制度内容。
第5轮:装饰词(黼黻|文章|纹|绣|织|染|彩|画)
$ rg -n '黼黻|文章|纹|绣|织|染|彩|画' 辽阳闻见录.txt
行39命中("衣冠"相关上下文)
筛选后有效命中:1行(与第2轮重叠)
第6轮:动作词(服|冠|戴|穿|著|被|衣|披|裹|束|系)
$ rg -n '服|冠|戴|穿|著|被|衣|披|裹|束|系' 辽阳闻见录.txt
大量命中,需逐条甄别
筛选后有效命中:
- 行17:"折其五色旗""取五色旗于己船卓之"(旗帜)
- 行18:"褫去三眼花翎黄马褂"(赏罚服饰)
- 行20:"帕首衣我号衣"(军服伪装)
- 行32:"帕首短衣"(行军便服)
第7轮:扩展词(花翎|马褂|号衣|帕首|侍卫|帽|巾|靴|甲|铠|盔|旗|翎|顶戴)
$ rg -n '花翎|马褂|号衣|帕首|衣冠|侍卫|帽' 辽阳闻见录.txt
命中行:17(旗), 18(花翎/马褂), 20(号衣/帕首/侍卫), 21(侍卫),
31(帽), 32(侍卫/帕首/短衣), 36(侍卫), 38(侍卫), 39(衣冠)
有效命中:9行
第8轮:荣誉服饰词(褫|赏|赐|顶戴|翎)
$ rg -n '褫|赏|赐|顶戴|翎' 辽阳闻见录.txt
行18:褫去三眼花翎黄马褂
行19:连顺等褫
行23:褫职
有效命中:3行(行18为关键条目)
步骤3:sed提取相关片段
因原文行特长(约1400字/行),采用python精确截取关键词前后80字上下文:
| 行号 | 关键词 | 截取片段要点 |
|---|---|---|
| 17 | 五色旗 | "并折其五色旗""亟取五色旗于己船卓之" |
| 18 | 花翎、马褂 | "诏师久无功李鸿章褫去三眼花翎黄马褂" |
| 20 | 号衣、帕首、侍卫 | "四品衔三等侍卫永山…有帕首衣我号衣手令箭者" |
| 21 | 侍卫 | "二等侍卫荣和取海城" |
| 31 | 帽 | "获日谍帽藏辽阳图一纸极精" |
| 32 | 侍卫、帕首、短衣 | "官头等侍卫故云""帕首短衣蹀躞冰雪中" |
| 36 | 侍卫 | "其子侍卫希林布锐庵" |
| 38 | 侍卫 | "诸将帅之子姓多用侍卫编修郎中主事及道员等官从戎" |
| 39 | 衣冠 | "原庙出衣冠知否苍茫烟尘" |
步骤4:分类整理
| 类别 | 条目数 | 关键词 |
|---|---|---|
| 赏罚服饰制度 | 2 | 花翎、马褂、褫 |
| 军服与战场服饰 | 4 | 号衣、帕首、短衣、五色旗 |
| 官衔服饰 | 4 | 头等侍卫、二等侍卫、三等侍卫、侍卫从戎 |
| 其他服饰相关 | 2 | 帽、衣冠 |
步骤5:产出3份MD文件
| 文件名 | 大小 | 说明 |
|---|---|---|
| 辽阳闻见录_总结.md | ~5KB | 分类总结、制度解读、总体评价 |
| 辽阳闻见录_日志.md | ~4KB | 本文件,提取过程全记录 |
| 辽阳闻见录_原文提取.md | ~6KB | 原文片段逐条摘录与注释 |
提取难点与说明
- 服饰内容稀少:本书为甲午战争纪事,服饰非叙述重点,全书仅12条有效提取
- 侍卫官衔占比高:4条涉及侍卫(头等/二等/三等),为清代禁旅武职,有特定冠服制度
- 行特长需精准截取:单行约1400字,必须用关键词前后截取而非整行输出
- "衣"字噪声大:大量"衣"字命中为"无衣"(无器械)、"衣服"泛指等,需逐条甄别
- "褫"为重要制度词:虽不在原词库中,但"褫去花翎马褂"为典型赏罚服饰制度用语