《蓬山密记》服饰提取工作日志
基本信息
| 项目 | 内容 |
|---|---|
| 任务ID | 13-c |
| 书名 | 蓬山密记 |
| 作者 | 钱塘高士奇 |
| 输入文件 | /home/z/my-project/upload/part4/蓬山密记.txt |
| 输出目录 | /home/z/my-project/upload/44output/蓬山密记/ |
| 处理日期 | 2026-03-04 |
处理步骤记录
步骤1:文件基本信息
- 命令:
wc -l 蓬山密记.txt - 结果:16行
- 文件体量较小,为短篇笔记体裁
步骤2:多轮grep关键词检索
第1轮:核心服饰词检索
- 命令:
rg -n '服色|舆服|冠服|章服|衣|裳|裘|冠|弁|佩|带|履|舄|笏|绶|冕|袍|衫|裙|袄|褐|帛|绢|绫|罗|缎|锦|绮|纱|绸|丝|布|葛|麻|棉|茧|蚕' 蓬山密记.txt - 命中行:3、6、7、15
- 关键发现:
- 第3行:"淡红衫""石青半臂""锦轴""耕织图""布帆"
- 第6行:"莱衣自欢"
- 第7行:"织成夔龙边綾匾""莱衣昼锦"
- 第15行:大量赐服内容(绒帽、龙缎袍、四团龙褂、寿字衫、披风、宁绸、绫、春绸等)
第2轮:制度词检索
- 命令:
rg -n '赐服|赐紫|赐绯|借紫|品色|紫袍|绯袍|绿袍|金带|玉带|鱼袋|幞头|补服' 蓬山密记.txt - 命中行:无直接匹配
- 说明:本书无典型品色制度用语,赐服以实物描述为主
第3轮:装饰词检索
- 命令:
rg -n '黼黻|文章|纹|绣|织|染|彩|画' 蓬山密记.txt - 命中行:3、7、15
- 关键发现:
- 第3行:"织图"(《耕织图》)、"画"(西洋画)
- 第7行:"织成夔龙边"
- 第15行:"织"(内造龙缎)
第4轮:动作词检索
- 命令:
rg -n '服|冠|戴|穿|著|被|衣|披|裹|束|系' 蓬山密记.txt - 命中行:3、6、7、12、15、16
- 筛选后有效行:3、6、7、15
- 第3行:"服"(多义词,此处多为"服"之他义,仅"半臂"为服饰动作关联)
- 第6行:"莱衣"(典故)
- 第7行:"织成"
- 第15行:"着之""着衣""披风""自佩"
第5轮:补充检索
- 命令:
rg -n '半臂|披风|褂|绒帽|坠子|鼻烟' 蓬山密记.txt - 命中行:3、15
- 关键发现:
- 第3行:"半臂"(石青半臂)
- 第15行:"绒帽""褂""披风""坠子""鼻烟壶"
步骤3:上下文提取
- 文件仅16行,关键行3、6、7、15均已完整提取
- 使用sed -n提取各行全文,无需扩展上下文窗口
步骤4:分类整理
服饰内容统计
| 分类 | 条目数 | 所在行 |
|---|---|---|
| 赐服(帝赐臣) | 6件 | 15 |
| 赐服(帝赐臣母) | 3件 | 15 |
| 赐衣料织物 | 4种 | 15 |
| 宫廷日常服饰 | 1条 | 3 |
| 服饰典故 | 2条 | 6、7 |
| 配饰 | 3种 | 15 |
关键词命中统计
| 关键词类型 | 总命中行数 | 有效命中行数 | 命中率 |
|---|---|---|---|
| 核心词 | 4行 | 4行 | 100% |
| 制度词 | 0行 | 0行 | N/A |
| 装饰词 | 3行 | 3行 | 100% |
| 动作词 | 6行 | 4行 | 67% |
| 补充词 | 2行 | 2行 | 100% |
步骤5:产出文件
| 文件名 | 内容 | 大小控制 |
|---|---|---|
| 蓬山密记_总结.md | 服饰内容分类总结与制度分析 | ≤20KB |
| 蓬山密记_日志.md | 本文件,处理过程记录 | ≤20KB |
| 蓬山密记_原文提取.md | 服饰相关原文逐条提取与注释 | ≤20KB |
注意事项
- 本书为短篇笔记,全文仅16行,但服饰信息集中在第15行,密度极高
- 第15行单行近800字,是全书最重要的服饰记载
- "莱衣"为典故引用,非实际服饰描述,但反映服饰文化内涵
- "(犭软)"为原文本OCR可能存在的生僻字标注,疑为"猇"或"狖"类皮毛字
- "安蓝"疑为"鞍蓝"或"暗蓝"之异写
- 制度词(赐紫、品色等)无命中,反映本书性质为私人恩遇记录而非制度文献
质量检查
- 未加载整本TXT进入LLM
- 使用grep+sed分步提取
- 服饰关键词使用内置词库
- 多轮检索覆盖核心词、制度词、装饰词、动作词
- 3份MD文件每份≤20KB
- 未偷懒简写批量合并
- 分类整理完整