《鉴诫录》服饰提取工作日志
任务信息
| 项目 | 内容 |
|---|---|
| 任务ID | 31-a |
| 输入文件 | /home/z/my-project/upload/part4/鉴诫录.txt |
| 输出目录 | /home/z/my-project/upload/44output/鉴诫录/ |
| 文件行数 | 228行 |
| 执行日期 | 2026-03-04 |
执行步骤
步骤1:文件检查
wc -l 鉴诫录.txt → 228行
文件规模适中,228行,可直接逐行grep。
步骤2:多轮grep检索
第1轮:制度词检索
grep -n '服色|舆服|冠服|章服|赐服|赐紫|赐绯|借紫|品色|紫袍|绯袍|绿袍|金带|玉带|鱼袋|幞头|补服' 鉴诫录.txt
命中行:22, 57, 132, 210, 225
关键发现:
- 行22:赐紫宫人
- 行57:补服(帝问"天子见谁补服")
- 行132:赐紫沙门银钵
- 行210:服色鲜华不可论、紫袍金带不须夸
- 行225:赐绯盟器
第2轮:核心服饰词检索
grep -n '衣|裳|裘|冠|弁|佩|带|履|舄|笏|绶|冕|袍|衫|裙|袄|褐' 鉴诫录.txt
命中行:7, 10, 13, 19, 22, 33, 36, 39, 42, 57, 63, 69, 78, 84, 90, 96, 99, 102, 108, 114, 117, 120, 126, 129, 131, 132, 138, 141, 147, 150, 156, 161, 162, 165, 171, 174, 177, 201, 210, 213, 228
筛选后有效服饰行:7, 33, 36, 39, 42, 57, 63, 69, 84, 90, 96, 99, 102, 117, 120, 126, 138, 141, 147, 162, 171, 174, 210, 225, 228
第3轮:织物原料词检索
grep -n '帛|绢|绫|罗|缎|锦|绮|纱|绸|丝|布|葛|麻|棉|茧|蚕' 鉴诫录.txt
命中行:7, 13, 33, 69, 72, 78, 84, 90, 96, 99, 102, 108, 114, 126, 131, 132, 138, 141, 147, 150, 156, 161, 162, 165, 171, 174, 177, 201, 210, 213, 228
筛选后有效织物行:7, 13, 33, 69, 84, 90, 99, 102, 126, 138, 162, 171, 228
第4轮:装饰词检索
grep -n '黼黻|文章|纹|绣|织|染|彩|画' 鉴诫录.txt
命中行:22, 33, 36, 57, 69, 90, 96, 99, 102, 108, 114, 117, 120, 126, 131, 132, 138, 141, 147, 150, 156, 162, 165, 171, 174, 177, 201, 210, 213, 228
筛选后有效装饰行:33, 69, 90, 96, 99, 102, 117, 141, 171
第5轮:动作词检索
grep -n '服|冠|戴|穿|著|被|衣|披|裹|束|系' 鉴诫录.txt
命中行极多,需结合上下文筛选。有效动作行:22, 30, 33, 36, 39, 45, 57, 69, 78, 90, 96, 99, 102, 105, 108, 114, 117, 120, 126, 138, 141, 147, 150, 156, 162, 165, 171, 174, 201, 210, 213, 225, 228
步骤3:去重合并
合并所有命中行号,去重后得到关键行号集合: 7, 10, 13, 19, 22, 30, 33, 36, 39, 42, 45, 57, 63, 69, 72, 78, 84, 90, 96, 99, 102, 105, 108, 114, 117, 120, 126, 131, 132, 138, 141, 147, 150, 156, 161, 162, 165, 171, 174, 177, 201, 210, 213, 225, 228
其中与服饰直接相关行号(经人工甄别): 7, 22, 33, 36, 39, 42, 57, 63, 69, 84, 90, 96, 99, 102, 117, 120, 126, 132, 138, 141, 147, 162, 171, 174, 210, 225, 228
步骤4:分类整理
按六类整理:制度服饰、日常服饰、宗教服饰、织物原料、装饰工艺、诗文咏衣。
步骤5:产出文件
| 文件名 | 大小限制 | 说明 |
|---|---|---|
| 鉴诫录_总结.md | ≤20KB | 分类总结与分析 |
| 鉴诫录_日志.md | ≤20KB | 本文件,工作日志 |
| 鉴诫录_原文提取.md | ≤20KB | 关键原文片段 |
注意事项
- "衣"字出现频率极高,大量为"衣锦还""布衣"等非服饰制度用法,需逐一甄别
- "文章"在本书中多指文辞而非纹饰,几乎全部剔除
- "丝"字多出现在"金丝""丝竹"等非织物语境,需区分
- "被"字大量为被动用法,仅"被坚执锐""被郎嗔罚"等个别与服饰相关
- "彩"字多出现在"彩仗""彩画"等场景,与服饰直接关联较少
质量检查
- wc -l 确认文件行数
- 多轮grep覆盖全部四类关键词
- 人工甄别去除无关匹配
- 分类整理逻辑清晰
- 3个MD文件均≤20KB
- 未加载整本TXT进LLM