《西河记》服饰提取日志
任务信息
| 项目 | 内容 |
|---|---|
| 任务ID | 18-d |
| 古籍名称 | 西河记 |
| 输入文件 | /home/z/my-project/upload/part4/西河记.txt |
| 输出目录 | /home/z/my-project/upload/44output/西河记/ |
| 处理日期 | 2026-03-04 |
处理步骤记录
步骤1:文件基本信息
- 命令:
wc -l /home/z/my-project/upload/part4/西河记.txt - 结果:13行
- 文件极短,为辑佚残本,仅存数则佚文。
步骤2:多轮grep提取服饰关键词
第1轮:核心词提取
- 关键词:
服色|舆服|冠服|章服|衣|裳|裘|冠|弁|佩|带|履|舄|笏|绶|冕|袍|衫|裙|袄|褐|帛|绢|绫|罗|缎|锦|绮|纱|绸|丝|布|葛|麻|棉|茧|蚕 - 命令:
grep -n -E '核心词' 西河记.txt - 命中行:
- 第9行:命中"蚕""裳""袄""锦""布"共5个核心词
- 第10行:命中"布""裳"共2个核心词(为第9行案语)
第2轮:制度词提取
- 关键词:
赐服|赐紫|赐绯|借紫|品色|紫袍|绯袍|绿袍|金带|玉带|鱼袋|幞头|补服 - 结果:无命中
第3轮:装饰词提取
- 关键词:
黼黻|文章|纹|绣|织|染|彩|画 - 结果:无命中(注:原文"缬"为绞缬工艺,但未在装饰词词库中,属补充发现)
第4轮:动作词提取
- 关键词:
服|冠|戴|穿|著|被|衣|披|裹|束|系 - 单独测试"着"字:
- 第9行:命中2处"着"字
步骤3:sed提取关键段落上下文
- 关键行:第9行(服饰核心内容)
- 上下文范围:第4-14行(全文,因文件仅13行)
- 上下文内容包含:
- 第4行:书名及作者信息
- 第9行:服饰核心段落
- 第10行:张澍案语(补充服饰信息)
步骤4:分类整理
- 服饰内容集中于一处(第9行),但信息密度极高
- 拆解为6个分类维度:丝织业状况、服装款式、面料材质、色彩装饰、穿着层次、族群特征
步骤5:产出3份MD文件
- 西河记_总结.md:服饰内容系统总结
- 西河记_日志.md:本文件,处理过程记录
- 西河记_原文提取.md:服饰相关原文逐行提取
关键发现
- 词库补充建议:"缬"(绞缬/扎染工艺)未纳入装饰词词库,但为本文核心服饰术语,建议后续补充。
- "帬"字:为"裙"之异体,grep时用"裙"可命中此字需注意。
- 服饰密度:全文13行中仅1行涉及服饰,但该行信息量极大,涵盖6个服饰维度。
- 佚文特点:辑佚本各条互不连贯,服饰内容无上下文段落可扩展,仅能以单条为单位提取。
统计数据
| 统计项 | 数值 |
|---|---|
| 文件总行数 | 13 |
| 服饰命中行数 | 2(第9行正文 + 第10行案语) |
| 核心词命中数 | 5(蚕、裳、袄、锦、布) |
| 制度词命中数 | 0 |
| 装饰词命中数 | 0("缬"未在词库中) |
| 动作词命中数 | 2(着×2) |
| 服饰信息密度 | 15.4%(2/13行) |