刘宾客文集·服饰提取日志
处理时间:2026-05-09 14:54 源文件:/home/z/my-project/upload/四库别集/刘宾客文集.txt 输出目录:/home/z/my-project/upload/四库别集output/刘宾客文集/
处理流程
- mkdir:创建输出目录
- 五轮grep:按类别搜索服饰关键词
- 第一轮:衣裳袍裘(衣|裳|袍|裘|袂|裾|襦|褂|衫|袄|褐)
- 第二轮:冠冕弁巾(冠|冕|弁|巾|帽|帻|簪|缨)
- 第三轮:锦绮帛绢(锦|绮|帛|绢|绫|罗|缎|绸|缯|纨)
- 第四轮:丝麻葛布(丝|麻|葛|布|缟|绤|絺|纻)
- 第五轮:履舄靴鞋制度词(履|舄|靴|鞋|袜|带|佩|章服|朝服|祭服|丧服|吉服|冠服|戎服|服制)
- sed提取上下文:每条匹配取前2后5行
- 过滤非服饰语境:去除地名等误匹配
- 生成MD文档:原文提取、总结、日志
处理结果
| 指标 | 数值 |
|---|---|
| 源文件总行数 | 2347 |
| 初始匹配行数 | 368 |
| 核心服饰条目 | 245 |
| 旁涉服饰条目 | 123 |
过滤说明
- 去除"黄衣岩"等地名误匹配
- 去除"黄麻峡"等地名误匹配
- 保留所有服饰语境条目(含比喻、典故中的服饰描写)
各类别匹配统计
- 衣裳袍裘:匹配181条,核心136条,旁涉45条
- 冠冕弁巾:匹配61条,核心38条,旁涉23条
- 锦绮帛绢:匹配49条,核心26条,旁涉23条
- 丝麻葛布:匹配38条,核心20条,旁涉18条
- 履舄靴鞋制度词:匹配39条,核心25条,旁涉14条