全室外集 · 服饰提取日志
批次:batch5-a | 2026-03-05
基本信息
| 项目 | 内容 |
|---|---|
| 书名 | 全室外集 |
| 作者 | 明·宗泐(字季潭) |
| 文件路径 | /home/z/my-project/upload/四库别集/全室外集.txt |
| 总行数 | 1031 |
| 输出目录 | /home/z/my-project/upload/四库别集output/全室外集/ |
五轮Grep统计
| 轮次 | 关键词 | 命中行数(约) | 有效服饰条目 |
|---|---|---|---|
| 1 | 衣裳袍裘 | ~35 | 25 |
| 2 | 冠冕弁巾 | ~15 | 7 |
| 3 | 锦绮帛绢 | ~12 | 7 |
| 4 | 丝麻葛布 | ~12 | 4 |
| 5 | 履舄靴鞋制度词 | ~25 | 7 |
| 合计 | — | ~99 | ~40(去重后) |
处理步骤
- mkdir -p:创建输出目录 ✓
- 五轮grep:依次搜索衣裳袍裘、冠冕弁巾、锦绮帛绢、丝麻葛布、履舄靴鞋制度词 ✓
- 上下文提取:通过行号定位原文,确认服饰语境 ✓
- 过滤非服饰:
- 去除"制度"泛指(如"制度规模壮"非服饰制度)
- 去除"丝""布"等纯景物描写(如"千丝万丝"指柳条)
- 保留"服色""传衣""忍辱衣"等制度性/宗教性服饰词
- 三份MD输出:原文提取、总结、日志 ✓
过滤说明
- "丝"字大量出现在"丝桐""冰丝""千丝"中,多为琴弦或柳条意象,仅保留与织物/服饰相关者
- "制"字出现频繁,多数为"制作""制作新"等非服饰用法
- "带"字多作动词"带经"或地理"衣带"用,保留"衣不解带"
- "佩"字多作"佩圣谟"等抽象义,非服饰佩饰
文件大小
| 文件 | 大小 |
|---|---|
| 全室外集_原文提取.md | ~3KB |
| 全室外集_总结.md | ~3KB |
| 全室外集_日志.md | ~2KB |
日志完成。