香艳丛书 — 服饰内容提取日志
基本信息
- 书名:香艳丛书
- 输入文件:/tmp/daizhige_data/集藏/文总集/香艳丛书.md
- 输出目录:/home/z/my-project/upload/文总集output/香艳丛书
- 处理时间:2026-05-08 23:45:37
- 文件总行数:46277
搜索过程
10轮关键词搜索
| 轮次 |
关键词 |
匹配行数 |
| 1 |
衣裳、锦衣、朝服、冕服、衮服、深衣 |
- |
| 2 |
冠带、巾帻、冕冠、步摇、花钿、簪钗 |
- |
| 3 |
钗环、裙带、罗裙、纱裙、绣裳、玉佩 |
- |
| 4 |
绶带、腰带、革带、金带、玉带、蔽膝 |
- |
| 5 |
履、屦、屣、鞋、袜 |
- |
| 6 |
簪、钗、钏、环、珥 |
- |
| 7 |
衣冠、衣服、衣裾、长袍、锦袍、儒服 |
- |
| 8 |
纱、绢、缟、纩、缯 |
- |
| 9 |
脂粉、画眉、点唇、香囊、佩玉、组绶 |
- |
| 10 |
大带、博带、舞衣、道服、法服、燕服 |
- |
统计汇总
- 初始匹配总行数:2976(去重后)
- 含复合关键词的行数:596
- 经噪声过滤后有效行数:1258
- 去重分组后有效段落:55
噪声过滤规则
- 单字关键词(袍、裘、裙等)需在同行出现2个以上方保留
- 仅含复合关键词的行直接保留
- 相邻5行内的多个匹配合并为一个段落,取最佳代表行
- 每段截取关键词前后各60-140字,超出部分省略
- 输出文件限制在20KB以内
输出文件
| 文件 |
说明 |
| 原文提取.md |
有效服饰段落原文(含行号、关键词标注) |
| 总结.md |
服饰内容分类总结与分析 |
| 日志.md |
本文件,处理过程记录 |