《黄华集》服饰提取日志
提取信息
- 书名:黄华集
- 源文件:/home/z/my-project/upload/四库别集3/四库别集3/黄华集.txt
- 输出目录:/home/z/my-project/upload/四库别集3output/黄华集
- 提取时间:2026-05-11 16:21:04
- 总行数:1223
操作流程
1. 行数统计
wc -l 结果:1223 行
2. 八轮关键词grep
| 轮次 | 类别 | 命中行数 | 精筛行数 |
|---|---|---|---|
| 1 | 冠冕帽巾 | 15 | 15 |
| 2 | 衣裳袍衫 | 16 | 16 |
| 3 | 裙裤履鞋 | 5 | 5 |
| 4 | 带佩笏绶 | 8 | 8 |
| 5 | 锦绮绢纱 | 14 | 11 |
| 6 | 丝麻葛布 | 25 | 17 |
| 7 | 染色绣纹 | 104 | 42 |
| 8 | 赐服赐袍 | 2 | 2 |
3. 结果汇总
- 初筛总命中行数(去重):144
- 精筛总命中行数(去重):73
- 过滤率:49.3%
4. 对抗审查(噪声过滤)V2
采用负向过滤策略:
- 低噪声关键词(冠/冕/弁/帽/巾/衣/裳/袍/衫/裘/褐/袈裟/裙/裤/履/舄/靴/袜/鞋/笏/绶/绮/帛/绢/绫/纱/葛/棉/缯/缣/染/绣/黼/黻/赭等):几乎均为服饰语境,直接保留
- 高噪声关键词(青/色/丝/带/布/罗/锦/麻/佩/纹/紫/朱/绯等):排除已知非服饰复合词
- 青→排除"青山""青春""青云""青松"等约50个非服饰复合词
- 色→排除"景色""春色""月色""秋色"等约50个非服饰复合词
- 丝→排除"鬓丝""雨丝""游丝"等
- 带→排除"地带""一带""带雨""带霜"等非腰带用法
- 布→排除"宣布""分布"等非织物用法
- 罗→排除"星罗""罗列"等非织物用法
- 紫→排除"紫气""紫芝""紫烟"等非服色用法
- 朱→排除"朱门""朱楼""朱颜"等非服色用法
- 复合服饰词:衣冠/朝衣/道衣/霓裳/儒冠/纱帽/锦袍/赐服等直接保留
- 多服饰词共现:同一行含≥3个服饰相关字则判定为服饰语境
- 服饰上下文:高噪声字若与服/穿/著/戴/赐/朝/官/品/秩等词共现则保留
5. 输出文件
黄华集_服饰总结.md黄华集_服饰日志.md(本文件)黄华集_服饰原文.md
各轮次精筛行号
冠冕帽巾
15行:18, 38, 397, 476, 479, 603, 623, 658, 667, 879, 903, 1022, 1024, 1143, 1181
衣裳袍衫
16行:38, 173, 273, 373, 476, 558, 623, 788, 822, 884, 914, 915, 925, 1022, 1140, 1181
裙裤履鞋
5行:144, 152, 365, 558, 723
带佩笏绶
8行:36, 37, 476, 733, 744, 833, 890, 1204
锦绮绢纱
11行:38, 152, 189, 470, 618, 641, 658, 789, 925, 961, 1181
丝麻葛布
17行:35, 38, 152, 237, 277, 397, 455, 456, 480, 534, 558, 730, 733, 822, 913, 925, 926
染色绣纹
42行:1, 18, 22, 37, 38, 39, 46, 76, 173, 237, 277, 315, 333, 373, 379, 397, 407, 462, 476, 479, 490, 558, 613, 618, 623, 723, 733, 833, 854, 866, 875, 879, 882, 884, 890, 925, 973, 1140, 1169, 1180, 1181, 1182
赐服赐袍
2行:37, 925