《麟角集》服饰提取日志
提取信息
- 书名:麟角集
- 源文件:/home/z/my-project/upload/四库别集3/四库别集3/麟角集.txt
- 输出目录:/home/z/my-project/upload/四库别集3output/麟角集
- 提取时间:2026-05-11 16:21:04
- 总行数:283
操作流程
1. 行数统计
wc -l 结果:283 行
2. 八轮关键词grep
| 轮次 | 类别 | 命中行数 | 精筛行数 |
|---|---|---|---|
| 1 | 冠冕帽巾 | 7 | 7 |
| 2 | 衣裳袍衫 | 21 | 21 |
| 3 | 裙裤履鞋 | 5 | 5 |
| 4 | 带佩笏绶 | 15 | 12 |
| 5 | 锦绮绢纱 | 22 | 21 |
| 6 | 丝麻葛布 | 12 | 12 |
| 7 | 染色绣纹 | 40 | 28 |
| 8 | 赐服赐袍 | 0 | 0 |
3. 结果汇总
- 初筛总命中行数(去重):62
- 精筛总命中行数(去重):48
- 过滤率:22.6%
4. 对抗审查(噪声过滤)V2
采用负向过滤策略:
- 低噪声关键词(冠/冕/弁/帽/巾/衣/裳/袍/衫/裘/褐/袈裟/裙/裤/履/舄/靴/袜/鞋/笏/绶/绮/帛/绢/绫/纱/葛/棉/缯/缣/染/绣/黼/黻/赭等):几乎均为服饰语境,直接保留
- 高噪声关键词(青/色/丝/带/布/罗/锦/麻/佩/纹/紫/朱/绯等):排除已知非服饰复合词
- 青→排除"青山""青春""青云""青松"等约50个非服饰复合词
- 色→排除"景色""春色""月色""秋色"等约50个非服饰复合词
- 丝→排除"鬓丝""雨丝""游丝"等
- 带→排除"地带""一带""带雨""带霜"等非腰带用法
- 布→排除"宣布""分布"等非织物用法
- 罗→排除"星罗""罗列"等非织物用法
- 紫→排除"紫气""紫芝""紫烟"等非服色用法
- 朱→排除"朱门""朱楼""朱颜"等非服色用法
- 复合服饰词:衣冠/朝衣/道衣/霓裳/儒冠/纱帽/锦袍/赐服等直接保留
- 多服饰词共现:同一行含≥3个服饰相关字则判定为服饰语境
- 服饰上下文:高噪声字若与服/穿/著/戴/赐/朝/官/品/秩等词共现则保留
5. 输出文件
麟角集_服饰总结.md麟角集_服饰日志.md(本文件)麟角集_服饰原文.md
各轮次精筛行号
冠冕帽巾
7行:27, 39, 47, 75, 127, 131, 279
衣裳袍衫
21行:19, 23, 27, 39, 67, 83, 99, 103, 107, 123, 135, 143, 159, 179, 183, 191, 227, 231, 241, 243, 251
裙裤履鞋
5行:55, 83, 103, 179, 183
带佩笏绶
12行:47, 79, 83, 87, 115, 131, 147, 187, 239, 247, 251, 259
锦绮绢纱
21行:19, 23, 25, 27, 55, 59, 67, 83, 91, 111, 115, 135, 139, 143, 189, 191, 243, 259, 263, 267, 271
丝麻葛布
12行:23, 39, 55, 59, 63, 83, 123, 135, 159, 191, 243, 259
染色绣纹
28行:23, 27, 47, 55, 59, 63, 67, 75, 79, 83, 95, 111, 115, 127, 131, 139, 143, 147, 163, 167, 187, 191, 227, 231, 243, 251, 263, 267
赐服赐袍
0行: