《钦定八旗通志》服饰提取日志
基本信息
| 项目 |
内容 |
| 书名 |
钦定八旗通志 |
| 文件路径 |
/home/z/my-project/upload/zhengshu/政书/钦定八旗通志.txt |
| 文件大小 |
7,956,381字节(约7.9MB) |
| 总行数 |
67,377行 |
| 文件编码 |
UTF-8(超长行,最长达677字符) |
| 输出目录 |
/home/z/my-project/upload/政书重制output/钦定八旗通志/ |
| 词库版本 |
rysxguji/references/fushi-keywords.md |
提取过程
第1轮:核心服饰词全搜
执行命令:grep -cE 分8批次搜索核心服饰词
关键发现:ripgrep (rg) 默认跳过超长行,导致首次多关键词搜索返回0命中。改用 grep -cE 后正常返回。
| 批次 |
词类 |
命中行数 |
| 1 |
首服(冠冕弁巾帻幞头帽盔胄缨簪钗等) |
1006 |
| 2 |
体服(衣裳袍衫襦袄褐裘氅褂等) |
1572 |
| 3 |
下服+足服(裙裤裈蔽膝袴履舄靴鞋袜等) |
142 |
| 4 |
腰带佩饰(带革带玉带佩珮鱼袋笏绶翎等) |
836 |
| 5 |
礼服(衮服章服朝服公服常服吉服赐服等) |
51 |
| 6 |
衣料(丝帛绢绸缎绫罗锦绮纱缂丝布等) |
6600 |
| 7 |
染色纹样(染绣纹黼黻蟒飞鱼仙鹤麒麟等) |
217 |
| 8 |
制度动作词(赐服赐紫僭逾制违式品色等) |
43 |
第2轮:制度动作词搜索
制度动作词命中43行,主要分布:
- 僭越相关:25392行(官员顶带补服坐褥俱照品级等差毋许僭越)
- 赐服相关:26366-26371行(赐四团龙补服)
- 服制相关:16767行(旗下服制)
第3轮:组合扩展词搜索
按需搜索清代特有组合词:
- "顶戴/花翎/蓝翎"→命中极多(侍卫官制中大量出现"蓝翎侍卫"等)
- "蟒袍补服"→命中集中于典礼仪式记载
服饰内容定位
集中卷次
| 卷次 |
典礼志 |
主题 |
起止行 |
| 卷八十三 |
典礼志六 |
八旗军礼 |
16053-16294 |
| 卷八十四 |
典礼志七 |
八旗冠服 |
16295-16388 |
| 卷八十五 |
典礼志八 |
八旗婚礼 |
16391-16462 |
分散内容
| 主题 |
行号范围 |
说明 |
| 盔甲制度 |
7008-7016 |
武备志·盔制甲制 |
| 赐四团龙补服 |
26366-26371 |
傅恒传·赐服谕旨 |
| 旗人服饰禁令 |
2171, 2244, 2270 |
雍正谕禁奢 |
| 丧服制度 |
16767-16770 |
康熙十二年定服制 |
| 仪仗服饰 |
15683 |
康熙元年定执事人服色 |
| 蟒袍补服行礼 |
16071-16240 |
军礼仪式中的服饰 |
误命中文本处理
排除项(按词库排除规则表执行)
| 关键词 |
误命中场景 |
处理 |
| 冠 |
"冠军""冠绝"(非服饰义) |
排除 |
| 服 |
"服从""服药""服丧"(非服饰义) |
排除,但"服丧"涉及丧服制度则保留 |
| 带 |
"带领""地带"(非腰带义) |
排除 |
| 佩 |
"钦佩""敬佩"(非佩饰义) |
排除 |
| 环 |
"环境"(非首饰义) |
排除 |
| 麻 |
"麻制"=翰林诏书 |
排除 |
| 罗 |
"罗列""星罗棋布" |
排除 |
| 锦 |
"锦州"地名 |
排除 |
| 蓝 |
"蓝翎侍卫"(官职名,非直接服饰) |
保留——蓝翎为清代帽饰制度核心构件 |
| 衣 |
"推衣解食"比喻 |
视语境——本书中此比喻未出现 |
保留项说明
| 关键词 |
保留理由 |
| 蓝翎侍卫 |
蓝翎为孔雀翎的一种,属清代冠服翎子制度 |
| 衣冠 |
虽为代指士大夫,但在"衣冠不可轻变"语境中直接关联服饰制度 |
| 甲胄 |
军事服饰的核心组成 |
| 旗纛 |
八旗色辨制度与旗人服饰文化密切相关 |
提取统计
| 产出文件 |
大小 |
主题数 |
原文段落数 |
| 钦定八旗通志_原文提取.md |
18.9KB |
9大主题 |
约60段 |
| 钦定八旗通志_总结.md |
7.6KB |
5大板块 |
— |
| 钦定八旗通志_日志.md |
本文件 |
— |
— |
技术备注
- ripgrep超长行问题:本书为四库全书本,单行极长(最长达677字符),ripgrep默认跳过长行导致多关键词搜索返回0。解决:改用
grep -cE 或 rg --max-columns 0。
- 异体字处理:原文中"縀"为"缎"的异体,"防"在某些语境中为"护"的异体(如"防肩"="护肩"),"鐡"为"铁"的异体。提取时保持原文用字。
- 大文件策略:7.9MB/67377行,全程使用grep+sed定位提取,未一次性载入全文。
- 头200行限流:所有grep输出均通过head限制显示行数,避免终端溢出。
对抗式审查记录
审查项1:遗漏检查
| 检查内容 |
结果 |
| 是否遗漏"兵丁冠服"专条 |
✅ 卷八十四标题含"官员兵丁冠服"但原文中兵丁冠服仅散见于盔甲制度,已提取 |
| 是否遗漏"冠服通例" |
✅ 已提取,即崇德/雍正/乾隆谕旨部分 |
| 是否遗漏"八旗军礼"中的服饰 |
✅ 已提取蟒袍补服行礼相关段落 |
| 是否遗漏外藩婚娶服饰 |
✅ 已在婚礼服饰中包含"娶外藩"各等级衣饰 |
审查项2:误收检查
| 检查内容 |
结果 |
| "蓝翎侍卫"是否误收 |
❌ 非误收——蓝翎为清代翎子制度核心,保留 |
| "防军"是否误收为"防+军" |
❌ "防军"为"护军"异体写法,非"防"+服饰词 |
| "旗纛"是否属服饰 |
⚠️ 旗纛为军事标识,与八旗色辨制度相关,属于广义服饰文化,保留于盔甲制度部分 |
审查项3:越界检查
| 检查内容 |
结果 |
| 原文提取是否超过20KB |
✅ 18.9KB,合规 |
| 总结是否超过20KB |
✅ 7.6KB,合规 |
| 日志是否超过20KB |
✅ 本文件,合规 |
| 是否载入整本 |
✅ 否,全程grep+sed片段提取 |
审查项4:内容质量
| 检查内容 |
结果 |
| 品级冠服链是否完整 |
✅ 亲王→奉恩将军→闲散宗室,链路完整 |
| 女性冠服等级是否完整 |
✅ 固伦公主→乡君,东珠十至四颗 |
| 补子纹样是否完整 |
✅ 麒麟→狮→豹→虎,四品武职系列 |
| 守旧谕旨是否完整 |
✅ 崇德→雍正→乾隆,五道谕旨 |
日志记录完毕。