《东南纪事》服饰内容提取日志
任务信息
| 项目 | 内容 |
|---|---|
| 输入文件 | /home/z/my-project/upload/11111/part1/东南纪事.txt |
| 文件大小 | 246,599 字节 |
| 文件行数 | 1,011 行 |
| 输出目录 | /home/z/my-project/upload/11output/东南纪事/ |
| 处理日期 | 2026-03-04 |
执行流程
第1步:文件验证
- 确认输入文件存在,246KB,1011行
- 创建输出目录
第2步:10轮grep关键词提取
| 轮次 | 关键词 | 命中行数 | 实质服饰行数 |
|---|---|---|---|
| 1 | 衣/裳/服/冠/冕/弁/袍/裘 | ~50行 | ~25行 |
| 2 | 巾/帽/帻/幞头/簪/缨 | ~8行 | ~6行 |
| 3 | 帛/绢/绫/罗/绸/缎/锦/绮/丝/麻/葛/褐 | ~15行 | ~5行 |
| 4 | 佩/笏/带/绶/鱼袋/玺/印 | ~40行 | ~6行 |
| 5 | 履/舄/鞋/靴/袜 | ~3行 | ~2行 |
| 6 | 舆服/服色/赐服/章服/冠服/品服/朝服/公服/祭服/丧服 | ~3行 | ~3行 |
| 7 | 绣/纹/黼/黻/章/染/织 | ~30行 | ~4行 |
| 8 | 裙/衫/袄/褐/帔/褙子/深衣/襕衫 | ~4行 | ~4行 |
| 9 | 进贤冠/武冠/貂蝉/笼巾/额子 | 0行 | 0行 |
| 10 | 衮/襦/裆/裈/袴/褶/裾/袂/衿/衽/领/袖/襟 | ~20行 | ~4行 |
合计:grep命中约173条行,经人工甄别后实质服饰信息约40条。
第3步:虚匹配剔除
主要剔除类型:
- "衣冠"指代士大夫阶层:约15处,如"衣冠相语以目"(行221)、"辽东衣冠之国"(行239)
- "布衣"指代平民:3处,行68/639/641
- "不服"意为不服从:3处,行892/929/953
- "带"为带领/带兵:约20处
- "印/玺"为印信:约8处
- "章"为章奏/文章:约10处
- "领"为统领/领兵:约8处
- "袖"为袖中藏物:2处(袖巨石、袖中砚、火绳袖中),非服饰描写
第4步:文档生成
| 文件 | 内容 |
|---|---|
| 东南纪事_原文提取.md | 40条服饰原文,按六大类编排,含行号、原文、服饰要素标注 |
| 东南纪事_总结.md | 分类析要、4项关键发现、5轮对抗式学术审查、学术价值总评 |
| 东南纪事_日志.md | 本文件,执行流程记录 |
关键发现摘要
- 殉节服饰的制度性:"正衣冠"殉节出现3次以上,形成服饰-礼仪-殉国三位一体叙事
- 网巾的民族认同意义(行606):全书史料价值最高的单条服饰信息
- 腰带等级伪替(行147):犀玉带被白石伪造,反映等级崩坏
- 南明行朝服饰双重性:衮冕仪典与俭朴禁令并存
方法论备注
- 严格遵守"严禁加载整本TXT"规则,全程使用ripgrep+sed提取
- 10轮grep覆盖全部关键词词库,第9轮零命中
- 人工甄别是最耗时的环节,grep命中的173条行中约77%为虚匹配
- 对抗式审查重点检验了5个风险点:过度解读、赐服可靠性、民族认同时代倒错、民谣真实性、样本代表性
数据统计
| 指标 | 数值 |
|---|---|
| 全书总行数 | 1,011 |
| grep总命中行 | ~173 |
| 虚匹配剔除 | ~133 |
| 实质服饰条目 | ~40 |
| 服饰信息密度 | 约3.95条/百行 |
| 核心高价值条目 | 4条(网巾、腰带伪替、蟒衣玉带、衮冕朝仪) |