《易氏族谱》服饰内容提取日志
基本信息
| 项目 | 内容 |
|---|---|
| 书名 | 易氏族谱 |
| 文件路径 | /home/z/my-project/upload/part3/易氏族谱.txt |
| 文件大小 | 2,078,506 字节(约2MB) |
| 总行数 | 16,767行 |
| 输出目录 | /home/z/my-project/upload/33output/易氏族谱/ |
提取过程
第一轮:grep关键词扫描
使用关键词词库分5组进行扫描:
| 组别 | 关键词 | 命中行数(去重前) |
|---|---|---|
| 第1组 | 衣、裳、裘、冠、冕、弁、佩、带、绶、笏、袍、褐 | 约75行 |
| 第2组 | 布帛、锦、绮、绢、绸、缎、绫罗、纱、丝绣、织染、裁缝 | 约50行 |
| 第3组 | 衮、章服、裙、袄、裤、履、舄、靴、鞋、帽、巾、幞、簪、钗、钿 | 约35行 |
| 第4组 | 环、珮、玉、金、银、珠、服色、冠服、舆服、赐服、朝服、公服、常服、丧服、祭服、冕服 | 约65行 |
| 第5组 | 蟒袍、补子、霞帔、凤冠、深衣、大带、革带、蔽膝、鱼袋、幞头、乌纱、顶戴、花翎、朝珠、铠甲 | 约25行 |
去重后有效命中行数:约130行(大量重复为世系人名中的"锦""玉""金"等,非服饰实义)
第二轮:噪声过滤
去除以下类型噪声行:
- 人名用字:"锦"出现在人名中(如锦辉、锦城、锦云、文锦、章锦、甲锦等),约40行非服饰实义
- 地名用字:"锦绣都"为长沙地名
- 通用词:"金"作金额/金属泛称,"玉"作比喻修辞
- 诗词修辞:"珠袍玉貌""玉树""玉笥"等文学意象
过滤后有效服饰条目行:约45行
第三轮:sed上下文提取
对关键行号提取上下文:
- 丧服制度核心段:行262-284(完整提取)
- 祭祀冠服要求:行172、234-240
- 人物传记服饰:行495-497、693、704、1023、1033
- 官服赐服:行479、485、658、1274、1339、1431-1512等
提取总字数:约35KB,控制在1MB以内
分类结果
| 分类 | 条目数 | 说明 |
|---|---|---|
| 冠服制度 | 12 | 丧服五服制度+祭祀冠服规范 |
| 日常服饰 | 8 | 布衣、裘、纨绮等日常穿着 |
| 冠帽头饰 | 6 | 麻冠、盖头、竹钗、花翎等 |
| 佩饰配件 | 7 | 紫金鱼袋、簪珥、花绶、环等 |
| 鞋履 | 5 | 草履、白布鞋、麻鞋、素履等 |
| 纺织材料 | 4 | 粗生麻布、白布、丝织物、纨绮等 |
| 服饰礼仪 | 5 | 祭祀冠服要求、丧服期限等 |
| 服饰故事 | 5 | 太初公化蛮俗、迪英抗辱、贞女衰绖等 |
| 合计 | 52 | — |
提取方法说明
- 严禁整本载入:文件2MB,仅通过grep定位+sed提取片段,未使用Read工具读取全文
- 多轮grep:分5组关键词扫描,确保覆盖词库
- 噪声识别:族谱中人名含"锦""玉""金"极多,需人工判断是否为服饰实义
- 上下文控制:每段提取不超过30行,总提取量约35KB远小于1MB上限
质量自检
| 检查项 | 结果 |
|---|---|
| 是否遗漏关键服饰内容 | 未发现明显遗漏,已覆盖5组关键词 |
| 噪声是否清除 | 人名中"锦""玉""金"等非服饰实义已过滤 |
| 是否虚构内容 | 否,所有条目均有原文行号对应 |
| 上下文提取是否完整 | 丧服制度完整提取,其余提取关键句段 |
| 文件大小是否合规 | 总结MD约7KB,远小于20KB上限 |