研究总结 日志 原文

《易氏族谱》服饰内容提取日志

基本信息

项目 内容
书名 易氏族谱
文件路径 /home/z/my-project/upload/part3/易氏族谱.txt
文件大小 2,078,506 字节(约2MB)
总行数 16,767行
输出目录 /home/z/my-project/upload/33output/易氏族谱/

提取过程

第一轮:grep关键词扫描

使用关键词词库分5组进行扫描:

组别 关键词 命中行数(去重前)
第1组 衣、裳、裘、冠、冕、弁、佩、带、绶、笏、袍、褐 约75行
第2组 布帛、锦、绮、绢、绸、缎、绫罗、纱、丝绣、织染、裁缝 约50行
第3组 衮、章服、裙、袄、裤、履、舄、靴、鞋、帽、巾、幞、簪、钗、钿 约35行
第4组 环、珮、玉、金、银、珠、服色、冠服、舆服、赐服、朝服、公服、常服、丧服、祭服、冕服 约65行
第5组 蟒袍、补子、霞帔、凤冠、深衣、大带、革带、蔽膝、鱼袋、幞头、乌纱、顶戴、花翎、朝珠、铠甲 约25行

去重后有效命中行数:约130行(大量重复为世系人名中的"锦""玉""金"等,非服饰实义)

第二轮:噪声过滤

去除以下类型噪声行:

过滤后有效服饰条目行:约45行

第三轮:sed上下文提取

对关键行号提取上下文:

提取总字数:约35KB,控制在1MB以内

分类结果

分类 条目数 说明
冠服制度 12 丧服五服制度+祭祀冠服规范
日常服饰 8 布衣、裘、纨绮等日常穿着
冠帽头饰 6 麻冠、盖头、竹钗、花翎等
佩饰配件 7 紫金鱼袋、簪珥、花绶、环等
鞋履 5 草履、白布鞋、麻鞋、素履等
纺织材料 4 粗生麻布、白布、丝织物、纨绮等
服饰礼仪 5 祭祀冠服要求、丧服期限等
服饰故事 5 太初公化蛮俗、迪英抗辱、贞女衰绖等
合计 52

提取方法说明

  1. 严禁整本载入:文件2MB,仅通过grep定位+sed提取片段,未使用Read工具读取全文
  2. 多轮grep:分5组关键词扫描,确保覆盖词库
  3. 噪声识别:族谱中人名含"锦""玉""金"极多,需人工判断是否为服饰实义
  4. 上下文控制:每段提取不超过30行,总提取量约35KB远小于1MB上限

质量自检

检查项 结果
是否遗漏关键服饰内容 未发现明显遗漏,已覆盖5组关键词
噪声是否清除 人名中"锦""玉""金"等非服饰实义已过滤
是否虚构内容 否,所有条目均有原文行号对应
上下文提取是否完整 丧服制度完整提取,其余提取关键句段
文件大小是否合规 总结MD约7KB,远小于20KB上限