研究总结 日志 原文

唐人万首绝句选 服饰提取日志

基本信息

五轮Grep统计

轮次 关键词类别 命中行数 说明
R1 核心词(衣裳裘冠冕弁帻巾帽佩玉带绶笏舄履靴袍衫裙褶袂襟领) 192行 数量大,含大量非服饰语境
R2 材质词(锦绮绢帛丝缎绫罗纱缟绸葛麻褐布绵茧) 81行 锦、罗、丝等分布广泛
R3 色彩纹饰(紫绯朱赭青绿白玄黄丹素绣纹章黼黻华) 301行 命中最多,绝大多数为非服饰用法
R4 制度词(服赐品色舆服章服冠服朝服祭服丧服常服加冠衮) 15行 命中少但精准度高
R5 配饰词(簪钗钿珰珥环镯鱼袋幞头云肩霞帔蔽膝芾韠佩鱼) 16行 部分为有效条目

筛选过程

二次过滤

对5轮结果进行高精度二次过滤(combined grep),使用具体服饰词组:

三次补充过滤

使用更细化的服饰相关词:

有效服饰条目统计(约70条)

去除的典型误判项

  1. "衣带缓"中"衣带"为有效条目,但"带"在"一带春""带角收"中非服饰 → 排除
  2. "玉阶""玉门关""玉楼"等含"玉"但为建筑/地名 → 排除
  3. "玉笛""玉箫""玉琴"等含"玉"但为乐器 → 排除
  4. "紫""青""白"等色彩词大量为景物描写 → 逐条审查
  5. "赐酒""赐珍珠"等"赐"字非赐服 → 排除