研究总结 日志 原文

须溪集 服饰提取日志

基本信息

提取流程

第1步:wc -l 统计

第2步:8轮grep -n 关键词提取

轮次 关键词 初筛行数
1 冠冕弁帻帽巾幞头进贤冠武冠 约32行
2 衣裳袍衫袄褂襦褐裘袈裟 约48行
3 裙裤履舄靴袜鞋 约22行
4 带佩笏绶鱼袋玉带金带银带 约38行
5 锦绮帛绢绫罗缎绸缂丝纱 约24行
6 丝麻葛布裘棉缯缣 约28行
7 染色绣纹黼黻章赭朱紫绯青 约40行(含大量非服饰色彩用例)
8 赐服赐衣赐紫赐绯赐袍赐带 约2行

第3步:合并去重

第4步:对抗审查(排除非服饰用例)

排除类型及数量:

  1. "色"字非服饰用例(约15行):如"光色""天色""春色""月色""角色"等纯颜色/景色描写
  2. "衣"字非服饰用例(约8行):如"衣税"(赋税)、"衣食"泛指生计
  3. "丝"字非服饰用例(约6行):如"牵丝"(傀儡)、"一丝"(数量)
  4. "青"字非服饰用例(约10行):如"青青"(植物)、"青春"(年龄)
  5. "带"字非服饰用例(约12行):如"地带""带江""带岭峤""带月"等地理/携带义
  6. "衣冠"作阶层代称(约8行):保留并标注为"阶层象征义"
  7. "履"字非服饰用例(约5行):如"履行""履历"(动词义)
  8. "纹"字非服饰用例(约3行):如"水纹"等自然纹理
  9. "紫""朱"等非服饰用例(约6行):如"紫微""朱氏"(姓氏/星名)

审查后确认服饰行:约68行

第5步:分类汇总

第6步:写入三份MD

难点与说明

  1. "衣冠"高频出现但多为阶层代称:须溪集中"衣冠"一词近半数指代士绅阶层而非具体服饰,已分别标注
  2. 词作中服饰描写较散:词中偶见"裙带""袜""红衫"等,但多为写景抒情之笔
  3. 礼制服饰集中学记:衮衣、冕服、佩玉、赤舄等集中在学记、祠记类文章
  4. 第7轮"色""青""紫"误报极多:因含大量景色、姓名用例,经审查大幅削减