研究总结 日志 原文

增注唐策 服饰提取日志

基本信息

步骤一:文件统计

步骤二:五轮Grep检索

第1轮:核心词检索

第2轮:材质检索

第3轮:色彩纹饰检索

第4轮:制度检索

第5轮:配饰检索

步骤三:Sed提取

步骤四:筛选

步骤五:分类整理

步骤六:输出

遇到的问题

  1. 文件编码问题:部分字节超出UTF-8范围,导致rg报错,改用兼容模式
  2. 单行极长:策论文本连续排列,单行可达数万字节,影响检索效率
  3. "服"字歧义:出现频率极高但多非服饰义,需逐条判断
  4. 注文与正文混排:增注以【崇曰】【李曰】等嵌入正文,提取时需区分