研究总结 日志 原文

花木鸟兽集类·处理日志

基本信息

处理流程

第1步:文件大小确认

wc -c → 187803字节(约188KB)

确认大文件,必须使用grep+sed定位提取。

第2步:5轮grep -n搜索

轮次 搜索关键词 命中行数 说明
第1轮 衣裳服冠帽巾带履鞋袜裘袍裙袂衿襟 约60行 衣、冠、帽、裙、裘等散见
第2轮 丝帛绢锦绮绫罗缎纱绸麻葛布绵毡褐裘 约80行 锦、罗、纱、布、毡等大量出现
第3轮 舆服冠服章服服色品服命服朝服祭服丧服吉服 0行 无制度性服饰术语
第4轮 佩玉笏簪钗钏环珮鱼袋幞头 约8行 簪、环、佩等零星出现
第5轮 织染绣裁缝缫纺练煮 约16行 织、绣、染等工艺词汇

第3步:sed提取上下文

对命中的关键行号,使用sed -n提取完整行内容,共提取约60行。

第4步:噪音过滤

过滤掉以下类型内容:

第5步:对抗式审查

第6步:产出3份MD

  1. 花木鸟兽集类_原文提取.md — 约40条服饰原文,分6大类
  2. 花木鸟兽集类_总结.md — 分类总览与史料价值评估
  3. 花木鸟兽集类_日志.md — 本文件

特殊说明