研究总结 日志 原文

《钦定蒙古源流》服饰提取工作日志

任务信息

步骤记录

步骤1:wc -l 统计文件行数

$ wc -l /home/z/my-project/upload/part4/钦定蒙古源流.txt
292 /home/z/my-project/upload/part4/钦定蒙古源流.txt

步骤2:多轮grep -n 提取服饰关键词

第一轮:核心词检索

关键词类 命中行数 备注
服色/舆服/冠服/章服 0 无命中,全书无系统舆服志
衣/裳/裘/冠/弁/佩/带/履/舄/笏/绶/冕 6行 行195/207/224/237/243/253
袍/衫/裙/袄/褐/帛/绢/绫/缎/锦/绮/纱/绸/丝/布 17行 大量为人名/地名误匹配
赐服/赐紫/赐绯/品色/紫袍/金带/玉带 0 全书无品色服制度记载

第二轮:装饰词检索

关键词 命中行数 备注
黼黻/文章 0 无命中
纹/绣/织/染/彩/画 6行 行180/195/207/224/243/253

第三轮:复合词精准检索

使用Python脚本对以下复合词进行精准检索并过滤人名/地名误匹配:

步骤3:误匹配过滤

需过滤的人名/地名误匹配(已排除)

误匹配模式 说明
博尔济锦 蒙古氏族名,"锦"非衣料义
济锦/哈济锦/鄂济锦 人名组成部分
布尔/布喇/布密/布施/布固/布丹/布隆/布哩/布勒/布克/布噶/公布/巴勒布/布哈 人名/地名,"布"非布料义
罗咱/郭罗/罗刹/罗洲/罗纳/阿罗汉/俄罗斯/郭尔罗 人名/地名/佛语
朱葛/达尔葛 人名
带领/带兵/带人/携带/佩带/带来/地带 "带"为动词非腰带义
必塔锦 人名/部族名
杭锦/土黙特杭锦 鄂尔多斯部族名

过滤后保留的有效条目:约40条

步骤4:分类整理

将有效条目按以下7类归整:

  1. 衣物类(15条)
  2. 冠帽类(3条)
  3. 裘皮类(5条)
  4. 丝帛织物类(7条)
  5. 甲胄武服类(5条)
  6. 靴履类(2条)
  7. 佩饰及其他(6条)

步骤5:产出3个MD文件

文件名 大小控制 内容
钦定蒙古源流_总结.md ≤20KB 分类表格、核心发现、方法说明
钦定蒙古源流_日志.md ≤20KB 本文件,工作步骤记录
钦定蒙古源流_原文提取.md ≤20KB 原文片段按类摘录

技术备注

  1. 本文件行极长(单行可达数万字符),cut -c截断会导致UTF-8断字错误,改用Python处理
  2. 人名/地名误匹配是本文件最大挑战,蒙古译名中大量包含"锦""布""罗"等字
  3. 全书无"舆服志"式系统记载,所有服饰信息均为叙事中零散出现
  4. rg -n对超长行输出过大,需配合Python做精细上下文提取与过滤