《钦定蒙古源流》服饰提取工作日志
任务信息
- Task ID: 30-d
- 输入文件:
/home/z/my-project/upload/part4/钦定蒙古源流.txt
- 输出目录:
/home/z/my-project/upload/44output/钦定蒙古源流/
- 执行时间: 2025年
步骤记录
步骤1:wc -l 统计文件行数
$ wc -l /home/z/my-project/upload/part4/钦定蒙古源流.txt
292 /home/z/my-project/upload/part4/钦定蒙古源流.txt
- 文件共292行,但每行极长(行180/195/207/224/237等均为数万字符的超长行)
- 文件为卷帙连续排版,无自然段落分割
步骤2:多轮grep -n 提取服饰关键词
第一轮:核心词检索
| 关键词类 |
命中行数 |
备注 |
| 服色/舆服/冠服/章服 |
0 |
无命中,全书无系统舆服志 |
| 衣/裳/裘/冠/弁/佩/带/履/舄/笏/绶/冕 |
6行 |
行195/207/224/237/243/253 |
| 袍/衫/裙/袄/褐/帛/绢/绫/缎/锦/绮/纱/绸/丝/布 |
17行 |
大量为人名/地名误匹配 |
| 赐服/赐紫/赐绯/品色/紫袍/金带/玉带 |
0 |
全书无品色服制度记载 |
第二轮:装饰词检索
| 关键词 |
命中行数 |
备注 |
| 黼黻/文章 |
0 |
无命中 |
| 纹/绣/织/染/彩/画 |
6行 |
行180/195/207/224/243/253 |
第三轮:复合词精准检索
使用Python脚本对以下复合词进行精准检索并过滤人名/地名误匹配:
- 红帛、白衣、衬衣、舞衣、貂裘、缨冠、锦绣、财帛、绫縀、缎绢、币帛、黄衣、黄帽、袈裟、重铠、铁甲、虎皮、衣袖、衣襟、顶纹、貂皮、穿白衣、盔甲、裹饰、穿青衣、托音衣、靴、帽、氊、毳毛、金鞍、银杯
步骤3:误匹配过滤
需过滤的人名/地名误匹配(已排除)
| 误匹配模式 |
说明 |
| 博尔济锦 |
蒙古氏族名,"锦"非衣料义 |
| 济锦/哈济锦/鄂济锦 |
人名组成部分 |
| 布尔/布喇/布密/布施/布固/布丹/布隆/布哩/布勒/布克/布噶/公布/巴勒布/布哈 |
人名/地名,"布"非布料义 |
| 罗咱/郭罗/罗刹/罗洲/罗纳/阿罗汉/俄罗斯/郭尔罗 |
人名/地名/佛语 |
| 朱葛/达尔葛 |
人名 |
| 带领/带兵/带人/携带/佩带/带来/地带 |
"带"为动词非腰带义 |
| 必塔锦 |
人名/部族名 |
| 杭锦/土黙特杭锦 |
鄂尔多斯部族名 |
过滤后保留的有效条目:约40条
步骤4:分类整理
将有效条目按以下7类归整:
- 衣物类(15条)
- 冠帽类(3条)
- 裘皮类(5条)
- 丝帛织物类(7条)
- 甲胄武服类(5条)
- 靴履类(2条)
- 佩饰及其他(6条)
步骤5:产出3个MD文件
| 文件名 |
大小控制 |
内容 |
| 钦定蒙古源流_总结.md |
≤20KB |
分类表格、核心发现、方法说明 |
| 钦定蒙古源流_日志.md |
≤20KB |
本文件,工作步骤记录 |
| 钦定蒙古源流_原文提取.md |
≤20KB |
原文片段按类摘录 |
技术备注
- 本文件行极长(单行可达数万字符),
cut -c截断会导致UTF-8断字错误,改用Python处理
- 人名/地名误匹配是本文件最大挑战,蒙古译名中大量包含"锦""布""罗"等字
- 全书无"舆服志"式系统记载,所有服饰信息均为叙事中零散出现
rg -n对超长行输出过大,需配合Python做精细上下文提取与过滤