《六十种曲千金记》服饰提取日志
基本信息
| 项目 | 内容 |
|---|---|
| 输入文件 | /home/z/my-project/upload/剧曲/剧曲/六十种曲千金记.txt |
| 输出目录 | /home/z/my-project/upload/剧曲output/六十种曲千金记/ |
| 文件行数 | 1035行 |
| 处理时间 | 2026-03-05 |
| 文件大小 | 输出三份MD,每份≤20KB |
提取流程
第一轮:wc -l 行数确认
- 命令:
wc -l 六十种曲千金记.txt - 结果:1035行
- 评估:文件规模适中,可直接全文处理
第二轮:多轮关键词grep
轮次1:基础服饰词(衣裳冠带袍裘褐巾履屦绅袂裾襟裙幅弁冕簪珥佩环)
- 命令:
grep -n '衣裳|冠带|袍|裘|褐|巾|履|屦|绅|袂|裾|襟|裙|幅|弁|冕|簪|珥|佩|环' - 命中行数:约20行
- 主要发现:衣锦(8次)、袍(8次)、裘(3次)、裙(3次)、佩/环(5次)、袂(2次)、襟裾(1次)
轮次2:织物材质词(绮罗纱绢帛锦绣练絮布麻丝绸缎缯绫纨绡绶绂黼黻)
- 命令:
grep -n '绮|罗|纱|绢|帛|锦|绣|练|絮|布|麻|丝|绸|缎|缯|绫|纨|绡|绶|绂|黼|黻' - 命中行数:约45行
- 主要发现:锦(15+次)、布(12+次)、絮(6次)、绮罗(3次)、绫罗/绢帛(3次)
轮次3:旗帜帷帐词(鹖帻帷帐幄旗旌旆纛)
- 命令:
grep -n '鹖|帻|帷|帐|幄|旗|旌|旆|纛' - 命中行数:约18行
- 主要发现:旌旗(15+次)、旗纛(1次)、帐(5次)、旌斾(1次)
轮次4:扩展军戎服饰词(兜鍪/盔甲/甲胄/披挂/战袍/征袍等)
- 命令:
grep -n '兜鍪|盔甲|甲胄|披挂|战袍|征袍|霞帔|凤冠|鲛绡|蓑衣|罗襕|纶巾|冠带|纱帽|头巾|蟒衣' - 命中行数:约12行
- 主要发现:兜鍪(3次)、盔甲(2次)、甲胄(1次)、征袍/战袍(5次)、霞帔凤冠(1次)、纶巾(1次)
轮次5:官服仪礼词(玉带/金印/官诰/红裙/绛裙等)
- 命令:
grep -n '玉带|金印|官诰|鸾诰|红裙|绛裙|裙幅|衣衫|衣锦|布衣|锦衣|韦布' - 命中行数:约30行
- 主要发现:衣锦(8次)、锦衣(6次)、布衣(3次)、韦布(1次)
轮次6:女性妆饰词(红妆/梳掠/香奁/晓妆/菱花/鸦翅/鬓/钗)
- 命令:
grep -n '红妆|梳掠|香奁|晓妆|菱花|鸦翅|鬓|钗|玉带|金锁铠|铁兜鍪|宫袍|昼锦|玉印' - 命中行数:约15行
- 主要发现:钗(2次)、鬓(6次)、红妆(2次)、菱花(1次)
第三轮:噪音过滤
已过滤的噪音项:
| 类型 | 原文 | 过滤原因 |
|---|---|---|
| 曲牌名 | 皂罗袍 | 曲牌名,非服饰 |
| 曲牌名 | 红衲袄 | 曲牌名,非服饰 |
| 曲牌名 | 破阵子 | 曲牌名,非服饰 |
| 曲牌名 | 锦堂犯画眉序 | 曲牌名,非服饰 |
| 曲牌名 | 滚绣球 | 曲牌名,非服饰 |
| 比喻用法 | 锦绣粱肉 | 比喻,非实指服饰 |
| 通假/俗语 | 絮叨叨 | 絮为絮叨义,非絮衣 |
| 通假/俗语 | 絮刮 | 絮为絮叨义 |
| 非服饰 | 丝纶(钓线) | 丝纶指钓线/纶线,非服饰布料 |
| 非服饰 | 绸缪 | 绸缪为情意缠绵义,非绸缎 |
| 非服饰 | 衣饭 | 衣饭指生计,非具体衣饰 |
| 通用语 | 锦绣裹旗鎗 | 军旗装饰,已归入旌旗类 |
第四轮:整理分类
将提取结果按以下维度分类:
- 贫贱布衣类:布衣、布袍、韦布、衣衫蓝缕、破损衣衫
- 军旅甲胄类:盔甲、征袍、战袍、兜鍪、铁甲、金锁铠、甲胄
- 功成锦衣类:锦衣、锦袍、宫袍、衣锦、紫罗襕、绯罗紫绶
- 女性服饰类:裙钗、红裙、绛裙、霞帔凤冠、佩环、钗
- 织物材料类:布疋、布帛绵絮、绫罗、绢帛、丝麻、絮
- 仪仗旗帜类:旌旗、旗纛、旌斾、帐幕
- 配饰类:玉带、纶巾、瑶环、鲛绡、裘
输出文件清单
| 文件名 | 大小 | 内容 |
|---|---|---|
| 六十种曲千金记_总结.md | ~8KB | 服饰主题分析、统计、特色 |
| 六十种曲千金记_原文提取.md | ~12KB | 按出目编排的原文摘录 |
| 六十种曲千金记_日志.md | ~6KB | 提取流程与过滤记录 |
质量检查
- 总输出≤1M
- 每份MD≤20KB
- 关键词覆盖全部词库
- 噪音已过滤
- 原文保留上下文
- 标注行号与关键词