《曲目新编》服饰提取日志

基本信息

处理流程

1. 行数统计

wc -l 曲目新编.txt → 103行

文件较小,可直接全本grep。

2. 关键词grep(多轮)

3. 噪音过滤

条目 行号 过滤原因
"韩崇号履卿" L37 "履卿"为人名别号
"周绮号绿君" L55 "绮"为人名字
"哀丝急管" L41 "丝"指丝弦乐器
"旗亭画壁" L26/L38/L48 "旗亭"为地名(酒楼)
"碎花零锦" L45 "锦"为比喻用法,但仍保留因与裁缝相关

4. 有效服饰条目汇总

共提取有效服饰条目 38条,涉及关键词:

5. 剧名服饰词频统计

服饰词 出现次数(剧名中) 典型剧名
6 锦云裘、貂裘赚、御袍恩、郁轮袍、赐锦袍、绨袍赠
6 锦衣归、葛衣、曲春衣、彩衣欢、彩衣堂、衣珠
3 罗衫合、青衫、珍珠衫
3 玉簪、梅花簪、簪花髻
锦/绣 8 锦绣旗、赐绣旗、绣襦、绣被、锦带、锦云裘等
4 锦云裘、貂裘赚、狐裘、香裘

6. 输出文件

文件 大小
曲目新编_服饰提取_总结.md ~6KB
曲目新编_服饰提取_原文.md ~8KB
曲目新编_服饰提取_日志.md ~4KB

注意事项