《金陵琐事》服饰提取日志
任务信息
| 项目 | 内容 |
|---|---|
| 任务ID | 31-d |
| 输入文件 | /home/z/my-project/upload/part4/金陵琐事.txt |
| 输出目录 | /home/z/my-project/upload/44output/金陵琐事/ |
| 文件行数 | 2148行 |
| 文件大小 | 222,668字节(约217KB) |
提取过程
第一步:wc -l 统计
$ wc -l 金陵琐事.txt
2148 金陵琐事.txt
$ ls -la 金陵琐事.txt
-rwxrwxrwx 1 z z 222668
第二步:多轮grep -n检索
第1轮:核心词+制度词
关键词:服色|舆服|冠服|章服|赐服|赐紫|赐绯|借紫|品色|紫袍|绯袍|绿袍|金带|玉带|鱼袋|幞头|补服|黼黻
命中:2条(行450金带、行1351金带)
第2轮:衣冠佩带类
关键词:冠|弁|冕|袍|衫|裙|袄|褐|裘|佩|带|履|舄|笏|绶
命中:大量(含诗引用词),筛选后有效约25条
第3轮:织物材料类
关键词:帛|绢|绫|罗|缎|锦|绮|纱|绸|丝|布|葛|麻|棉|茧|蚕
命中:大量(含诗引用词),筛选后有效约15条
第4轮:装饰动作类
关键词:文章|纹|绣|织|染|彩|画
命中:极大量("画"字出现极多,多指绘画非服饰),筛选后有效约5条
第5轮:穿着动作词
关键词:穿|著|被|披|裹|束|系|戴
命中:约20条,筛选后有效约8条
第6轮:特定制度词补充
关键词:衣冠|巾服|小帽|白袷|冠带|幞头|笏|补服
命中:6条(行194、702、994、1012、1077、1435、2098)
第三步:sed提取原文片段
按行号逐一提取上下文(前后各1-4行),共提取约30段原文,涉及行号如下:
16-18, 108, 192-198, 244-248, 340-344, 394-400, 402-406, 408-424, 416-420, 448-452, 624-628, 700-704, 714-718, 992-998, 1010-1014, 1019-1023, 1027-1031, 1035-1039, 1053-1059, 1059-1063, 1075-1079, 1285-1289, 1349-1353, 1387-1391, 1433-1437, 1493-1497, 1631-1635, 1649-1653, 1699-1703, 1707-1711, 1727-1731, 1737-1743, 1864-1868, 2010-2014, 2068-2072, 2082-2088, 2096-2104
第四步:分类整理
将提取内容按六类整理:
- 官服制度与赐服(6条)
- 日常便服与隐逸服饰(8条)
- 僧道服饰(5条)
- 妇女与名妓服饰(9条)
- 衣料织物与工艺(14条)
- 服饰装饰与配件(7条)
第五步:产出3个MD文件
| 文件名 | 内容 | 估算大小 |
|---|---|---|
| 金陵琐事_总结.md | 分类总结分析 | ~8KB |
| 金陵琐事_日志.md | 本文件,提取过程记录 | ~5KB |
| 金陵琐事_原文提取.md | 按类编排的原文片段 | ~15KB |
剔除说明
以下类型的匹配结果被判定为非服饰相关,予以剔除:
- 诗歌用典中的虚指:如"空翠袭衣""侵衣树色"等仅为诗歌修辞
- "画"字大量命中:本书有大量画品条目,"画"字出现极多,仅保留与服饰直接相关者(法被绣像等)
- "文章"非服饰义:如"五大部文章"等非黼黻文章之义
- "带"字的非服饰用法:如"带雨""带愁""带酒"等动词用法
- "丝"字的非织物用法:如"钓丝""柳丝"等
- "布"字的非服饰用法:如"布施""布衣"仅指平民身份
质量检查
- 3个MD文件均≤20KB
- 未加载整本TXT进LLM
- 逐条grep+sed提取,未偷懒简写
- 分类清晰,原文完整
- 命名规范:金陵琐事_总结.md、金陵琐事_日志.md、金陵琐事_原文提取.md