研究总结 日志 原文

《金陵琐事》服饰提取日志

任务信息

项目 内容
任务ID 31-d
输入文件 /home/z/my-project/upload/part4/金陵琐事.txt
输出目录 /home/z/my-project/upload/44output/金陵琐事/
文件行数 2148行
文件大小 222,668字节(约217KB)

提取过程

第一步:wc -l 统计

$ wc -l 金陵琐事.txt
2148 金陵琐事.txt
$ ls -la 金陵琐事.txt
-rwxrwxrwx 1 z z 222668

第二步:多轮grep -n检索

第1轮:核心词+制度词

关键词:服色|舆服|冠服|章服|赐服|赐紫|赐绯|借紫|品色|紫袍|绯袍|绿袍|金带|玉带|鱼袋|幞头|补服|黼黻
命中:2条(行450金带、行1351金带)

第2轮:衣冠佩带类

关键词:冠|弁|冕|袍|衫|裙|袄|褐|裘|佩|带|履|舄|笏|绶
命中:大量(含诗引用词),筛选后有效约25条

第3轮:织物材料类

关键词:帛|绢|绫|罗|缎|锦|绮|纱|绸|丝|布|葛|麻|棉|茧|蚕
命中:大量(含诗引用词),筛选后有效约15条

第4轮:装饰动作类

关键词:文章|纹|绣|织|染|彩|画
命中:极大量("画"字出现极多,多指绘画非服饰),筛选后有效约5条

第5轮:穿着动作词

关键词:穿|著|被|披|裹|束|系|戴
命中:约20条,筛选后有效约8条

第6轮:特定制度词补充

关键词:衣冠|巾服|小帽|白袷|冠带|幞头|笏|补服
命中:6条(行194、702、994、1012、1077、1435、2098)

第三步:sed提取原文片段

按行号逐一提取上下文(前后各1-4行),共提取约30段原文,涉及行号如下:

16-18, 108, 192-198, 244-248, 340-344, 394-400, 402-406, 408-424, 416-420, 448-452, 624-628, 700-704, 714-718, 992-998, 1010-1014, 1019-1023, 1027-1031, 1035-1039, 1053-1059, 1059-1063, 1075-1079, 1285-1289, 1349-1353, 1387-1391, 1433-1437, 1493-1497, 1631-1635, 1649-1653, 1699-1703, 1707-1711, 1727-1731, 1737-1743, 1864-1868, 2010-2014, 2068-2072, 2082-2088, 2096-2104

第四步:分类整理

将提取内容按六类整理:

  1. 官服制度与赐服(6条)
  2. 日常便服与隐逸服饰(8条)
  3. 僧道服饰(5条)
  4. 妇女与名妓服饰(9条)
  5. 衣料织物与工艺(14条)
  6. 服饰装饰与配件(7条)

第五步:产出3个MD文件

文件名 内容 估算大小
金陵琐事_总结.md 分类总结分析 ~8KB
金陵琐事_日志.md 本文件,提取过程记录 ~5KB
金陵琐事_原文提取.md 按类编排的原文片段 ~15KB

剔除说明

以下类型的匹配结果被判定为非服饰相关,予以剔除:

  1. 诗歌用典中的虚指:如"空翠袭衣""侵衣树色"等仅为诗歌修辞
  2. "画"字大量命中:本书有大量画品条目,"画"字出现极多,仅保留与服饰直接相关者(法被绣像等)
  3. "文章"非服饰义:如"五大部文章"等非黼黻文章之义
  4. "带"字的非服饰用法:如"带雨""带愁""带酒"等动词用法
  5. "丝"字的非织物用法:如"钓丝""柳丝"等
  6. "布"字的非服饰用法:如"布施""布衣"仅指平民身份

质量检查