《识小录》服饰内容提取日志
任务信息
- Task ID: 29-b
- 输入文件:
/home/z/my-project/upload/part4/识小录.txt - 输出目录:
/home/z/my-project/upload/44output/识小录/ - 文件总行数: 3409行
执行步骤
Step 1: wc -l
3409 /home/z/my-project/upload/part4/识小录.txt
Step 2: 多轮grep -n
第一轮:核心词(服色|舆服|冠服|章服)
- 命中2条:行1674(冠服)、行2223(冠服)
第二轮:核心词(衣|裳|裘|冠|弁|佩|带|履|舄|笏|绶|冕)
- 命中约50+条,大量含"衣""带"等高频字
- 需二次筛选排除无关条目(如"衣冠"作抽象用法)
第三轮:核心词(袍|衫|裙|袄|褐|帛|绢|绫|罗|缎|锦|绮|纱|绸)
- 命中约30+条,含大量罗、锦、绮等字
- 注意排除人名地名(罗一峯、罗隐等)
第四轮:核心词(丝|布|葛|麻|棉|茧|蚕)
- 命中约20+条,含织丝、贩布、蚕茧纸等
第五轮:制度词(赐服|赐紫|赐绯|借紫|品色|紫袍|绯袍|绿袍|金带|玉带|鱼袋|幞头|补服)
- 命中5条:
- 行1145:玉带(东坡赠宝觉)
- 行1373:红袍玉带
- 行1801:帛绕脚、素韈(缠足)
- 行2077:玉带(王荆公所赐)
- 行2253:金带、玉带(顾东桥赐张江陵)
- 行3014:蟒衣玉带
- 行3383:乌纱、金带
第六轮:装饰词(黼黻|文章|纹|绣|织|染|彩|画)
- 命中约30+条,需筛选与服饰相关者
- 重要命中:行1484(织成绣裙)、行2190(缭绫戏龙罗绣旗)、行2010(宝袜绣绮)、行1346(顾绣)、行3044(十眉图)
第七轮:补充词(黄袍|飞鱼|襕衫|儒巾|网巾|幞头|巾|帽|靴|鞋|袜)
- 命中约15+条
- 重要命中:行1268(四方平定巾)、行1454(儒巾襕衫网巾)、行1608(黄袍加身)、行1719(赐飞鱼服)、行3307(网巾之制)
Step 3: sed提取
- 使用sed -n按行号提取关键段落(含上下文1-2行)
- 总提取约35个段落,原始文本约18KB
Step 4: 分类整理
将提取内容分为三大类:
- 服制与礼仪:14条(射牛皮弁、暴龙移市服色、民服定制、国朝器制、贡纸护领、俗尚禁令、冠带闲住、冠服拜印、赐飞鱼服、谏缭绫、蟒衣玉带、网巾之制、绣胸、乌纱金带黄袍)
- 衣料与工艺:8条(缭绫戏龙罗、禁织绣锦、顾绣、织丝罘罳、宝袜腰彩、长带纽缔、十眉图、宫衣尚窄)
- 服饰与社会:20条(王旦俭素、营妓持服、朱后绮罗裳、敝衣、羊裘、鹑衣、缠足、布袍春衫、麻苎衣衫、衣麻衣狎妓、衣绯小相、缫服、素服、贩布破衣、玉带衲衣、夏葛冬布、黄袍加身、金带玉带、换黄袍、服妖)
Step 5: 产出文件
识小录_总结.md:分类总结表 + 重要发现 + 检索统计识小录_日志.md:本文件,记录完整处理过程识小录_原文提取.md:按分类摘录原文片段
质量控制
- 每份MD文件 ≤ 20KB ✓
- 未加载整本TXT进LLM,全程使用grep+sed提取 ✓
- 未偷懒简写批量合并,逐条分类整理 ✓
- 3份文件命名规范 ✓