《荷牐丛谈》服饰内容提取日志
基本信息
- 任务ID:14-d
- 源文件:
/home/z/my-project/upload/part4/荷牐丛谈.txt - 输出目录:
/home/z/my-project/upload/44output/荷牐丛谈/ - 处理时间:2026-03-05
处理流程
第一步:文件概况
wc -l /home/z/my-project/upload/part4/荷牐丛谈.txt
# 结果:861行
第二步:多轮grep提取
第一轮:制度词搜索
grep -n "服色|舆服|冠服|章服|赐服|赐紫|赐绯|借紫|品色|紫袍|绯袍|绿袍|金带|玉带|鱼袋|幞头|补服"
- 命中行:99(腰玉服蟒)、111(朝服冠带)、854(翼善冠蟒袍玉带)
第二轮:核心词搜索
grep -n "衣|裳|裘|冠|弁|佩|带|履|舄|笏|绶|冕|袍|衫|裙|袄|褐"
- 命中行众多,需人工甄别。排除"布衣"(平民)、"衣钵"(传承)、"衣冠"(泛指士大夫)等非服饰用法
- 有效命中:111(朝服冠带、释褐)、115-117(尚衣监、典服局、织染局、巾帽局)、143(袍笏)、203(冠带袭衣)、269(浣衣局、血裙)、277(褫衣廷杖、去衣受杖)、307(黄绢、敝衣)、309(布袍、葛、褐、绸、布、补缉)、319(红罗衣之)、327(僧牒衣具)、345(御衣)、353(衣冠被庭树)、487(墨缞)、547(袨服靓妆)、583(法服、衣红紫、绛纱帐)、854(翼善冠、蟒袍、玉带)
第三轮:织物词搜索
grep -n "帛|绢|绫|罗|缎|锦|绮|纱|绸|丝|布|葛|麻|棉|茧|蚕"
- 有效命中:121(绢十疋)、123(银绢、黄绢)、307(黄绢一疋)、309(布袍、葛、褐、绸或布)、319(红罗)、547(珠帘绣幙)、583(绛纱帐)
第四轮:装饰词搜索
grep -n "黼黻|文章|纹|绣|织|染|彩|画"
- 有效命中:115(织染局)、547(绣幙)、117(织染)、329(朝会图)
第五轮:动作词搜索
grep -n "服|冠|戴|穿|著|被|衣|披|裹|束|系"
- 命中极多(服、被、衣等字泛用广),与前面轮次交叉比对后,新增有效命中无
第三步:sed提取上下文
对以下关键行号执行 sed -n 'Xp' 提取完整段落:
- 99, 111, 115-117, 121-123, 143, 203, 269, 277, 307, 309, 319, 327, 345, 353, 487, 547, 583, 854
第四步:分类整理
将20条服饰相关内容分为三大类:
- 冠服制度与官服(6条)
- 服饰织物与材质(6条)
- 特殊服饰事件(8条)
第五步:产出文件
| 文件名 | 内容 | 大小限制 |
|---|---|---|
| 荷牐丛谈_总结.md | 分类总结、核心发现、文化特征 | ≤20KB |
| 荷牐丛谈_原文提取.md | 按类别收录原文片段 | ≤20KB |
| 荷牐丛谈_日志.md | 本文件,处理流程记录 | ≤20KB |
质量控制
- 未加载整本TXT进入LLM
- 先grep提取行号,再sed提取片段
- 服饰关键词使用内置词库
- 排除了"布衣"(平民)、"衣钵"(传承)、"衣冠"(泛指士大夫)等非服饰专指用法
- 每份MD ≤ 20KB
- 未偷懒简写批量合并
注意事项
- 《荷牐丛谈》为明末清初笔记,服饰内容偏重政治性事件,日常服饰记载较少
- "衣冠"一词在本书中大量出现,但多指"士大夫阶层"而非具体服饰,已谨慎甄别
- "墨缞"指丧服(黑色丧服),为古代丧礼服饰用语
- "释褐"为科举用语,指脱去布衣换着官服,含服饰转换之意