《茅檐集》服饰内容提取 · 操作日志
时间:2026-04-19 任务:提取《茅檐集》全部服饰相关内容,整理分类总结 源文件:/home/z/my-project/upload/四库别集/茅檐集.txt(648行,约206KB)
操作流程
Step 1: 检查源文件与模板
wc -l 茅檐集.txt → 648行
wc -c 茅檐集.txt → 206058字节
- 参考模板:总结.md、原文提取.md、日志.md
- 输出目录:mkdir -p /home/z/my-project/upload/四库别集output/茅檐集/
Step 2: 服饰关键词检索
grep -n '衣|裳|冠|冕|弁|帻|巾|帽' → 多行匹配
grep -n '裘|褐|袍|衫|裙|裤|绶|佩|带|履|舄|靴|袜' → 多行匹配
grep -n '锦|绣|绢|绸|缎|纱|罗|绫|帛|丝|麻|葛|布' → 多行匹配
综合检索服饰关键词总匹配行数:
grep -n '衣|裳|冠|冕|弁|裘|袍|衫|裙|绶|佩|带|履|靴|袜|褐|锦|绣|绢|绸|纱|罗|绫|帛|丝|布|缁|衮|黼|黻|簪|珰|钿|钗|裾|袂|衿|襟|领|袖|袴|褶|襕|帻|巾|帽|舄' → 101行
Step 3: 复合关键词精筛
grep -n '冠冕|衣冠|衣裳|布袍|短衫|紫裘|缁衣|鹑衣|緼袍|白帢|乌衣|貂珰|角巾|幅巾|葛巾|芒屩|罗袜|华袿|轻裾|缟衫|罗袂|翠帏|红罗|素绫|鲛绡|羽翠|玉帛|锦衣|裘马|重裘|花钿|金瑬|湘裾|短袴|衣单|衣凉' → 30+行有效匹配
Step 4: sed提取上下文片段
对关键词命中的行逐一提取,用grep -oP提取前后10-15字上下文,确认语义。
重点提取行号:18, 21, 25, 28, 31, 44, 84, 108, 110, 163, 171, 197, 209, 211, 260, 268, 297, 301, 303, 373, 381, 385, 393, 401, 421, 425, 435, 439, 517, 546
Step 5: 分类整理
按6大类别整理:
- 贫寒服饰(鹑衣、布袍、緼袍、无悬衣、穷袴)
- 仕宦与门阀服饰(乌衣、白帢、冠冕、貂珰、衣冠)
- 游侠与军旅服饰(裘马、重裘、冠劒、珠履、征衣)
- 女性服饰与妆饰(素绫、花钿、翠帏红罗、金瑬、鲛绡、花子等)
- 隐逸与名士服饰(角巾、葛巾、幅巾、芒屩、芰荷裳)
- 僮仆与杂项(短衫、短袴、青衣、带玦)
Step 6: 保存三份文件
- 茅檐集_总结.md
- 茅檐集_原文提取.md
- 茅檐集_日志.md(本文件)
关键发现
- 《茅檐集》无服饰专论——全部服饰内容为文学性描写,散见于辞赋与诗歌
- 贫寒服饰意象最突出——布袍、鹑衣、緼袍反复出现,与作者忠孝家难背景一致
- 楚辞影响深远——"被奇服""褰裳""芰荷裳"直接化用《离骚》
- 女性服饰描写细腻——素绫绣佛、金瑬湘裾、鲛绡花子等,反映明末江南妆饰风尚
- 緼袍质市为重要纪实——佃农典当棉袍换粪肥,秋收不足赎不回,反映明末乡村赤贫
- 貂珰为历史关键词——指魏忠贤阉党,服饰词成为政治符号
- 乌衣与白帢——六朝门阀服饰意象在明诗中仍被沿用
关键踩坑记录
- 源文件为GBK编码混用,部分字节在UTF-8下解码出错(sed输出报错),需用LANG=C规避
- 文件行数虽仅648行,但每行极长(辞赋整篇为一行),单行可达数十KB,grep输出极长
- 大量"衣""佩""带"等字在楚辞体中为文学修辞(如"佩仁""为带"),非实际服饰描写,需人工甄别
- "衣冠"在文中多为社会身份代称(如"衣冠日趋新""衣冠游人间"),非具体服饰描述
审核结果
全部通过 ✅ — 原文均从茅檐集.txt中grep+sed提取,有明确行号对应。服饰内容为文学性散见,如实记录。