《东坡诗集注》服饰内容提取 · 操作日志
时间:2026-04-19 任务:提取《东坡诗集注》全部服饰相关内容,整理分类总结
操作流程
Step 1: 检查输入文件
wc -l /home/z/my-project/upload/四库别集/东坡诗集注.txt
# 4876行
wc -c /home/z/my-project/upload/四库别集/东坡诗集注.txt
# 1,576,139字节(约1.5MB)
Step 2: 读取参考模板
- 读取
/home/z/my-project/upload/总结.md(吕氏春秋模板) - 读取
/home/z/my-project/upload/日志.md(晋会要模板) - 读取
/home/z/my-project/upload/原文提取.md(天工开物模板)
Step 3: 按关键词词库grep提取
3.1 核心词提取
grep -n '衣|裳|裘|冠|冕|弁|帻|巾|帽|履|舄|袜|带|佩|袍|裙|褐' 东坡诗集注.txt
# 693行
3.2 丝织品提取
grep -n '帛|绢|绫|罗|缎|锦|绮|纱|绸' 东坡诗集注.txt
# 269行
3.3 制度词提取
grep -n '服色|舆服|冠服|章服|品服|朝服|祭服|公服|常服|赐服|赐紫|赐绯' 东坡诗集注.txt
# 16行
3.4 具体器物提取
grep -n '笏|鱼袋|幞头|霞帔|翟衣|深衣|襦|袄|褙子|半臂|帔' 东坡诗集注.txt
# 26行
3.5 颜色品级提取
grep -n '绯|紫|青|绿|朱|赭' 东坡诗集注.txt
# 669行(含大量非服饰用例,如"青山""紫蟹"等)
3.6 材质工艺提取
grep -n '丝|絮|绵|染|织|纺|蚕|茧|絺|绤|葛|麻' 东坡诗集注.txt
# 318行
Step 4: 精准复合词二次提取
4.1 制度性服饰词
grep -n '赐紫|紫衣|紫袍|绯衣|青衫|朱衣|赭衣|幞头|鱼袋|笏|冕|朝服|祭服|常服|公服|章服|品服|舆服|冠服|袈裟|幅巾|黄冠|进贤冠|武冠' 东坡诗集注.txt
# 约200+行,逐一审读
4.2 具体服饰词
grep -n '冕旒|簮武弁|进贤冠|櫑具|象笏|笏在腰|腰笏|笏满|拄笏|珥貂|貂蝉|紫衣|紫袍|玉带|金紫|赐五品|服绯|佩银|青衫|白纻|红裙|金缕衣|罗衣|绨袍|象服|深衣|袴襦|缁衣|鹿裘|破裘|布衣|幅巾|角巾|黄冠|羽衣|道服|袈裟|乌纱|白葛|芒鞋|布袜|青鞋' 东坡诗集注.txt
# 约150行,核心数据
4.3 纺织蚕桑词
grep -n '蚕市|缫车|织纱|织锦|锦绣|浣纱|练裙|白纻|红裾|金缕衣|罗衣|缟衣|絺绤|絮帽|衣冠|冠盖|衣裘|官服|戎服|布袜|青鞋|丝履|绣帐|翠被|绛纱|朝服|公服|布衣|绨袍|褐衣' 东坡诗集注.txt
# 约120行
Step 5: 逐条审读与分类
对约300条候选结果逐条审读,排除:
- "青山"等非服饰用例(大量)
- "紫蟹"等食物用例
- "丝"作泛指(如"一丝")
- "绿"作景色描写
保留约90条有效服饰内容,分为13类。
Step 6: 保存三份文件
/home/z/my-project/upload/四库别集output/东坡诗集注/东坡诗集注_总结.md/home/z/my-project/upload/四库别集output/东坡诗集注/东坡诗集注_日志.md(本文件)/home/z/my-project/upload/四库别集output/东坡诗集注/东坡诗集注_原文提取.md
关键发现
- 青衫频率最高:在东坡诗注中出现7次以上,是苏轼仕途困顿的核心服饰意象,注释多引白居易"江州司马青衫湿"
- 笏板典故6处:象笏击贼、笏满床、腰笏挽舟等,体现宋代士大夫笏板文化
- 珥貂制度详注:次公引董巴《舆服志》详述貂蝉冠制,为汉代侍中冠服重要注解
- 服绯佩银实例:张舜民赐五品服,为宋代品色服制度实例
- 赐紫衣两例:辩才师赐紫衣(行2841)、紫衣敕使(行3919),为宋代僧官与内使赐紫制度
- 黎衣冠珍贵:海南黎族服饰记载(行1225),为民族服饰史料
- 隐逸服饰体系完整:幅巾、芒鞋、布袜、黄冠、羽衣构成完整隐士服饰群
- 服饰典故密集:几乎每处服饰词都有经史典故注释,注者引证极博
关键踩坑记录
- "青"字大量出现于"青山""青衣江"等非服饰语境,需逐一排除
- "紫"字出现于"紫蟹""紫麝""紫石英"等非服饰语境
- "丝"字大量作量词("一丝")或泛指("丝竹"),非服饰材料
- "冠"字大量出现于"冠盖""冠军"等非服饰用法
- 注文格式不统一,部分行超长(单行数千字),需sed截取关键段落
- "深衣"仅1处出现于礼记引文(运肘),非服饰制度论述
审核结果
全部通过 ✅ — 原文均从grep -n提取,有明确行号对应。排除非服饰用例后保留约90条有效内容。