《补注杜诗》服饰内容提取 · 操作日志
时间:2026-03-05 任务:提取《补注杜诗》全部服饰相关内容,整理分类总结 源文件:/home/z/my-project/upload/四库别集/补注杜诗.txt(4370行,UTF-8,CRLF) 输出目录:/home/z/my-project/upload/四库别集output/补注杜诗/
操作流程
Step 1: 环境准备
mkdir -p /home/z/my-project/upload/四库别集output/补注杜诗/
确认源文件存在,4370行,UTF-8编码。
Step 2: 参考模板阅读
读取 /home/z/my-project/upload/参考/ 下三个模板:
- 总结.md(吕氏春秋模板)
- 日志.md(晋会要模板)
- 原文提取.md(天工开物模板)
Step 3: 关键词搜索统计
| 关键词 | 命中行数 |
|---|---|
| 衣 | 281 |
| 冠 | 108 |
| 裳 | 41 |
| 袍/裘 | 57 |
| 佩/绶/冕/弁/簪/笏/纶 | 118 |
| 巾/履/裙/褐/襦/袂/褶/襟/袖 | 157 |
| 缨/靴/袜/钿/钗/环/珮/带 | 133 |
总计涉及服饰关键词的行数约400+行(有交叉)。
Step 4: 细分关键词搜索
逐步搜索以下具体词语并记录行号:
- 戎衣:行173, 1681, 2634, 3035, 3562
- 布衣:行45, 410, 499, 1129, 1681, 1787, 1843, 650
- 纨袴:行362
- 赐衣:行161, 1998
- 被褐:行415, 416, 1197, 3323
- 衣裳:行371, 463, 571, 776, 848, 849, 1129, 1252, 1547, 1627, 2712, 3033, 3363, 3566
- 舞衣/越罗蜀锦:行403
- 绣罗衣裳/蹙金/锦茵/红巾:行463
- 貂鼠裘:行499
- 犊鼻裈:行416
- 罗襦/襦:行568, 1462
- 金锁甲/绿沉枪:行1798
- 补衮:行3373
- 麻鞋:行533
- 白叠巾/青丝履:行511
- 绿袍:行689
- 冠钩于帘/不巾:行45
- 脱帽露顶:行453
- 羸服:行45
Step 5: sed提取关键片段
使用 sed -n '行号p' 逐一提取关键行原文,配合 cut -c1-300 控制宽度,确认内容后纳入整理。
Step 6: 分类整理与产出
按9大类整理:
- 贵贱服饰对比
- 戎衣与军服
- 丽人服饰
- 舞衣与丝织
- 赐衣制度
- 冠弁与巾帽
- 平民与隐逸服饰
- 其他服饰
- 总结表格
关键发现
- 《补注杜诗》服饰内容以杜诗意象为中心,而非系统的服饰制度记载,与《晋会要》《吕氏春秋》性质不同
- 贵贱对比是最核心的服饰主题——纨袴对儒冠、布衣对甲第、被褐对长缨,反复出现
- 丽人行(行463)是全书最集中的服饰描写段落:绣罗衣裳、蹙金孔雀、银麒麟、翠微罶叶、珠压腰衱、锦茵、红巾
- 戎衣意象与安史之乱直接相关——社稷一戎衣、垂老戎衣窄、天子尚戎衣
- 注文大量引证古籍训释:前汉班氏叙传、庄子、老子、礼记、尔雅等
- 赐衣制度仅有"端午日赐衣"和"赐绯鱼袋"两条
- 布衣意象出现频次最高(8处),是杜甫自况的核心服饰符号
踩坑记录
- 源文件有UTF-8编码问题,部分行cut到特定字节位置会报
utf-8 codec can't decode错误,需控制截取长度 - 文件行很长(最长1286字符),grep输出极长,需用
wc -l先统计再分批查看 grep -n '袍\|裘'等多关键词搜索偶发超时,需缩减关键词数量分批搜索- 杜诗注释中"衣"字大量出现在非服饰语境(如"衣钵""衣食"等),需人工甄别
审核结果
全部通过 ✅ — 原文均从源文件grep+sed提取,有明确行号对应。无虚构内容。