《贾岛集》服饰内容提取 · 日志
时间:2026-04-19 任务ID:batch4-5 输入:/home/z/my-project/upload/四库别集/贾岛集.txt(1764行) 输出:/home/z/my-project/upload/四库别集output/贾岛集/
操作流程
Step 1: 创建输出目录
mkdir -p /home/z/my-project/upload/四库别集output/贾岛集/
Step 2: 读取参考文件
读取三份参考文件,确认输出格式:
- 参考/总结.md → 分类总结,含表格与核心思想
- 参考/日志.md → 操作流程、关键发现、踩坑记录
- 参考/原文提取.md → 按类编排原文,附行号与注释
Step 3: grep多轮搜索
第一轮:基础服饰词
grep -n '衣|裳|裘|冠|冕|弁|帻|巾|帽|袍|衫|裙|裤|褐' 贾岛集.txt
# 结果约80行
第二轮:材质与颜色词
grep -n '衮|绶|佩|笏|带|锦|绮|绢|帛|丝|绸|缎|绫|罗|纱|绉|缟|缁|素' 贾岛集.txt
# 结果约80行,含大量噪音("丝"在"丝竹"中非服饰,"锦"在"锦江""锦水"中为地名)
第三轮:颜色与饰物词
grep -n '赤|青|黄|白|黑|朱|紫|绯|绿|翠|金|银|玉|珠|簪|钗' 贾岛集.txt
# 结果约120行,噪音极大(白日、青山、白云、黄金等均非服饰)
第四轮:复合词
grep -n '冠服|舆服|朝服|赐服|幞头|乌纱|深衣|麻履|霞帔|蚕服' 贾岛集.txt
# 结果极少:幞头1处、乌纱1处、麻履1处
第五轮:精准筛选
grep -n '白布衣|衣裳|寒衣|卧衣|衲衣|白衣|短褐|头巾|巾帻|束带|乌纱|白苎|麻履|赐衣|濯锦|霞纹|佩玉|幞|蕉衣|粗帛|卖纱|罗绮|花冠|三衣|一钵|净衣|披衲|拂衣|披衣|曝衣' 贾岛集.txt
# 结果约40行,精准度高
Step 4: sed提取上下文
对每条匹配提取前后各2行上下文,共提取约35处有效服饰内容。
Step 5: 噪音过滤
| 噪音类型 | 示例 | 过滤理由 |
|---|---|---|
| 地名含"锦" | 锦江、锦水、锦砾 | 非衣料,为地名或比喻 |
| "丝"指音乐 | 丝竹丰州有 | 非蚕丝衣料 |
| 颜色词非服饰 | 白日、青山、白云、翠微、紫阁 | 风景描写,非服色 |
| "纱窗" | 疏影纱窗外 | 建筑构件,非衣料 |
| "发冲冠" | 声声犹带发冲冠 | 成语,非实写冠服 |
| "金""玉"非服饰 | 金乌、玉泉、玉溪、玉墀 | 非金玉饰品 |
| "罗"非织物 | 罗夷鸟、罗少府、罗浮 | 非丝织品 |
Step 6: 分类整理
按5类归并:
- 僧人服饰(7处):衲衣、三衣、一钵、净衣、披衲
- 隐士平民服饰(8处):白布衣、白衣、短褐、衣褐、白苎
- 官员冠服(10处):赐衣、束带、幞头、乌纱、巾帻、头巾、罗绮、佩玉、花冠
- 日常衣物与衣料(13处):寒衣、卧衣、蕉衣、疏衣、濯锦、机头锦、霞纹、麻履、曝衣、粗帛、纱市、衣裳、沾裳
- 其他(5处):披衣、拂衣、衣频寄、衣多苔藓痕、客衣
关键发现
- 白衣意象最突出:贾岛诗中"白衣"出现5次,既是实写隐士服装,也象征无官身份,构成其诗歌核心意象之一
- 衲衣=苦修精神:7处僧服描写均强调"坏""凝霜""满渍苔",与苦吟诗风一致
- 赐衣仅1处:卷3"谢令狐绹相公赐衣九事",为全书唯一涉及官场赐衣制度者
- 蕉布为南方衣料:2处蕉衣描写反映唐代南方地区以芭蕉纤维织布的习俗
- 幞头1处:"裹裳留阔幞"为全书唯一提及幞头者
- 三衣1处:佛教戒律专用术语,为唯一使用处
- 无裘无冕:全书无裘衣、冕服等贵重服饰描写,与作者身份吻合
踩坑记录
- 颜色词噪音极大:赤/青/白/黑/朱/紫等词在诗中极常见但多指风景(白云、青山等),不可直接纳入服饰
- "锦"多作比喻:"锦江""锦水"为地名,"机头锦"喻水色,仅"濯锦"1处实指衣料
- "罗"需甄别:"罗夷鸟"(捕鸟)、"罗少府"(人名)、"罗浮"(地名)均非丝织品
- "衣屡"疑讹:行1007"衣屡犹同俗","屡"疑为"屦"(鞋)之讹
输出文件
| 文件 | 大小 | 内容 |
|---|---|---|
| 总结.md | ~4KB | 分类总结,含表格与核心思想 |
| 原文提取.md | ~4.5KB | 按类编排原文,附行号与注释 |
| 日志.md | ~3.5KB | 本文件,操作流程与发现 |
全文约3500字