《贾岛集》服饰内容提取 · 日志

时间:2026-04-19 任务ID:batch4-5 输入:/home/z/my-project/upload/四库别集/贾岛集.txt(1764行) 输出:/home/z/my-project/upload/四库别集output/贾岛集/


操作流程

Step 1: 创建输出目录

mkdir -p /home/z/my-project/upload/四库别集output/贾岛集/

Step 2: 读取参考文件

读取三份参考文件,确认输出格式:

Step 3: grep多轮搜索

第一轮:基础服饰词

grep -n '衣|裳|裘|冠|冕|弁|帻|巾|帽|袍|衫|裙|裤|褐' 贾岛集.txt
# 结果约80行

第二轮:材质与颜色词

grep -n '衮|绶|佩|笏|带|锦|绮|绢|帛|丝|绸|缎|绫|罗|纱|绉|缟|缁|素' 贾岛集.txt
# 结果约80行,含大量噪音("丝"在"丝竹"中非服饰,"锦"在"锦江""锦水"中为地名)

第三轮:颜色与饰物词

grep -n '赤|青|黄|白|黑|朱|紫|绯|绿|翠|金|银|玉|珠|簪|钗' 贾岛集.txt
# 结果约120行,噪音极大(白日、青山、白云、黄金等均非服饰)

第四轮:复合词

grep -n '冠服|舆服|朝服|赐服|幞头|乌纱|深衣|麻履|霞帔|蚕服' 贾岛集.txt
# 结果极少:幞头1处、乌纱1处、麻履1处

第五轮:精准筛选

grep -n '白布衣|衣裳|寒衣|卧衣|衲衣|白衣|短褐|头巾|巾帻|束带|乌纱|白苎|麻履|赐衣|濯锦|霞纹|佩玉|幞|蕉衣|粗帛|卖纱|罗绮|花冠|三衣|一钵|净衣|披衲|拂衣|披衣|曝衣' 贾岛集.txt
# 结果约40行,精准度高

Step 4: sed提取上下文

对每条匹配提取前后各2行上下文,共提取约35处有效服饰内容。

Step 5: 噪音过滤

噪音类型 示例 过滤理由
地名含"锦" 锦江、锦水、锦砾 非衣料,为地名或比喻
"丝"指音乐 丝竹丰州有 非蚕丝衣料
颜色词非服饰 白日、青山、白云、翠微、紫阁 风景描写,非服色
"纱窗" 疏影纱窗外 建筑构件,非衣料
"发冲冠" 声声犹带发冲冠 成语,非实写冠服
"金""玉"非服饰 金乌、玉泉、玉溪、玉墀 非金玉饰品
"罗"非织物 罗夷鸟、罗少府、罗浮 非丝织品

Step 6: 分类整理

按5类归并:

  1. 僧人服饰(7处):衲衣、三衣、一钵、净衣、披衲
  2. 隐士平民服饰(8处):白布衣、白衣、短褐、衣褐、白苎
  3. 官员冠服(10处):赐衣、束带、幞头、乌纱、巾帻、头巾、罗绮、佩玉、花冠
  4. 日常衣物与衣料(13处):寒衣、卧衣、蕉衣、疏衣、濯锦、机头锦、霞纹、麻履、曝衣、粗帛、纱市、衣裳、沾裳
  5. 其他(5处):披衣、拂衣、衣频寄、衣多苔藓痕、客衣

关键发现

  1. 白衣意象最突出:贾岛诗中"白衣"出现5次,既是实写隐士服装,也象征无官身份,构成其诗歌核心意象之一
  2. 衲衣=苦修精神:7处僧服描写均强调"坏""凝霜""满渍苔",与苦吟诗风一致
  3. 赐衣仅1处:卷3"谢令狐绹相公赐衣九事",为全书唯一涉及官场赐衣制度者
  4. 蕉布为南方衣料:2处蕉衣描写反映唐代南方地区以芭蕉纤维织布的习俗
  5. 幞头1处:"裹裳留阔幞"为全书唯一提及幞头者
  6. 三衣1处:佛教戒律专用术语,为唯一使用处
  7. 无裘无冕:全书无裘衣、冕服等贵重服饰描写,与作者身份吻合

踩坑记录


输出文件

文件 大小 内容
总结.md ~4KB 分类总结,含表格与核心思想
原文提取.md ~4.5KB 按类编排原文,附行号与注释
日志.md ~3.5KB 本文件,操作流程与发现

全文约3500字