《雅堂文集》服饰内容提取 · 操作日志

时间:2026-03-05 任务ID:batch19-5 来源:四库别集/雅堂文集.txt(3555行) 输出目录:四库别集output/雅堂文集/


操作流程

Step 1: 创建输出目录

mkdir -p /home/z/my-project/upload/四库别集output/雅堂文集

Step 2: 读取参考文件

Step 3: 初步探测

wc -l 雅堂文集.txt → 3555行
grep -n 全量服饰关键词 → 482行命中(含大量噪音)

Step 4: 复合词精准搜索(第一轮)

grep -n '衣裳|冠服|舆服|章服|朝服|祭服|丧服|常服|戎服|赐服|蟒衣|飞鱼|斗牛|补服|品色|鱼袋|革带|玉带|金带|幞头|乌纱|进贤冠|深衣|大带|蔽膝|舄|霞帔|翟衣|蚕服|步摇|衮服|绶带|佩玉|冠带|衣冠|布衣|裘褐|短褐|缁衣|锦衣|狐裘|羔裘|皮冠|服饰|服色|冕服|弁服|冠冕|巾帽|龙袍|左衽|正朔|冕裳|具衣冠|焚衣' 雅堂文集.txt

→ 21行命中,精准确认核心服饰段落

Step 5: 扩展搜索(第二轮)

grep -n '纱帽|蓝衫|白裙|绸缎|章甫|缝掖|褐衣|缣素|零缣断素|绂|笏|丝绵|绢布|蚕桑|绸造|白绨|纨素|缟袂|青衣|青裙|金粉|钗朵|霓裳|锦袍|红绫|珠翘|琼钿|银错落|簪处|素旗|金带围|雪为衣|香木雕像|不着绯' 雅堂文集.txt

→ 补充搜索诗歌及民间服饰内容

Step 6: sed提取上下文

对每条命中的行号,用 sed -n 'start,endp' 提取前后文:

Step 7: 噪音过滤

排除以下噪音:

Step 8: 分类整理

按7大类归纳:

  1. 墨者服饰论(核心学术论述)
  2. 衣冠与华夏文明(全书最大主题)
  3. 蚕桑丝织与纺织
  4. 冠服制度与礼器
  5. 民间服饰习俗
  6. 诗歌服饰意象
  7. 服饰文化总论

Step 9: 写入3个MD文件


关键发现

  1. 衣冠为全书最大服饰主题:连横以"衣冠"代指华夏文明正统,在论郑成功、论明郑史、论台湾文化中反复出现,至少6处核心段落
  2. 墨者服饰论为学术亮点:以裘褐/锦衣/缁衣三重论证"墨"为学派非姓氏,为古代服饰思想研究重要文献
  3. 蚕桑文化完整呈现:从楞严经"丝绵绢布"、蚕娘传说到淑妃教织,涵盖丝织文化全链条
  4. 诗歌服饰意象丰富:白牡丹组诗(8首)含金带、缟袂、纨素、白绨、玉带围、雪为衣、不着绯等十余种服饰意象
  5. 宁靖王玉笏为实物文献:长尺八寸、重三斤的玉笏,经辗转归公,为明郑服饰制度实物证据
  6. 大隈重信论中国衣服之美:日本政治家评价中国衣服之美为世界之最,连横引为文化自信论据
  7. 纱帽蓝衫为明末清初文人典型形象:装阁中杜牧"纱帽蓝衫"形象反映传统士人服饰认知

踩坑记录

  1. "赤嵌"噪音极多:赤嵌为台湾地名(赤嵌楼、赤嵌城),非"赤色+嵌"的服饰词,grep初筛时大量误命中
  2. 颜色单字噪音严重:白、黑、青、赤、金、玉等单字在3555行文本中出现482次,绝大多数非服饰语境
  3. "笏"有非服饰用法:"一笏金"为金之计量单位(行1069),非笏板
  4. "丝"多非织物:"蛛丝""丝竹""丝毫"等大量非纺织用法
  5. "衣"多抽象用法:"衣钵""衣食""衣被"等非具体服饰
  6. 《雅堂文集》非传统经史:无舆服志、无服制专论,服饰内容全赖散见提取,需大量上下文判断

审核结果

全部通过 ✅ — 原文均从源文件grep+sed提取,有明确行号对应,噪音已人工过滤。