《金陵百咏》服饰内容提取 · 对话记录

时间:2026-03-04 任务ID:batch13-1 来源:四库别集·金陵百咏.txt(宋曾极撰,841行,22KB) 目标:提取服饰内容,产出3个MD


操作流程

Step 1: 创建输出目录

mkdir -p /home/z/my-project/upload/四库别集output/金陵百咏/

Step 2: 读取参考文件

Step 3: 源文件基本信息

wc -l 金陵百咏.txt → 841行
wc -c 金陵百咏.txt → 22563字节(~22KB)

文件规模小,但按规则严禁整本载入LLM,仍采用grep+sed逐行提取。

Step 4: grep多轮搜索(4轮关键词扫描)

第1轮:衣物类

rg -n '衣|裳|裘|冠|冕|弁|帻|巾|帽|袍|衫|裙|裤|褐' 金陵百咏.txt

命中行:8, 66, 134, 171, 198, 284, 386, 455, 561, 605, 607, 611 关键发现:布衣、泪横巾、朱衣、裙腰、染衣、冠吴都、刘莎衣庵、右衽危冠、泪溅衣、乌衣巷

第2轮:织物佩饰类

rg -n '衮|绶|佩|笏|带|锦|绮|绢|帛|丝|绸|缎|绫|罗|纱|绉|缟|缁|素' 金陵百咏.txt

命中行:8, 16, 48, 68, 162, 221, 329, 437, 559, 684, 686, 707, 709, 795, 806 关键发现:布衣、服膺(非服饰)、垂带(非服饰)、结绶、珠珰佩罗袜、帛拭胭脂、衮龙×2、红罗亭、红罗扇、结绮、锦伞、青丝

第3轮:颜色首饰类

rg -n '赤|青|黄|白|黑|朱|紫|绯|绿|翠|金|银|玉|珠|簪|钗|钿|珥|步摇' 金陵百咏.txt

大量命中(颜色词在诗中广泛使用),需人工过滤服饰相关者:

第4轮:制度专词

rg -n '冠服|舆服|章服|朝服|公服|祭服|丧服|常服|戎服|赐服|蟒衣|飞鱼|斗牛|补服|品色|鱼袋|革带|玉带|金带|幞头|乌纱|进贤冠|深衣|大带|蔽膝|舄|履|靴|袜|霞帔|翟衣|蚕服' 金陵百咏.txt

仅命中:行162(罗袜)、行439(履至尊——非服饰,"履"为践踏意)

Step 5: sed提取上下文

对确认命中的18处逐一用sed提取上下文(行号±5),确认服饰语义。

Step 6: 过滤噪音

排除以下伪命中:

Step 7: 分类整理

将18条确认条目分为6类:

  1. 冠服制度(4处):右衽危冠、衮龙×2、朱衣
  2. 身份服饰(3处):布衣、结绶、乌衣
  3. 首饰佩饰(2处):珠珰佩罗袜、红罗扇
  4. 织物材料(4处):帛、红罗、锦伞、结绮
  5. 妆容色彩(4处):胭脂×2(帛拭/菊染)、掩袂、赪玉碧矑
  6. 服饰意象(4处):染衣、泪横巾、泪溅衣、悬鹑

Step 8: 写3个MD文件


关键发现

  1. 全书服饰内容稀疏:841行中仅18处确认命中,占比2.1%,符合咏史怀古诗集特征
  2. "右衽危冠"为最有制度价值之句:以衣冠喻华夏正统,暗讽南宋偏安
  3. 衮龙服两现:均指南唐帝王衮服,反映南唐帝制在金陵遗存
  4. 胭脂三现:胭脂井、胭脂菊、红泪,关联南朝后宫妆容文化
  5. 红罗两现:红罗亭+红罗扇,南朝至南唐宫廷丝织品使用
  6. 无制度专词命中:冠服、舆服、朝服、祭服、幞头、乌纱、深衣等制度词均未出现

踩坑记录