《遗山集》服饰内容提取 · 操作日志

任务ID: batch8-1 时间:2026-03-05 操作者:AI助手


Step 1: 环境准备

mkdir -p /home/z/my-project/upload/四库别集output/遗山集
wc -l /home/z/my-project/upload/四库别集/遗山集.txt
→ 8569行

Step 2: 读取参考文件

读取3个参考MD(总结/日志/原文提取),了解输出格式要求。

Step 3: 多轮grep搜索

第一轮:高频词统计

关键词组 命中行数
衣/裳/裘/冠/冕/弁/帻/巾/帽/袍/衫/裙/裤/褐 802
衮/绶/佩/笏/带/锦/绮/绢/帛/丝/绸/缎/绫/罗/纱/绉/缟/缁/素 597
赤/青/黄/白/黑/朱/紫/绯/绿/翠/金/银/玉/珠/簪/钗/钿/珥/步摇 3169
冠服/舆服/章服/朝服/公服/祭服/丧服/常服/戎服/赐服/蟒衣/飞鱼/斗牛/补服/品色/鱼袋/革带/玉带/金带 14
幞头/乌纱/进贤冠/深衣/大带/蔽膝/舄/履/靴/袜/霞帔/翟衣/蚕服 49

第二轮:精准搜索(-n输出)

搜索词 命中数 过滤后有效数
衮/绶/笏/佩玉/玉佩 ~8
冠服/朝服/祭服/丧服/常服/戎服/赐服 14 5
幞头/乌纱/深衣/大带/履/靴/袜 49 ~8
衣冠/衣裳/布衣/释褐/绯衣/赐紫/赐绯 ~25
巾/帽/袍/衫/裙/裘/褐/簪/钗 ~50
金缕/玉簪/花冠/幅巾/纶巾/乌纱 ~15
笏/鱼袋/紫金/绯鱼/貂裘/缊袍/章甫 ~15

第三轮:补充搜索

搜索金带/玉带/金带/玉佩/佩玉 → 行7557"玉带金鱼"、行5827"佩玉舒徐"、行7393"玉佩声" 搜索日本国冠服 → 行8359

Step 4: 噪音过滤

过滤原则

Step 5: 分类整理

按8大类整理:

  1. 品官赐服制度(紫/绯/鱼袋/笏)
  2. 礼冠祭服(玄弁朱衣/垂旒/佩玉)
  3. 冠帽类(幅巾/乌纱/章甫/花冠等)
  4. 袍裘衣衫(貂裘/缊袍/青衫/褐衣等)
  5. 女性服饰(捣练图/金钗/罗裙等)
  6. 士人身份服饰(布衣/衣冠南渡/释褐等)
  7. 武弁武服(重铠/大冠/金鞍绣帽等)
  8. 异国冠服(日本国冠服)

Step 6: 写3个MD

关键踩坑记录

  1. "衣"字命中极多(800+),大量为"衣冠"(士大夫代称)、"无衣"(《诗经》引文)等,需逐条过滤
  2. "金""玉"等颜色/材质词命中3000+行,绝大多数为非服饰用法(地名、人名、比喻),需以复合词精准搜索
  3. 画跋部分(行5519-5531)为全书最详尽的服饰描写,需完整提取
  4. "日本国冠服"仅3字(行8359),疑为目录或标题,原文极简
  5. "青衫"出现约10次,均为低级官吏或读书人意象,非具体服制描写