《钱塘集》服饰内容提取 · 工作日志

时间:2026-04-20 任务ID:batch13-3 任务:提取《钱塘集》TXT中服饰相关内容,产出3个MD


操作流程

Step 1: 准备工作

mkdir -p /home/z/my-project/upload/四库别集output/钱塘集
wc -l 钱塘集.txt → 3171行
wc -c 钱塘集.txt → 416,061字节

Step 2: 读取参考文件

读取 /home/z/my-project/upload/参考/原文提取.md → 天工开物示例
读取 /home/z/my-project/upload/参考/总结.md → 吕氏春秋示例
读取 /home/z/my-project/upload/参考/日志.md → 晋会要示例

Step 3: grep多轮搜索(严禁整本载入LLM)

第1批:基础衣物词

grep -n '衣|裳|裘|冠|冕|弁|帻|巾|帽|袍|衫|裙|裤|褐' 钱塘集.txt
→ 200+匹配行

第2批:纺织材料词

grep -n '衮|绶|佩|笏|带|锦|绮|绢|帛|丝|绸|缎|绫|罗|纱|绉|缟|缁|素' 钱塘集.txt
→ 200+匹配行

第3批:颜色首饰词

grep -n '赤|青|黄|白|黑|朱|紫|绯|绿|翠|金|银|玉|珠|簪|钗|钿|珥|步摇' 钱塘集.txt
→ 200+匹配行

第4批:特定制度词

grep -n '冠服|舆服|章服|朝服|公服|祭服|丧服|常服|戎服|赐服|蟒衣|飞鱼|斗牛|补服|品色|鱼袋|革带|玉带|金带|幞头|乌纱|进贤冠|深衣|大带|蔽膝|舄|履|靴|袜|霞帔|翟衣|蚕服' 钱塘集.txt
→ 匹配较少:乌纱(3)、舄(2)、飞鱼/斗牛(地名误匹配)

第5批:具体衣物名

grep -n '狐裘|貂裘|羔裘|轻裘|重裘|褐衣|征衣|朝衣|寝衣|布衣|狐貉|衣冠|衣裳|纱巾|幅巾|乌纱|鹤氅|道服|青袍|绶|笏|簪|珥|钗|步摇|钿' 钱塘集.txt
→ 约50处有效匹配

第6批:赐服及礼制服饰

grep -n '赐衣|赐服|皮褐|毛褐|毳褐|衣褐|赭衣|衮衣|衮服|衮绂|冕旒|组绶|组绂|簪绅|簪绂|簪裾|缁衣|青衣|白羽衣|绣衣' 钱塘集.txt
→ 核心发现:赐服3表、绣衣6处、衮衣/衮绂/冕旒等

Step 4: sed提取关键行

sed -n '25p;44p;100p;108p;184p;276p;294p;318p;321p;338p;350p;...' 钱塘集.txt
→ 提取134行,约48KB原始文本

Step 5: 过滤噪音

Step 6: 分类整理

按6大类整理:

  1. 衣裘御寒类(14处)
  2. 官服标识类(15处)
  3. 冠巾隐逸类(12处)
  4. 赐服使辽类(4处·核心史料)
  5. 礼制服饰类(8处)
  6. 首饰纺织类(6处)

Step 7: 写3个MD文件


关键发现

  1. 使辽赐服三表为全书最重要服饰史料,记载宋使在辽中京获赐皮褐/毳褐/毛褐衣物的完整流程
  2. 幅巾+道服为典型"吏隐"服饰组合,出现4处以上
  3. 绣衣6处均指御史/监察使者,是宋代监察服饰标识的集中体现
  4. 韦骧官阶不高(青袍、墨绶),诗中服饰描写多反映中下层官员生活
  5. 赭衣用《史记》典故,为全书唯一一处囚服记载

关键踩坑记录


文件校验

文件 大小 行数
总结.md ≤20KB ✓ ~120行
原文提取.md ≤20KB ✓ ~200行
日志.md ≤20KB ✓ 本文件

完成。