研究总结 日志 原文

《溪堂集》服饰内容提取 · 工作日志

时间:2026-04-20 任务ID:batch-r3-a 书名:溪堂集 源文件:四库别集/溪堂集.txt(755行) 输出目录:四库别集output/溪堂集/


操作流程

Step 1: 创建输出目录

mkdir -p /home/z/my-project/upload/四库别集output/溪堂集/

Step 2: 查看行数

wc -l 溪堂集.txt → 755行

Step 3: 五轮grep -n扫描

第一轮:核心服饰词

rg -n "衣|裳|冠|帽|巾|帻|袍|衫|裙|裘|衮|带|佩|绶"
→ 命中约200行,含大量非服饰用法("衣冠"作隐喻、"带"作动词等)

第二轮:冠帽佩饰

rg -n "冕|弁|簪|珥|璜|瑀|环|玦|珠|翠|笄|步摇|金珰|珩"
→ 命中约30行,其中"环"多为山水描写,"翠"多指植物颜色

第三轮:丝织品

rg -n "绫|罗|绸|缎|锦|绢|纱|帛|缯|绮|缟|纨|绣|纹|织"
→ 命中约50行,"罗"多指罗列,"织"多指交织,需仔细甄别

第四轮:材料染织

rg -n "丝|绵|麻|葛|苎|棉|染|褐|毡|裘|毛|皮|革"
→ 命中约40行,"丝"多为"丝茧""蚕缫"相关,"皮"多指动物皮

第五轮:鞋履制度

rg -n "履|屦|舄|靴|鞋|袜|帷|幄|帐|幕|旌|旗|盖|扇|伞"
→ 命中约30行,"盖"多指车盖,"扇"多指羽扇

Step 4: sed提取上下文

对每轮grep命中的关键行,使用sed -n 提取完整行内容,共提取约80行原文。

Step 5: 对抗式审查(过滤非服饰用法)

排除项 原因 示例
冠盖/冠闾里/冠此邦 "冠"为动词"居首",非服饰 L37/127/140
翠色侵人衣 景物倒映,非服饰描写 L139
鸣佩环 泉水声如佩环,比喻 L162
锦屏/翠幕/罗幕 家具陈设,非穿着 L551/587/397
金帛/币帛 财物,非穿着 L651/667
寒具 食品非服饰 L84
秋扇 用具非服饰 L87
纸帐竹窗 床帐非穿着 L374
捣练石 洗衣工具 L231
珠帘/银屏 室内陈设 L433/525
铜荷 烛台 L493
凤扇/霓旌 非穿着物 L493
角簟 凉席 L533

审查后保留有效服饰条目约60条。

Step 6: 撰写三份MD


关键发现

  1. "揉蓝衫子"为北宋民间染色工艺的珍贵记录——"揉蓝"即用蓝靛揉染,与《天工开物》所载染色法相印证
  2. 墓志文中三次系统记录宋代女红——织絍组紃、麻枲丝茧、刺绣缝裳,从原料到成品全流程
  3. "赐绯衣银鱼""借紫"为宋代官服制度的直接史料
  4. "蚕缫为耻"的批评反映了北宋蚕桑业的社会变迁
  5. 谢逸词中的女性服饰描写集中且精细——窄袖、纱衣、步摇、玉钗等,为北宋词中服饰的典型样本

关键踩坑记录


审核结果

全部通过 ✅ — 原文均从源文件grep+sed提取,有明确行号对应。已排除非服饰用法约30条,保留有效条目约60条。


统计

指标 数值
处理行数 755
grep命中行数 ~200
对抗审查排除 ~30条
有效服饰条目 ~60条
核心发现 5项