研究总结 日志 原文

石田文集 服饰提取日志

任务ID: batch-r20-a-retry 书名: 石田文集 作者: 元·马祖常 源文件: /home/z/my-project/upload/四库别集/石田文集.txt(1812行) 输出目录: /home/z/my-project/upload/四库别集output/石田文集/ 执行时间: 2026-03-05


执行流程

第1步:创建输出目录

mkdir -p /home/z/my-project/upload/四库别集output/石田文集/

✅ 完成

第2步:确认文件

wc -l 石田文集.txt → 1812行

✅ 确认

第3步:五轮grep搜索

轮次 关键词组 命中行数(估) 说明
1 衣裳袍袂裾衫褐裘冠帽弁帻巾簪钗钿珥环佩带绶鞶履屦屐鞋袜鞾 ~220行 基础服饰词
2 锦绮罗缎绸绢纱绫缣缟纨素帛丝练绡绤 ~200行 纺织面料词
3 衮黼黻章旒蔽膝韠韨方心大带组绶玉佩珩璜琚瑀 ~30行 礼制服饰词
4 貂狐貉鹖鹭鹤凤鸾麒麟虎豹犀象珠玉金银铜铁琉璃琥珀玛瑙珊瑚 ~180行 材质装饰词
5 朝服祭服公服常服吉服丧服冕服法服道服儒服戎服便服燕服赐服命服时服制服襕幞头笏鱼袋章服品服补服蟒斗牛飞鱼 ~30行 制度服饰词

总计:去重后约260+行含服饰相关信息。

第4步:sed提取上下文

提取关键行原文,共约150行与服饰直接相关。

第5步:对抗式审查(过滤非服饰)

过滤类型 示例 处理
"衣"作覆盖义 "衣被元气温"(行100) ❌ 剔除
"锦"仅喻华丽 "文章笔槖三千士"中锦字无服饰义 ❌ 剔除
"冠"作冠军/居首义 "独冠嵗"(行156) ❌ 剔除
"佩"作铭记义 "佩惟允"(行1531) ❌ 剔除
"丝"喻细微 "雨丝""钓丝" ❌ 剔除
"玉"非佩饰 "玉瓒""玉井"为礼器/地名 ❌ 剔除
"金"非服饰 "金为屋"喻宫殿 ❌ 剔除
"珠"非佩饰 "珠米""露珠" ❌ 剔除
"翠"非衣饰 "翠微""翠岭"为山色 ❌ 剔除
"罗"非衣料 "罗星斗"为罗列 ❌ 剔除
"珊瑚"非佩饰 "珊瑚树"为观赏物 ❌ 剔除
"琥珀"非佩饰 "琥珀出松脂"为矿物 ❌ 剔除
"琉璃"非服饰 "琉璃静"喻水色 ❌ 剔除
礼器非服饰 "黄流凝玉瓒" ❌ 剔除
食物包裹 "红绫饼""锦缆舟" ❌ 剔除
诗文用锦 "锦绣""锦舒舒"喻文采 ❌ 剔除

过滤后保留:约150条确属服饰的原文。

第6步:撰写三份MD

文件 大小 内容
石田文集_原文提取.md ~18KB 分类原文摘录(冠帽/衣裳袍服/首饰佩饰/纺织面料/鞋履)
石田文集_总结.md ~12KB 五大体系分析+面料专论+特殊发现
石田文集_日志.md ~5KB 本文件

第7步:质量检查


关键统计

指标 数值
源文件行数 1812
grep命中行数(去重) ~260
服饰相关行(过滤后) ~150
冠帽类条目 ~35
衣裳袍服类条目 ~60
首饰佩饰类条目 ~15
纺织面料类条目 ~30
鞋履类条目 ~15

待改进

  1. 部分制诰文中服饰词汇(如"珩璜""彤管")属程式化用语,史料价值有限,已标注但保留
  2. 行1310联句中"钿为螺"等描写较零散,难定归属
  3. 元代特有的服色制度(如质孙服)在本文集中未见直接提及