石田文集 服饰提取日志
任务ID: batch-r20-a-retry 书名: 石田文集 作者: 元·马祖常 源文件: /home/z/my-project/upload/四库别集/石田文集.txt(1812行) 输出目录: /home/z/my-project/upload/四库别集output/石田文集/ 执行时间: 2026-03-05
执行流程
第1步:创建输出目录
mkdir -p /home/z/my-project/upload/四库别集output/石田文集/
✅ 完成
第2步:确认文件
wc -l 石田文集.txt → 1812行
✅ 确认
第3步:五轮grep搜索
| 轮次 | 关键词组 | 命中行数(估) | 说明 |
|---|---|---|---|
| 1 | 衣裳袍袂裾衫褐裘冠帽弁帻巾簪钗钿珥环佩带绶鞶履屦屐鞋袜鞾 | ~220行 | 基础服饰词 |
| 2 | 锦绮罗缎绸绢纱绫缣缟纨素帛丝练绡绤 | ~200行 | 纺织面料词 |
| 3 | 衮黼黻章旒蔽膝韠韨方心大带组绶玉佩珩璜琚瑀 | ~30行 | 礼制服饰词 |
| 4 | 貂狐貉鹖鹭鹤凤鸾麒麟虎豹犀象珠玉金银铜铁琉璃琥珀玛瑙珊瑚 | ~180行 | 材质装饰词 |
| 5 | 朝服祭服公服常服吉服丧服冕服法服道服儒服戎服便服燕服赐服命服时服制服襕幞头笏鱼袋章服品服补服蟒斗牛飞鱼 | ~30行 | 制度服饰词 |
总计:去重后约260+行含服饰相关信息。
第4步:sed提取上下文
提取关键行原文,共约150行与服饰直接相关。
第5步:对抗式审查(过滤非服饰)
| 过滤类型 | 示例 | 处理 |
|---|---|---|
| "衣"作覆盖义 | "衣被元气温"(行100) | ❌ 剔除 |
| "锦"仅喻华丽 | "文章笔槖三千士"中锦字无服饰义 | ❌ 剔除 |
| "冠"作冠军/居首义 | "独冠嵗"(行156) | ❌ 剔除 |
| "佩"作铭记义 | "佩惟允"(行1531) | ❌ 剔除 |
| "丝"喻细微 | "雨丝""钓丝" | ❌ 剔除 |
| "玉"非佩饰 | "玉瓒""玉井"为礼器/地名 | ❌ 剔除 |
| "金"非服饰 | "金为屋"喻宫殿 | ❌ 剔除 |
| "珠"非佩饰 | "珠米""露珠" | ❌ 剔除 |
| "翠"非衣饰 | "翠微""翠岭"为山色 | ❌ 剔除 |
| "罗"非衣料 | "罗星斗"为罗列 | ❌ 剔除 |
| "珊瑚"非佩饰 | "珊瑚树"为观赏物 | ❌ 剔除 |
| "琥珀"非佩饰 | "琥珀出松脂"为矿物 | ❌ 剔除 |
| "琉璃"非服饰 | "琉璃静"喻水色 | ❌ 剔除 |
| 礼器非服饰 | "黄流凝玉瓒" | ❌ 剔除 |
| 食物包裹 | "红绫饼""锦缆舟" | ❌ 剔除 |
| 诗文用锦 | "锦绣""锦舒舒"喻文采 | ❌ 剔除 |
过滤后保留:约150条确属服饰的原文。
第6步:撰写三份MD
| 文件 | 大小 | 内容 |
|---|---|---|
| 石田文集_原文提取.md | ~18KB | 分类原文摘录(冠帽/衣裳袍服/首饰佩饰/纺织面料/鞋履) |
| 石田文集_总结.md | ~12KB | 五大体系分析+面料专论+特殊发现 |
| 石田文集_日志.md | ~5KB | 本文件 |
第7步:质量检查
- ✅ 严禁加载整本TXT:仅用grep+sed定位提取
- ✅ 严禁编造:所有原文均有行号可溯
- ✅ 严禁灌水:每条均有服饰相关性判断
- ✅ 对抗式审查:已过滤非服饰用例约80+条
关键统计
| 指标 | 数值 |
|---|---|
| 源文件行数 | 1812 |
| grep命中行数(去重) | ~260 |
| 服饰相关行(过滤后) | ~150 |
| 冠帽类条目 | ~35 |
| 衣裳袍服类条目 | ~60 |
| 首饰佩饰类条目 | ~15 |
| 纺织面料类条目 | ~30 |
| 鞋履类条目 | ~15 |
待改进
- 部分制诰文中服饰词汇(如"珩璜""彤管")属程式化用语,史料价值有限,已标注但保留
- 行1310联句中"钿为螺"等描写较零散,难定归属
- 元代特有的服色制度(如质孙服)在本文集中未见直接提及