《遗山集》服饰内容提取 · 操作日志
任务ID: batch8-1 时间:2026-03-05 操作者:AI助手
Step 1: 环境准备
mkdir -p /home/z/my-project/upload/四库别集output/遗山集
wc -l /home/z/my-project/upload/四库别集/遗山集.txt
→ 8569行
Step 2: 读取参考文件
读取3个参考MD(总结/日志/原文提取),了解输出格式要求。
Step 3: 多轮grep搜索
第一轮:高频词统计
| 关键词组 | 命中行数 |
|---|---|
| 衣/裳/裘/冠/冕/弁/帻/巾/帽/袍/衫/裙/裤/褐 | 802 |
| 衮/绶/佩/笏/带/锦/绮/绢/帛/丝/绸/缎/绫/罗/纱/绉/缟/缁/素 | 597 |
| 赤/青/黄/白/黑/朱/紫/绯/绿/翠/金/银/玉/珠/簪/钗/钿/珥/步摇 | 3169 |
| 冠服/舆服/章服/朝服/公服/祭服/丧服/常服/戎服/赐服/蟒衣/飞鱼/斗牛/补服/品色/鱼袋/革带/玉带/金带 | 14 |
| 幞头/乌纱/进贤冠/深衣/大带/蔽膝/舄/履/靴/袜/霞帔/翟衣/蚕服 | 49 |
第二轮:精准搜索(-n输出)
| 搜索词 | 命中数 | 过滤后有效数 |
|---|---|---|
| 衮/绶/笏/佩玉/玉佩 | 多 | ~8 |
| 冠服/朝服/祭服/丧服/常服/戎服/赐服 | 14 | 5 |
| 幞头/乌纱/深衣/大带/履/靴/袜 | 49 | ~8 |
| 衣冠/衣裳/布衣/释褐/绯衣/赐紫/赐绯 | 多 | ~25 |
| 巾/帽/袍/衫/裙/裘/褐/簪/钗 | 多 | ~50 |
| 金缕/玉簪/花冠/幅巾/纶巾/乌纱 | 多 | ~15 |
| 笏/鱼袋/紫金/绯鱼/貂裘/缊袍/章甫 | 多 | ~15 |
第三轮:补充搜索
搜索金带/玉带/金带/玉佩/佩玉 → 行7557"玉带金鱼"、行5827"佩玉舒徐"、行7393"玉佩声" 搜索日本国冠服 → 行8359
Step 4: 噪音过滤
过滤原则:
- "衣""带""金""玉"等单字高频词,仅保留与服饰直接相关的复合词
- "赤子""白云""黄金"等非服饰用法排除
- "衣冠"作为士大夫代称保留(服饰制度语境)
- "青衫"作为官服制度保留
- 画跋中的服饰描写全部保留(史料价值高)
Step 5: 分类整理
按8大类整理:
- 品官赐服制度(紫/绯/鱼袋/笏)
- 礼冠祭服(玄弁朱衣/垂旒/佩玉)
- 冠帽类(幅巾/乌纱/章甫/花冠等)
- 袍裘衣衫(貂裘/缊袍/青衫/褐衣等)
- 女性服饰(捣练图/金钗/罗裙等)
- 士人身份服饰(布衣/衣冠南渡/释褐等)
- 武弁武服(重铠/大冠/金鞍绣帽等)
- 异国冠服(日本国冠服)
Step 6: 写3个MD
- 总结.md:分类总结与核心发现(本文件)
- 日志.md:操作流程记录
- 原文提取.md:按类辑录原文,附行号
关键踩坑记录
- "衣"字命中极多(800+),大量为"衣冠"(士大夫代称)、"无衣"(《诗经》引文)等,需逐条过滤
- "金""玉"等颜色/材质词命中3000+行,绝大多数为非服饰用法(地名、人名、比喻),需以复合词精准搜索
- 画跋部分(行5519-5531)为全书最详尽的服饰描写,需完整提取
- "日本国冠服"仅3字(行8359),疑为目录或标题,原文极简
- "青衫"出现约10次,均为低级官吏或读书人意象,非具体服制描写