《临川集》服饰内容提取 · 日志
时间:2026-03-05 任务:提取《临川集》全部服饰相关内容,整理分类总结
操作流程
Step 1: 文件基本信息
wc -l /home/z/my-project/upload/四库别集/临川集.txt → 15423行
wc -c /home/z/my-project/upload/四库别集/临川集.txt → 约1.5MB
- 作者:[宋] 王安石(字介甫,号半山,临川人)
- 内容:临川集一百卷(标点本)
- 版本:四库全书标点整理本,行数因标点而多于临川文集
Step 2: 关键词Grep检索
rg -n "衣|裳|裘|冠|冕|弁|帻|巾|帽|履|舄|袜|带|佩|袍|裙|褐" 临川集.txt → 约200行
rg -n "帛|绢|绫|罗|缎|锦|绮|纱|缂|丝|绸" 临川集.txt → 约200行
rg -n "服色|舆服|冠服|章服|品服|朝服|祭服|公服|常服|赐服|赐紫|赐绯" 临川集.txt → 约50行
rg -n "笏|鱼袋|幞头|霞帔|翟衣|深衣|襦|袄|褙子|半臂|帔" 临川集.txt → 约20行
rg -n "绯|紫|青|绿|朱|赭|絮|绵|染|织|纺|蚕|茧|絺|绤|葛|麻" 临川集.txt → 约200行
rg -n "幞头|帽纱|方帽" 临川集.txt → 2行
Step 3: 精简与去伪
排除以下非服饰内容:
- 与临川文集相同的排除项(青山、紫芝、情丝等)
- "方帽"在竹冠诗中出现(L4611)——保留,为与竹冠对比的帽式
- "绸绢"在L13694——保留,为税赋中绸绢征购
- OCR误字:"衡ヨ绂纟延"当为"衡紞纮綖"——标注
Step 4: 分类整理
按7大类整理:
- 赐服与品服制度(14条)
- 冠冕巾帽(10条,含独有1条)
- 衣裳裘袍(9条)
- 笏与佩饰(5条)
- 丝帛纺织(7条)
- 衣冠与文明(2条)
- 与临川文集异同(1对比表)
Step 5: 学术审查
- 全部引文据行号可溯,无整本载入
- 与临川文集内容基本一致,已逐条比对
- 帽纱幞头条(L12375)为临川集独有,已标出★
- 三公服饰处OCR误字已标注,以临川文集本为准
- 品服署衔行号与临川文集不同,两书严格独立引用
Step 6: 输出文件
/home/z/my-project/upload/四库别集output/临川集/临川集_总结.md/home/z/my-project/upload/四库别集output/临川集/临川集_日志.md/home/z/my-project/upload/四库别集output/临川集/临川集_原文提取.md
关键发现
- 内容与临川文集基本一致:为同一作者同一书的不同版本,服饰内容高度重叠
- 帽纱幞头条为临川集独有(L12375):书信中讨论帽纱与幞头的关系,为研究宋代幞头制作的重要材料
- 三公服饰处OCR有误字:临川集本作"衡ヨ绂纟延",临川文集本作"衡紞纮綖",当以文集本为准
- 标点本行号不同:临川集15423行vs临川文集10053行,两书需严格独立引用,行号不可混用
- 品服制度记载完整:赐紫金鱼袋、赐绯衣银鱼、借紫等品服署衔与临川文集一致
关键踩坑记录
- 两书为同一书不同版本,极易混淆行号,必须严格独立处理
- 临川集因标点增行,行号与临川文集完全不同,绝不可交叉引用
- 三公服饰处OCR误字需以临川文集本为准
- 帽纱幞头条仅在书信部分出现(L12375),为临川集独有,临川文集本无此段
- "绸绢"在L13694出现,临川文集本同位置作"防绢"(OCR差异),需注意
审核结果
全部通过 ✅ — 原文均从临川集.txt中grep提取,有明确行号对应,与临川文集独立处理,非服饰用法已排除。