《范文正集》服饰内容提取 · 工作日志
时间:2026-03-05 任务:提取《范文正集》全部服饰相关内容,整理分类总结 文件:/home/z/my-project/upload/四库别集/范文正集.txt 总行数:1470行
操作流程
Step 1: 创建输出目录
mkdir -p /home/z/my-project/upload/四库别集output/范文正集/
Step 2: 读取参考模板
读取 /home/z/my-project/upload/参考/ 下三个MD模板:
- 总结.md(吕氏春秋服饰总结,含分类表格与核心思想)
- 日志.md(晋会要工作日志,含操作流程与关键发现)
- 原文提取.md(天工开物原文提取,按主题分类摘引原文)
Step 3: 确认文件信息
wc -l 范文正集.txt → 1470行
file 范文正集.txt → Unicode text, UTF-8, CRLF, very long lines (2332)
Step 4: grep关键词搜索(第一轮)
关键词列表(60+个): 衣、裳、冠、冕、弁、帻、巾、帽、履、靴、袜、袍、裘、绶、佩、笏、褐、袂、衿、领、袖、裾、襦、深衣、布衣、锦、绣、绫、罗、绸、缎、绢、纱、帛、丝、甲胄、铠、貂、衮、黼、黻、舆服、服色、朝服、祭服、丧服、礼服、戎服等
结果:初步匹配209行,但因编码问题(UTF-8 unexpected end of data)无法直接用bash grep。
解决方案:改用Python脚本搜索,避免编码问题。
Step 5: Python关键词搜索(第二轮)
使用Python逐行读取,搜索60+个关键词,得到177行匹配。
发现大量非服饰用义需过滤:
- "甲":甲科(科举)、甲乙(等级)→ 非铠甲
- "履":履行、履历 → 非鞋履
- "锦":锦鳞、锦江 → 非锦绣
- "丝":朱丝(琴弦)、丝竹(音乐)、丝纶(诏书)→ 非丝织品
- "绣":绮绣文 → 部分为文学修辞
Step 6: 精细化筛选
对177行匹配结果逐条审读,筛选出真正与服饰相关的约40条,分为以下类别:
- 天子冠服(行17 明堂赋)——最完整
- 道服赞(行1121-1123)——唯一服饰专篇
- 古帝服色(行180、566)
- 官服制度(金紫、五品服、赐紫方袍、释褐等,多行)
- 政治伦理(袴襦、罗绮、衣冠,多行)
- 隐逸之服(小冠白纻、儒服、解冠)
- 军戎服饰(戎服、甲胄)
- 文学修辞(霓裳、环佩、昼绣、锦裘)
Step 7: 补充搜索
增加第二轮关键词:车服、服章、章服、衣冠、冕服、赐紫、赐绯、金紫、五品服、搢绅、荐绅、缙绅、簪缨、昼绣、释褐、白纻、儒服、道服、染院等
新发现:
- 行566:变服章(革故鼎新)
- 行810:小冠衣白纻(隐士之服,重要服饰描写)
- 行1121-1123:道服赞(核心篇章)
- 行794:戎服登城(军装)
- 行1353-1368:道服赞后世跋文(6条)
- 行1401:章服(题跋中提及)
Step 8: 产出三份文件
- 范文正集_原文提取.md(约40条原文,按主题分类)
- 范文正集_总结.md(8大类总结,含表格与核心思想)
- 范文正集_日志.md(本文件)
关键发现
- 《道服赞》是全书唯一以服饰为主题的独立篇章——以道服与青紫狐貉对举,表达"宠为辱主,骄为祸府"的服饰哲学
- 《明堂赋》包含最完整的天子冠服描写——纡黄组、冠通天、建日月、服乾坤、佩干将,可与《宋史·舆服志》互证
- 赐服记录极为频繁——金紫7次+、五品服6次、释褐4次,反映宋代官服赐予制度之发达
- 服饰在范集中主要作为政治伦理的载体——罗绮=奢靡、袴襦=善政、衣冠=文明,鲜有纯物质性描写
- 缺乏系统服饰制度论述——与《晋会要》《吕氏春秋》不同,范集为别集体裁,无专章论服饰
- 隐士之服描写精彩——"戴小冠,衣白纻,跨白驴"为全书最具画面感的服饰描写
关键踩坑记录
- 文件编码问题:bash grep直接处理UTF-8文件报错"unexpected end of data",改用Python解决
- 关键词噪音极大:甲(甲科)、履(履行)、锦(锦鳞)、丝(朱丝/丝竹/丝纶)等大量非服饰用义,需逐条人工审读
- "搢绅/荐绅/缙绅"出现10+次,均为官员代称,非服饰实体描写,仅收录作背景参考
- 道服赞虽在正集中仅3行,但在补编/题跋部分有大量后世评论(行1353-1368),需注意区分原文与后人文字
- 行1401"诏赐章服"为明代徐有贞题跋中文字,非范仲淹原文
审核结果
全部通过 ✅ — 原文均从范文正集.txt中Python逐行提取,有明确行号对应。非服饰用义已逐一排除。