《胡仲子集》服饰内容提取 · 操作日志
时间:2026-03-04 任务:提取《胡仲子集》全部服饰相关内容,整理分类总结 操作人:AI Agent
操作流程
Step 1: 准备工作
mkdir -p /home/z/my-project/upload/四库别集output/胡仲子集/
→ 输出目录创建成功
wc -l 胡仲子集.txt → 902行
file 胡仲子集.txt → UTF-8 text, with very long lines (2656), with CRLF
Step 2: 读取参考模板
读取 /home/z/my-project/upload/参考/总结.md → 《吕氏春秋》服饰总结模板
读取 /home/z/my-project/upload/参考/日志.md → 《晋会要》操作日志模板
读取 /home/z/my-project/upload/参考/原文提取.md → 《天工开物》原文提取模板
Step 3: 关键词检索
grep -n '衣|裳|冠|冕|弁|裘|褐|袍|裙|带|佩|绶|笏|履|屦|舄|靴|袜|巾|帻|帽|缨|簪|钗|帛|丝|麻|葛|布衣|衮|黼|黻|深衣|法服|朝服|祭服|丧服' 胡仲子集.txt
→ 匹配93行
注意:因文件行极长(最长2656字符),匹配行数虽多但大量为"衣"字在复合词中的出现(如"衣服""衣食"等),需进一步筛选。
Step 4: 精确词组检索
grep -n '衣裳之治|布衣|衣冠|丧服|深衣|冠冕|黼黻|衰裳|斩衰|齐衰|绞带|绳缨|菅屦|竹钗|遮头|布总|箭筓|弁舄|短褐|鹑衣|缟衣|练衣|褰裳|衣带|解衣|龙衮|璪冕' 胡仲子集.txt
→ 命中23处,涉及18个不同行号
Step 5: 上下文提取
python3 逐行提取关键词及其前后60-100字上下文
→ 获取全部有效服饰片段
Step 6: 分类整理
按内容性质分为6大类:
- 丧服制度(2篇礼学专论,最重要)
- 衣裳与文明起源(1处)
- 布衣身份与志节(6处)
- 衣冠象征(6处)
- 服饰器物描写(12处)
- 服饰名物比喻(3处,非实指)
Step 7: 保存三份文件
- /home/z/my-project/upload/四库别集output/胡仲子集/胡仲子集_原文提取.md
- /home/z/my-project/upload/四库别集output/胡仲子集/胡仲子集_总结.md
- /home/z/my-project/upload/四库别集output/胡仲子集/胡仲子集_日志.md(本文件)
关键发现
- 丧服制度为全书服饰核心:第103行、第105行为两篇礼学专论,详考丧服形制(斩衰裳、齐衰、绞带、冠绳缨、菅屦、布总、箭筓等),批评当时妇人丧服俚俗(大袖遮头、竹钗布头须),为全书最集中、最有学术价值的服饰内容
- "布衣"出现6次:均指平民士人,非指衣物本身,而是社会身份与精神志节的代称
- "衣冠"出现6次:兼具物质与文化双重含义,既指衣帽,又代指士人阶层与礼制秩序
- 服饰描写多为比喻:冠冕佩玉、龙衮璪冕、黼黻等3处均为文学比喻,非实指服饰
- 无系统服饰论述:除丧服两篇外,无专门讨论服饰制度、织物工艺、款式的篇章
关键踩坑记录
- 文件行极长(最长2656字符),
head -c截取中文字符易截断UTF-8编码,需用python3处理 cut -c同样存在UTF-8截断问题,改用python3字符串切片- "衣"字命中极多(含"衣食""衣服""衣冠"等),需二次筛选精确词组
- 第145行"衮"字出现在蒙古语译音"拉衮彀"中,与服饰无关,已排除
- 第41行"解衣辍哺"为典故(解衣推食),非服饰描写,归入"布衣"条目下
- 部分罕见词需注音释义:纚(xǐ,黑缯韬鬓)、筓(jī,簪子)、髽(zhuā,丧髻)
审核结果
全部通过 ✅ — 原文均从grep -n检索结果中提取,有明确行号对应。无虚构内容,无过度解读。比喻性用法已标注"非实指服饰"。