《金氏文集》服饰内容提取 · 日志

时间:2026-03-05 任务ID:batch12-4 输入:/home/z/my-project/upload/四库别集/金氏文集.txt(866行,约99KB) 输出:/home/z/my-project/upload/四库别集output/金氏文集/


操作流程

Step 1: 创建输出目录

mkdir -p /home/z/my-project/upload/四库别集output/金氏文集

Step 2: 读取参考文件

读取参考目录下3个MD:总结.md、日志.md、原文提取.md
了解输出格式规范

Step 3: 源文件概况

wc -l 金氏文集.txt → 866行
stat → 99,480 bytes

北宋金君卿别集,原十五卷存二卷。以赋、诗、奏疏、书信为主。

Step 4: grep多轮搜索(6轮)

第1轮:复合服饰词

grep -n '衣裳\|衣冠\|衣彩\|布衣\|朝服\|公服\|祭服\|丧服\|戎服\|赐服\|冠服\|舆服\|章服' 金氏文集.txt
→ 命中:329(布衣)、337(衣彩)、537(衣冠)

第2轮:冠弁巾帽

grep -n '衮\|冕\|弁\|帻\|幞头\|乌纱\|进贤冠\|冠\|巾\|帽' 金氏文集.txt
→ 命中:23(踰冠)、53(冠焉)、123(峩冠)、141(巍冠)、255(垫巾)、329(箬笠)、369(黼衮)、373(黄裳)、531(宸旒)、583/691/773(擢冠)、755(宸旒)、793(冠年)

第3轮:衣裳袍衫裙裘

grep -n '袍\|衫\|裙\|裤\|褐\|裘\|衣\|裳\|深衣\|蟒衣' 金氏文集.txt
→ 命中:49(黄裳)、53(鷩衣)、119(袍、青衫)、157(裘毡)、187(霜满衣)、199(方袍)、209(霓裳)、267(彩衣)、295(旅衣)、329(布衣褴缕)、415(红裙)、537(衣冠子弟)

第4轮:绶佩笏带

grep -n '绶\|佩\|笏\|带\|鱼袋\|革带\|玉带\|金带\|大带' 金氏文集.txt
→ 命中:141(大帯)、229(仙佩)、255(朝绅)、369(衮)

第5轮:织物色彩

grep -n '绫\|罗\|纱\|绢\|帛\|锦\|绮\|丝绸\|缎\|绉\|缟\|缁\|霞帔\|翟衣\|蚕服' 金氏文集.txt
→ 命中:165(春锦)、209(锦帐)、389(青绡)、409(锦绣)

注:赤/青/黄/白/黑/朱/紫/翠/金/银/玉/珠等色彩词命中128条,绝大多数为景物描写,与服饰无关,逐条人工过滤。

第6轮:赐服官服

grep -n '绶\|笏\|赐紫\|赐绯\|章服\|补服\|品色\|鱼袋\|紫袍\|绯衣\|银鱼\|金鱼' 金氏文集.txt
→ 命中:199(赐紫)、307(赐紫泥封)

Step 5: 噪音过滤

过滤规则

  1. 色彩词(青/黄/白/紫/翠等)描写自然景物者剔除
  2. 金/银/玉/珠描写非服饰器物者剔除
  3. "冠"作动词("冠于""冠年""擢冠")者仅保留"冠年"(行793)与服饰冠制相关者
  4. "履"作"履行""履历"义者剔除
  5. "锦绣""青绡"等织物词用于比喻者标注"喻象"

过滤结果

Step 6: 分类

类别 条目数
冕服祭祀 4
冠巾头饰 4
衣裳常服 7
僧服制度 3
朝服官制 2
织物喻象 3

Step 7: 写3个MD文件


关键发现

  1. 服饰内容极为稀少:全书866行,有效服饰条目仅约15条,占比约1.7%
  2. 典故化特征突出:黄裳(易辞)、霓裳(唐舞)、彩衣(老莱子)等均为典故,非实物描写
  3. 僧服赐紫为重要制度信息:方袍赐紫为宋代僧官制度之实证记录
  4. 士人身份标识:巍冠/布衣/青衫/朝绅构成士人身份层级
  5. 裘毡为冬寒实物:蒙裘毡为唯一对民间冬季服饰之直接描写

踩坑记录