研究总结 日志 原文

《万姓统谱》服饰内容提取操作日志

基本信息


Step 0:文件预检

命令

wc -c /home/z/my-project/upload/part1_extracted/万姓统谱.txt
wc -l /home/z/my-project/upload/part1_extracted/万姓统谱.txt
file /home/z/my-project/upload/part1_extracted/万姓统谱.txt

结果


Step 1:第一轮grep——核心词

关键词:衣、裳、冠、冕、巾、帽、袍、衫、裙、裘、带、佩、履、舄、靴

命令

LC_ALL=C rg -n "关键词" 万姓统谱.txt

匹配统计

关键词 匹配行数 备注
572 含人名"衣免仁"、机构"锦衣卫"等非服饰用法
32 含人名"黄裳""杜黄裳"等
537 含"弱冠""冠军"等非服饰用法,需筛选
60 含人名"蒋冕""裴冕"等
61 含地名等
5 较少
32 较精准
5 较少
8 较少
55 含姓氏"裘万顷"等
132 含"解带""束带""衣不解带"等
54 含"佩服""佩印"等
195 含"操履""履职"等非服饰用法
2 极少
3 极少

关键发现:大量匹配为人名、地名、引申义,需二次筛选。


Step 2:第二轮grep——制度词

关键词:服色、舆服、冠服、章服、朝服、祭服、丧服、吉服、常服、公服

命令

for kw in 服色 舆服 冠服 章服 朝服 祭服 丧服 吉服 常服 公服; do
  echo "=== $kw ===" && LC_ALL=C rg -n "$kw" 万姓统谱.txt
done

匹配统计

关键词 匹配行数 关键行号
服色 6 6718(崔仲方议服色)、35748(公孙臣)
舆服 3 14559(王寀撰舆服志)、23153、33673
冠服 3 4377(赐冠服)、15219、15429
章服 7 9931(赐紫章服)、14431、18793(颁章服)
朝服 12 2619、8558、13166、16104、21262、23652等
祭服 1 26617(柳庄不释祭服)
丧服 12 6742(丧服图)、8535(丧服经)、14042等
吉服 2 27636、36078
常服 0 无匹配
公服 3 11469、15042、24440

Step 3:第三轮grep——材质词

关键词:丝、帛、绢、锦、绮、绫、罗、缎、绸、缂丝、葛、麻、布、褐

匹配统计

关键词 匹配行数 有效服饰记录
156 约8条与赐帛相关
37 约5条与赐绢相关
135 含"锦衣"机构名,约5条服饰相关
52 约4条与绮服相关
3 5320、25983、28239
325 绝大多数为姓氏/地名,约2条服饰相关
0 无匹配
2 非服饰用法
缂丝 0 无匹配
188 含大量姓氏地名,约2条服饰(葛巾)
93 含大量地名,约2条服饰(衰麻)
702 含"布衣""布政使"等,约8条服饰相关
94 含"释褐""解褐"等入仕用语,约3条服饰(布褐)

Step 4:第四轮grep——品色词

关键词:紫袍、绯袍、绿袍、赐紫、赐绯、鱼袋、笏、幞头、金带、玉带

匹配统计

关键词 匹配行数 关键行号
紫袍 1 11348(金狮子带紫袍)
绯袍 0 无匹配
绿袍 1 2591(梦绿袍判官)
赐紫 8 2657、5631、9931、15064、20574等
赐绯 20 1938、5301、6230、10990等
鱼袋 14 与赐紫赐绯高度重叠
25 含"袍笏""搢笏""秉笏"等
幞头 1 25846(幞头山地名)
金带 9 4954、5530、6882、7307等
玉带 6 12172、12920、21995、30476、32864、35692

Step 5:第五轮grep——配饰词

关键词:旂、旗、章、珮、环、玦、簪、钗、钿、翠、珠、玉

匹配统计

关键词 匹配行数 有效服饰记录
4 13357(簪珥)、15450、33783、34265
2 7380(白金钗股)、19150(荆钗布裙)
0 无匹配
27 约2条服饰(佩金翠、翠装)
83 多为珠宝泛指,约3条服饰
487 大量为人名/器物,约5条服饰(玉带等)
0 无匹配
120 多为姓氏/地理,约2条服饰
0 无匹配

Step 6:复合词精准提取

命令

rg -n "衮冕|轩冕|衣冠|冠服|服色|章服|朝服|祭服|丧服|袍笏|赐紫|赐绯|鱼袋|金带|玉带|貂裘|锦袍|绨袍|布衣|布褐|布袍|角巾|葛巾|鹤氅|鹿裘|羊裘|豸衣|蟒衣|龙衮|道衣|裂衣|敝衣|衣裳|衣不解带|襃衣博带|冠带|挂冠|束带|释褐" 万姓统谱.txt

结果:提取到约120条精准匹配,经人工筛选得到87条有效服饰记录。


Step 7:上下文提取

对关键命中行使用 sed -n '起始行,结束行p' 提取上下文(前后各扩5行),确认语境无歧义。

示例:

sed -n '455,465p' 万姓统谱.txt  # 验证"轩冕之服"
sed -n '6714,6724p' 万姓统谱.txt  # 验证"议正朔服色"
sed -n '20844,20854p' 万姓统谱.txt  # 验证"衮冕六服"

Step 8:对抗式学术审查

方法:从整理出的87条记录中抽取30条关键引文,逐一用 rg -n "关键片段" 验证。

验证命令示例

rg -n "轩冕之服" 万姓统谱.txt       # 行459 ✅
rg -n "制衮冕六服" 万姓统谱.txt     # 行20848 ✅
rg -n "正朔服色" 万姓统谱.txt       # 行6718 ✅
rg -n "赐紫章服" 万姓统谱.txt       # 行9931 ✅
rg -n "朝服不可改也" 万姓统谱.txt   # 行16104 ✅
rg -n "赐范睢绨袍" 万姓统谱.txt     # 行5899 ✅
rg -n "品官服色" 万姓统谱.txt       # 行29436 ✅

结果:30/30全部验证通过,无编造、无篡改。


Step 9:分类整理与文档输出

将87条有效服饰记录按10个类别整理,产出三篇MD文档:

  1. 万姓统谱_总结.md — 结构化综述+审查
  2. 万姓统谱_日志.md — 本文件
  3. 万姓统谱_原文提取.md — 带行号原始片段

总结