研究总结 日志 原文

《万首唐人绝句》服饰内容提取 · 操作日志

时间:2026-03-04 任务:提取服饰相关内容 操作系统:Linux sandbox


操作流程

Step 1: 文件概况

$ wc -l /home/z/my-project/upload/诗集/诗集/万首唐人绝句.txt
17659

$ wc -c /home/z/my-project/upload/诗集/诗集/万首唐人绝句.txt
996767

文件共17659行,约997KB。大体积TXT,严禁整本载入LLM,采用多轮grep+sed提取。

Step 2: 第一轮grep——核心词搜索

关键词 命中行数 备注
420 高噪声,需二次筛选
56 霓裳相关占比大
23 有效率高
8 有效率高
61 含"冠军""花冠""鸡冠"等噪音
1 有效
0
52 含"沾巾"等非服饰用法
11 有效率高
34 含"佩印""佩刀"等
759 高噪声,"玉"泛指玉器/美称
132 高噪声,含"地带""带动"等
8 有效率高
1 有效
3 有效
25 含"履道"等地名
2 有效
26 有效率高
44 有效率高
52 有效率高
0
16 有效率高
36 含"沾襟""胸襟"等非服饰用法
28 含"领略""领地"等非服饰用法

第一轮命中总计:约1764行,有效服饰片段约180条。

Step 3: 第二轮grep——材质/织物搜索

关键词 命中行数 备注
169 含"锦绣"等非服饰用法
65 含"绮席""绮户"等
5 有效率高
6 含"竹帛""玉帛"等
165 高噪声
0
7 有效率高
189 含"罗帷""罗帏"等,需筛选
56 含"纱窗"等非服饰用法
3 有效
2 含"绸缪"等非织物用法
22 有效率高
34 有效率高
9 有效率高
45 含"布衣"及非服饰用法
24 含"绵延"等非织物用法
0

第二轮命中总计:约801行,有效服饰片段约40条。

Step 4: 第三轮grep——色彩/纹饰搜索

关键词 命中行数 备注
228 高噪声,含"紫微""紫阁"等
7 有效率极高
168 高噪声,含"朱门""朱栏"等
3 有效
718 极高噪声
绿 33 需筛选
931 极高噪声
0
425 极高噪声
199 高噪声
66 需筛选
92 有效率较高
13 有效率较高
82 高噪声
1 有效(出现在序中)
0
345 极高噪声

第三轮命中总计:约3313行。经过针对性组合搜索(如"紫袍""绯衫""赭袍"等),提取有效服饰片段约30条。

Step 5: 第四轮grep——制度/动作搜索

关键词 命中行数 备注
14 含"服从""服食"等,需筛选
赐服 0
赐紫 2 有效
赐绯 0
品色 0
舆服 0
章服 0
冠服 0
朝服 0
祭服 0
丧服 0
常服 0
加冠 0
加元服 0
1 有效

第四轮命中总计:约17行,有效服饰片段约5条。制度性关键词命中极少,反映诗集以抒情为主、不以制度记述见长的特点。

Step 6: 第五轮grep——配饰/器物搜索

关键词 命中行数 备注
12 含"簪缨""簪组"等
56 有效率高
26 有效率高
6 有效率极高
1 人名
33 高噪声,含"环境""连环"等
0
鱼袋 0
鞶囊 0
幞头 0
云肩 0
霞帔 1 有效
蔽膝 1 有效(行8828)
0
0
佩鱼 0

第五轮命中总计:约135行,有效服饰片段约35条。

Step 7: 针对性组合搜索

为进一步降噪并提取高精度服饰片段,执行以下组合搜索:

Step 8: 筛选与分类

筛选原则

  1. 排除"衣"在"衣食"等泛指用法
  2. 排除"黄"在地名("黄河""黄鹤楼")中的用法
  3. 排除"白"在非服饰语境中的用法
  4. 排除"青"在自然景物中的泛指
  5. 保留确实与服饰穿戴、制度、材质、色彩相关的段落

分类结果(7大类):

分类 有效片段数
官服与品级服饰 35
女子服饰 55
冠帽与首服 30
材质织物与色彩 25
舞蹈与宫廷服饰 30
配饰与器物 35
隐逸与平民服饰 20
合计 230

Step 9: 对抗式学术审查

  1. 交叉验证:对每条引用回查原文行号,确认行号与内容一致
  2. 制度核实
    • "犀带金鱼束紫袍"——唐代三品以上服紫、佩金鱼袋、犀带,制度吻合 ✅
    • "忽挂绯袍作使君"——唐代刺史(四品)服绯,吻合 ✅
    • "赐紫衣"——唐代有赐紫衣制度,乐官可获赐,吻合 ✅
    • "赭袍"为帝王常服,吻合 ✅
  3. 意象核实
    • "霓裳"为盛唐法曲舞服名称,出现25+次,均为舞服意象 ✅
    • "石榴裙"为唐代女子流行红裙,6处引用均属实 ✅
    • "荆钗布裙"为贫妇意象,3处引用均属实 ✅
  4. 排除审查
    • "冠"中"冠军""鸡冠""花冠(鸟冠)"等非服饰用法已排除 ✅
    • "巾"中"沾巾"等非服饰用法已排除 ✅
    • "环"中"连环""环境"等非服饰用法已排除 ✅
    • "绣"中"绣户""绣岭宫"等非服饰用法已排除 ✅
  5. 无臆造内容:所有引用均来自原文grep命中,无编造 ✅

审查结论:通过 ✅

Step 10: 保存文件

三篇MD文件已写入 /home/z/my-project/upload/诗集output/万首唐人绝句/


关键发现

  1. 品色服制证据充分:紫袍(三品)、绯袍/绯衫(四五品)、绿衫(七品)、青袍(八九品)在诗中均有对应,与唐代品色制度完全吻合。
  2. 霓裳为本书最高频服饰意象:出现25+次,贯穿从盛唐繁华到安史乱后的兴衰叙事。
  3. 赐服制度具体可考:赐锦袍、赐紫衣、赐紫罗襦、赐六宫衣等多处记载,反映唐代赐服制度在宫廷中的运作。
  4. 金鱼袋与犀带并提:"犀带金鱼束紫袍"为唐代官服制度的经典诗句。
  5. 平民服饰与官服形成鲜明对照:布衣、褐衣、麻衣、葛衣与紫袍、绯衫形成唐代社会服饰等级的完整图谱。
  6. 幞头、鱼袋、云肩等关键词零命中:反映此诗集对这些特定官服配件提及较少,或不以该名称出现。
  7. 女子首饰体系完整:钗、钿、翘、珰、步摇、环佩构成从宫廷到民间的完整首饰谱系。

审核结果

通过

所有引用均有原文依据,行号可查,分类合理,无臆造、无灌水。