研究总结 日志 原文

《全唐诗》服饰内容提取日志

基本信息


处理流程

步骤1:文件基本信息

wc -l /home/z/my-project/upload/诗集/诗集/全唐诗.txt
# 结果:188268 行
ls -lh /home/z/my-project/upload/诗集/诗集/全唐诗.txt
# 结果:13M
mkdir -p /home/z/my-project/upload/诗集output/全唐诗/

步骤2:第1轮grep — 核心服饰词统计

for kw in 衣 裘 冕 弁 帻 巾 帽 佩玉 带 绶 笏 舄 履 靴 袍 衫 裙 褶 袂 襟 领; do
  count=$(grep -c "$kw" 全唐诗.txt 2>/dev/null || echo 0)
  echo "$kw: $count"
done

结果

步骤3:第2轮grep — 材质词统计

for kw in 锦 绮 绢 帛 丝 缎 绫 罗 纱 缟 绸 葛 麻 褐 布 绵 茧; do
  count=$(grep -c "$kw" 全唐诗.txt 2>/dev/null || echo 0)
  echo "$kw: $count"
done

结果

步骤4:第3轮grep — 色彩纹饰词统计

for kw in 紫 绯 朱 赭 青 绿 白 玄 黄 丹 素 绣 纹 章 黼 黻 华; do
  count=$(grep -c "$kw" 全唐诗.txt 2>/dev/null || echo 0)
  echo "$kw: $count"
done

结果

步骤5:第4轮grep — 制度词统计

for kw in 赐服 赐紫 赐绯 品色 舆服 章服 冠服 朝服 祭服 丧服 常服 加冠 衮; do
  count=$(grep -c "$kw" 全唐诗.txt 2>/dev/null || echo 0)
  echo "$kw: $count"
done

结果

步骤6:第5轮grep — 配饰词统计

for kw in 簪 钗 钿 珰 珥 环 镯 鱼袋 幞头 云肩 霞帔 蔽膝 芾 韠 佩鱼; do
  count=$(grep -c "$kw" 全唐诗.txt 2>/dev/null || echo 0)
  echo "$kw: $count"
done

结果

步骤7:sed抽样提取上下文验证

共执行25次sed提取操作,关键验证记录如下:

编号 提取命令 目标 结果
1 sed -n '5350,5360p' 赐紫衣上下文 确认:王建《霓裳辞》"立地阶前赐紫衣"
2 sed -n '93460,93475p' 霞帔步摇冠 确认:白居易《霓裳羽衣歌》详细舞服描写
3 sed -n '22940,22955p' 万国衣冠 确认:王维"九天阊阖开宫殿,万国衣冠拜冕旒"
4 sed -n '5585,5600p' 狐襟貉袖 确认:刘商《胡笳十八拍》胡服左衽描写
5 sed -n '3820,3830p' 被朝服 确认:白居易"三十登宦途,五十被朝服"
6 sed -n '87755,87770p' 皮裘汉仪 确认:白居易《缚戎人》胡汉服饰冲突
7 sed -n '5098,5115p' 荷叶罗裙 确认:王昌龄"荷叶罗裙一色裁"
8 sed -n '988,1000p' 制袍字赐狄仁杰 确认:武则天"敷政术,守清勤"(无服饰细节)
9 sed -n '8080,8090p' 褐为裘 确认:张志和《渔父歌》"钓台渔父褐为裘"
10 sed -n '28570,28580p' 齐侯好紫衣 确认:李华《杂诗》"齐侯好紫衣"
11 sed -n '4410,4430p' 遗簪堕珥 确认:虞世南"遗簪堕珥解罗襦"
12 sed -n '3640,3655p' 绣裆襦 确认:陆龟蒙"邻娃尽著绣裆襦"
13 sed -n '6780,6790p' 玳织鸳鸯履 确认:李白"玳织鸳鸯履,金装翡翠簪"
14 sed -n '1003,1010p' 纤腰宜宝袜 确认:徐贤妃"纤腰宜宝袜,红衫艳织成"
15 sed -n '4583,4595p' 妾有罗衣裳 确认:孟郊"妾有罗衣裳,秦王在时作"
16 sed -n '63560,63605p' 赐紫罗襦 确认:王建"御前新赐紫罗襦"
17 sed -n '27350,27380p' 加章服 确认:刘长卿"同诸公袁郎中宴筵喜加章服"
18 sed -n '94570,94585p' 赐服章 确认:白居易"闻行简恩赐章服"
19 sed -n '6170,6185p' 银鱼袋 确认:李廓"倒插银鱼袋,行随金犊车"
20 sed -n '62715,62730p' 新授章服 确认:王建"和蒋学士新授章服"
21 sed -n '1315,1325p' 角冠霞帔 确认:徐氏"角冠霞帔事希夷"
22 sed -n '55685,55705p' 霞帔五帝坛 确认:戎昱"霞帔初朝五帝坛"
23 sed -n '92270,92285p' 绯袍鱼袋 确认:白居易"鹘衔瑞草绯袍鱼袋"
24 sed -n '126115,126130p' 蔽膝 确认:温庭筠"斗鸡花蔽膝,骑马玉搔头"
25 sed -n '165120,165135p' 幞头 确认:崔公佐客"破额幞头衫也穿"

步骤8:分类整理与审查


处理原则遵守情况

  1. ✅ 未整本载入LLM,全部通过grep+sed处理
  2. ✅ 服饰关键词由内置词库决定
  3. ✅ 三篇MD单篇不超20KB
  4. ✅ 据实撰写不灌水
  5. ✅ 做对抗式审查
  6. ✅ 日志记录命令
  7. ✅ 原文提取带行号
  8. ✅ 文件命名遵循规范