研究总结 日志 原文

《北堂书钞》服饰内容提取日志

一、操作流程记录

步骤1:文件大小检查

步骤2:逐轮关键词检索

第一轮(核心词)—— 2025-03-05

衣:201  裳:35   冠:152  冕:28  巾:55
帽:10   袍:11   衫:7    裙:9   裘:30
带:72   佩:58   履:62   舄:9   靴:3

15个核心词全部命中,累计命中行约742行

第二轮(制度词)

服色:1   舆服:37  冠服:0  章服:3  朝服:33
祭服:6   丧服:13  吉服:3  常服:3  公服:2

9/10命中,"冠服"未命中(北堂书钞用"法服"而非"冠服")

第三轮(材质词)

丝:36   帛:61   绢:23   锦:43   绮:32
绫:8    罗:57   缎:0    绸:3    缂丝:0
葛:87   麻:27   布:132  褐:9

12/14命中,"缎""缂丝"未命中(时代限制)

第四轮(品色词)

紫袍:0   绯袍:0  绿袍:0  赐紫:1  赐绯:0
鱼袋:0   笏:6    幞头:0  金带:1  玉带:3

4/10命中,唐代制度词大面积未命中

第五轮(配饰词)

旂:0    旗:46   章:213  珮:0    环:47
玦:7    簪:14   钗:8    钿:5    翠:46
珠:82   玉:274

10/12命中,"旂""珮"未命中(用"旗""佩"替代)

步骤3:上下文提取

步骤4:专卷定位

通过检索卷目标题,定位服饰专卷:

步骤5:逐卷精读

对10个专卷逐卷读取分析,提取服饰分类信息:

步骤6:对抗式学术审查

审查点1:关键词"章"命中213行——是否均为服饰?

审查点2:关键词"玉"命中274行——是否均为服饰?

审查点3:关键词"布"命中132行——是否均为服饰?

审查点4:"舆服"37行——是否都在服饰专卷?

审查点5:服饰部一至五是否都属"服饰"?

二、未命中关键词原因分析

关键词 未命中原因
冠服 北堂书钞用"法服"概念,不用"冠服"
缎织物唐宋以后才流行
缂丝 缂丝工艺宋代始盛
紫袍 唐代品色服制度,书钞无
绯袍 同上
绿袍 同上
赐绯 同上
鱼袋 唐代章服制度
幞头 唐代首服,书钞用"巾""帻"
书钞用"旗"字
书钞用"佩"字

三、技术执行日志

[OK] wc -c 北堂书钞.txt → 3060993 (超过500KB)
[OK] R1 grep 15词 → 全部命中,累计742行
[OK] R2 grep 10词 → 9词命中,累计101行
[OK] R3 grep 14词 → 12词命中,累计518行
[OK] R4 grep 10词 → 4词命中,累计11行
[OK] R5 grep 12词 → 10词命中,累计255行
[OK] 合并去重 → 509行
[OK] 构建上下文区间 → 193个区间,2066行
[OK] sed提取上下文 → 2,674,098字节
[OK] 定位10个服饰专卷 → 逐卷精读完成
[OK] 对抗式审查 → 5个审查点通过
[OK] 产出三篇MD → 完成