研究总结 日志 原文

《泊宅编》服饰内容提取 — 操作日志

日期:2026-03-05 书名:泊宅编 作者:宋·方勺 输入文件:/home/z/my-project/upload/part3/泊宅编.txt 输出目录:/home/z/my-project/upload/3笔记output/泊宅编/ 文件规模:425行 / 85079字节


Step 1: 文件基本信息

wc -l /home/z/my-project/upload/part3/泊宅编.txt
# 结果:425 行

wc -c /home/z/my-project/upload/part3/泊宅编.txt
# 结果:85079 字节

文件规模较小(<100KB),但按规则仍采用grep定位+sed提取方式,不加载全文。


Step 2: 第一轮grep — 核心服饰词全搜

rg -n '衣|裳|冠|冕|袍|裘|带|佩|巾|帻|履|舄|笏|绶|幞头|裙|衫|袄|褐|缙|绅|纨|绮|绫|罗|锦|绣|帛|绢|绸|缎|丝|棉|葛|麻|毡|帽|靴|鞋|袜|披|氅|褂|领|袖|袂|裾|襟|衽|裆|裤|褶|襦|襕|裲裆|半臂|霞帔|首饰|簪|钗|钏|环|珮|鱼袋|鞍|鞯|辔|卤簿|仪仗|服色|章服|品服|朝服|公服|常服|吉服|丧服|祭服|戎服|赐服|赐紫|赐绯|蟒衣|飞鱼|斗牛|补服|弁|盔|胄|缨|步摇|胜|花钿|蔽膝|袴|屦|屐|蹀躞|缂丝|纹|黼|黻|法服|燕服|翟衣|袆衣|深衣' /home/z/my-project/upload/part3/泊宅编.txt

命中行数:55行(含大量误命中)

关键命中行号:


Step 3: 第二轮grep — 制度动作词

rg -n '赐服|赐紫|赐绯|赐蟒|赐鱼|赏衣|僭|逾制|违式|品色|冠礼|笄礼|敛衽|释服|加冠' /home/z/my-project/upload/part3/泊宅编.txt

命中行数:1行

第二轮新增命中仅1条,说明制度动作词在笔记体中较少出现。


Step 4: 第三轮grep — 组合扩展词(按需)

根据前两轮结果,核心服饰内容较丰富,但按需补充搜索:

rg -n '衮冕|衮服|大裘|赐绯|赐紫|赐鱼|蟒衣|绢帛|匹帛|品色|蚕|桑|茧|缫|织|纺|绸|缂丝|折帛|和买|市舶|绢价|白迭|木绵|吉贝' /home/z/my-project/upload/part3/泊宅编.txt

新增命中:


Step 5: 误命中审查

按词库第四部分排除规则逐条审查:

行号 关键词 原文片段 判定 理由
17 "带假龙出典数郡" 排除 带=动词"带领",非腰带
43 "如玉箸" 排除 箸=筷子,非簪
73 "环无初终" 排除 环=哲学概念,非首饰
103 "织竹为盘" 排除 织=编织竹盘,非纺织
159 "长堤" 排除 堤=堤坝,无服饰义
205 "服阕" 排除 服=守丧期满,非服饰
259 "罗拜" 排除 罗=排列,非丝织品
265 "褐色" 排除 褐仅表颜色,非指粗布服
283 "麻豆" 排除 麻豆=药材大小规格,非麻布
331 "冲冠" 排除 冠=怒发冲冠,比喻义
377 "冠平生" 排除 冠=最佳/居首
407 "女冠" 排除 冠=道姑称号组成部分

审查结果:55行原始命中 → 排除12行误命中 → 43行有效 → 去重合并后31条有效服饰命中


Step 6: sed 上下文提取

对31条有效命中逐一提取上下文(N-2至N+5行),关键提取:

sed -n '11,13p'    # 行13  冕服书
sed -n '19,22p'    # 行21  衣褪香绡
sed -n '29,32p'    # 行31  青衫
sed -n '93,96p'    # 行95  笏
sed -n '115,118p'  # 行117 木绵吉贝
sed -n '119,124p'  # 行121,123 金带赐绯
sed -n '129,132p'  # 行131 染缁
sed -n '137,140p'  # 行139 蓝缕
sed -n '147,150p'  # 行149 幅巾道服
sed -n '163,168p'  # 行165,167 皂衣黄衣
sed -n '169,172p'  # 行171 领巾
sed -n '173,178p'  # 行175,177 白袍释褐
sed -n '187,190p'  # 行189 缣帛
sed -n '191,196p'  # 行193,195 披衣巾饰甲胄
sed -n '225,228p'  # 行227 钗带
sed -n '235,238p'  # 行237 笏
sed -n '241,244p'  # 行243 衣冠靴履
sed -n '259,262p'  # 行261 衣带
sed -n '285,290p'  # 行287,289 冠
sed -n '291,294p'  # 行293 和买缣
sed -n '299,302p'  # 行301 钗股
sed -n '353,356p'  # 行355 道服
sed -n '407,412p'  # 行409,411 匹绢衣着
sed -n '413,417p'  # 行415 大裘衮冕

Step 7: 分类整理

将31条有效命中归入9个类别:

类别 条数 行号
冕服制度 2 13, 415
衣冠改革 1 243
官服等级与赐服 8 31, 121, 123, 165, 167, 175, 177, 411
巾饰与首服 4 149, 195, 287, 289
衣料与纺织 5 117, 189, 293, 409, 411
佩饰 6 95, 171, 227, 237, 261, 301
甲胄军服 1 195
宗教服饰 2 149, 355
服饰意象与行为 5 21, 131, 139, 193, 199

Step 8: 生成三份文件

文件 路径 说明
总结 泊宅编_总结.md 含9类分类、5条关键发现、5条对抗式审查
日志 泊宅编_日志.md 本文件,含完整grep命令与统计
原文提取 泊宅编_原文提取.md 31条原文片段,带行号

操作流程轨迹

文件基本检查✅(425行/85KB) 
→ 第1轮核心词grep✅(55行命中) 
→ 第2轮制度词grep✅(1行新增) 
→ 第3轮组合扩展词✅(5行新增) 
→ 误命中审查✅(排除12行) 
→ 31条有效命中 
→ sed上下文提取✅ 
→ 9类分类整理✅ 
→ 对抗式审查✅(5条) 
→ 生成3份MD✅

统计摘要

指标 数值
文件总行数 425
第1轮核心词命中行数 55
第2轮制度词新增 1
第3轮组合扩展词新增 5
误命中排除 12
有效服饰命中条数 31
分类类别数 9