研究总结 日志 原文

《清江贝先生诗集》服饰内容提取 · 日志

时间:2026-03-05 任务ID:batch-r1-e 书名:清江贝先生诗集 源文件:/home/z/my-project/upload/四库别集/清江贝先生诗集.txt 输出目录:/home/z/my-project/upload/四库别集output/清江贝先生诗集/


操作流程

Step 1: 文件概况

wc -l 清江贝先生诗集.txt
→ 5520行

发现:全书5520行,其中前2753行为正文+四库提要,后2767行(L2753-5520)为重复内容。实际处理以前2753行为准。

Step 2: 五轮grep扫描

轮次 关键词 命中行数(去重前) 去重后独立行
R1 衣裳袍裘袂襟袖裾袴襦褐衫褂袄 ~70行 ~45行
R2 冕弁巾帽帻簪笄佩带绅绶笏芾 ~60行 ~40行
R3 锦绮帛绢绫罗缎绸纱缂缟纨绨绉 ~80行 ~35行
R4 丝麻葛苎布毡绵染绣黼黻衮 ~100行 ~40行
R5 履舄靴鞋袜朝服祭服丧服礼服法服衣冠衣裳 ~15行 ~10行

说明:R3/R4命中行数多但大量为非服饰用法(锦=喻花、罗=地名、葛=人名、丝=比喻等)

Step 3: 关键行上下文提取

使用 sed -n 'start,endp' 提取约25个关键区段的上下文(前2行后5行),重点包括:

Step 4: 非服饰用法过滤

排除项 原因 涉及行号
管葛/葛洪/葛令/葛亮 人名,非服饰用"葛" L135, L370, L706, L1591, L1656, L1967, L1984, L2033, L2227, L2295, L3143, L4364, L4429, L4740, L4757
锦水/锦城/锦江 地名 L1343, L1567, L1779, L4116, L4340
锦书/锦筝/锦瑟 器物/乐器 L1287, L2327, L2522
罗浮/罗虬 地名/人名 L1850, L2499, L2609, L2638, L5272, L5382, L5411
绸缪 比喻情意缠绵 L188, L465, L682
游丝/蛛丝/藕丝 自然物/比喻 L478, L1756, L2339
丝竹 乐器代称 L440, L996
布谷 鸟名 L2075
染翰 沾墨写字 L2084, L4857
锦千堆/锦绣 喻花 L1393, L1422
绮里翁 人名 L2023
燕支常染 化妆品 L2444
莲衣 荷叶 L996
带砺/带经 典故/动作 L1229, L1368
桑麻 农事代称 L1140
鳬雁/鳬舄 L1672保留(官鞋典故) -

Step 5: 文件验证

Step 6: 撰写三份MD


统计总结


踩坑记录

  1. 文件内容重复:全书5520行中后2767行为前半部分的重复,四库提要位于L2753。所有行号引用以前半部分为准
  2. "葛"字误匹配严重:管葛、葛洪、葛令、葛亮均为人名,约占"葛"字命中的80%
  3. "锦"字喻花用法多:锦云、锦千堆、锦城等均为比喻或地名,实际织物含义的"锦"仅约5处
  4. "罗"字地名干扰:罗浮、罗虬等为地名/人名,织物义仅罗袜1处
  5. "丝"字比喻义泛滥:游丝、蛛丝、藕丝、丝竹等,实际丝织品义仅新丝、秋丝等少数