《香山集》服饰提取日志
提取流程
Step 1: wc-l 统计
wc -l 香山集.txt → 1672行
Step 2: 8轮grep-n关键词扫描
| 轮次 | 命令 | 命中行数 |
|---|---|---|
| R1 | grep -n '冠|冕|弁|帻|帽|巾|幞头|进贤冠|武冠' |
50 |
| R2 | grep -n '衣|裳|袍|衫|袄|褂|襦|褐|裘|袈裟' |
106 |
| R3 | grep -n '裙|裤|履|舄|靴|袜|鞋' |
17 |
| R4 | grep -n '带|佩|笏|绶|鱼袋|玉带|金带|银带' |
24 |
| R5 | grep -n '锦|绮|帛|绢|绫|罗|缎|绸|缂丝|纱' |
57 |
| R6 | grep -n '丝|麻|葛|布|裘|棉|缯|缣' |
42 |
| R7 | grep -n '染|色|绣|纹|黼|黻|章|赭|朱|紫|绯|青' |
288 |
| R8 | grep -n '赐服|赐衣|赐紫|赐绯|赐袍|赐带' |
0 |
Step 3: R7精炼
R7原始命中288行,单字"色""章""青""紫"等误命中过多。执行精炼:
grep -n '朱衣\|紫衣\|绯衣\|青衣\|朱袍\|紫袍\|绯袍\|青袍\|朱衫\|紫衫\|绯衫\|青衫\|紫绶\|朱绶\|青衿\|赭衣\|赭袍\|绣衣\|绣袍\|绣衫\|黼黻\|章服\|染色\|色衣\|色袍\|色衫' → 12行
grep -n '紫.*衣\|紫.*袍\|紫.*衫\|紫.*服\|紫.*带\|紫.*绶\|朱.*衣\|朱.*袍\|绯.*衣\|绯.*袍\|青.*衣\|青.*袍\|青.*衫\|赭.*衣' → 25行
grep -n '服色\|衣色\|袍色\|紫金\|金紫\|银青\|青紫\|朱紫\|绯紫' → 0行
R7精炼后实际服饰色词行:12行(去重后)
Step 4: R8扩展
R8原始0命中。扩展搜索"赐"字:
grep -n '赐' → 5行
其中仅L998"轻细难沾时服赐"为明确赐服内容。
Step 5: 合并去重
cat R1~R8结果 | sort -t: -k1 -n | uniq → 244行
Step 6: 对抗审查
排除假阳性9行:
| 行号 | 假阳性词 | 原因 |
|---|---|---|
| L50 | 蛛丝 | 蜘蛛丝,非丝织品 |
| L71 | 丝桐 | 琴弦,非服饰 |
| L661 | 冠九州 | "冠"作动词"居首" |
| L861 | 冠中京 | "冠"作动词"居首" |
| L1165 | 带雨行 | "带"作介词"带着" |
| L1213 | 冠浦边州 | "冠"作动词"居首" |
| L1229 | 带露含烟 | "带"作介词"带着" |
| L1310 | 带露浓 | "带"作介词"带着" |
| L1455 | 冠诸泉 | "冠"作动词"居首" |
审查后真实服饰行:235行
Step 7: 分类统计
对235行按8类关键词进行交叉分类(一行可属多类):
| 类别 | 行数 | 代表性词条 |
|---|---|---|
| 首服 | 32 | 冕旒、纶巾、纱帽、铁冠、黄冠、岸帻 |
| 身服 | 53 | 青衫、衮衣、征衣、锦衣、白衣、斑衣、裘 |
| 下体足服 | 15 | 裙腰、缟裙、青鞋、芒鞵、革鞾 |
| 佩饰 | 10 | 金鱼玉带、袍笏、绅笏、簪绂、佩环 |
| 精织物 | 14 | 霜缣、雾縠、生绡、轻绡、绮裘、绫衾 |
| 粗织物 | 10 | 布被、菟裘、缣推、绵蕝 |
| 服色纹饰 | 31 | 黼黻、绣衣、衮绣、紫枢、青衫 |
| 赐服 | 9 | 时服赐、锦衣命服、金鱼玉带 |
Step 8: 写入三份MD
- 香山集_总结.md:综合分析
- 香山集_日志.md:本文件
- 香山集_原文提取.md:按类别辑录原文
日志记录时间:2026年3月4日