韦斋集玉澜集 服饰提取日志
基本信息
- 书名:韦斋集十二卷·玉澜集一卷
- 作者:宋·朱松、朱橰
- 源文件:/home/z/my-project/upload/四库别集3/四库别集3/韦斋集玉澜集.txt
- 输出目录:/home/z/my-project/upload/四库别集3output/韦斋集玉澜集/
- 总行数:1176
提取流程
第一轮:wc-l
- 命令:
wc -l 韦斋集玉澜集.txt
- 结果:1176行
第二轮:8轮grep关键词
| 轮次 |
关键词 |
匹配行数 |
| 1 |
冠冕弁帻帽巾幞头进贤冠武冠 |
36 |
| 2 |
衣裳袍衫袄褂襦褐裘袈裟 |
57 |
| 3 |
裙裤履舄靴袜鞋 |
17 |
| 4 |
带佩笏绶鱼袋玉带金带银带 |
16 |
| 5 |
锦绮帛绢绫罗缎绸缂丝纱 |
23 |
| 6 |
丝麻葛布裘棉缯缣 |
27 |
| 7 |
染色绣纹黼黻章赭朱紫绯青 |
164 |
| 8 |
赐服赐衣赐紫赐绯赐袍赐带 |
1 |
第三轮:去重合并
- 合并所有行号去重:240个唯一行号
- 非服饰义大量误报,主要来自轮7(色、章、青、紫、朱等常见字)
第四轮:高精度靶向grep
- 执行精确服饰术语grep:乌纱帻、华裙、深衣、纶巾、幅巾、布衣、锦裘、青衫、铁衣、蓑衣、绛裙、羽衣、缓带、佩韦、赐紫金鱼袋、黼黻、端冕、冠裳、缃罗、白防、驼褐、吉贝、布衾、裁襦、湼衣、华衮、三服、身章、金带、对衣等
- 结果:获得高置信度服饰条目约80条
第五轮:补充grep
- 追加搜索:翠羽、簪缨、投簪、缨冠、纩息、翠羽、弹冠等
- 新增若干条目,如簪缨(行462)、投簪(行692)、纩息(行873)
第六轮:对抗审查
- 去除误报:
- "丝竹"→非服饰义(乐器),保留1处因与黼黻并列
- "罗列"→非织物义(排列),删除
- "葛陂"→地名非织物,删除
- "翠羽"→植物/饰物非织物,保留为饰物参考
- "章"大量出现于"文章""章奏"→非服饰义,仅保留"身章""章服"
- "紫宸"→宫殿名非紫色义,删除
- "青"大量出现于"青天""青草"→非服饰义
- 补充遗漏:
- 巾帼(行276):将军揽镜媚巾帼
- 襆被(行820):仅能襆被以来
- 白衣(行1154):白衣云正浮
- 红巾(行1084):红巾青鸟两相忘
- 熟衣(行680):熟衣已试九秋凉
- 山龙衣(行668):半缕不上山龙衣
输出文件
- 韦斋集玉澜集_总结.md — 分类统计与核心发现
- 韦斋集玉澜集_日志.md — 本文件,提取流程记录
- 韦斋集玉澜集_原文提取.md — 全部原文摘录附行号
MD文件字节数
| 文件 |
字节数 |
| 韦斋集玉澜集_总结.md |
~3.5KB |
| 韦斋集玉澜集_日志.md |
~3.0KB |
| 韦斋集玉澜集_原文提取.md |
~12KB |
日志生成时间:2026-03-04