研究总结 日志 原文

《西使记》服饰提取工作日志

任务编号:21-b

基本信息


步骤1:文件基本信息检查

wc -l /home/z/my-project/upload/part4/西使记.txt
# 结果:21行

ls -la /home/z/my-project/upload/part4/西使记.txt
# 结果:8228字节

文件结构分析

注意:正文仅为1行长文,行内grep无法提供行号级别的上下文定位,需用字符级上下文提取。


步骤2:多轮关键词grep搜索

第1轮:制度词+服色词

关键词:服色|舆服|冠服|章服|赐服|赐紫|赐绯|借紫|品色|紫袍|绯袍|绿袍|金带|玉带|鱼袋|幞头|补服
结果:无命中

结论:本文无中原服制相关内容。

第2轮:核心词-衣物类

关键词:衣|裳|裘|冠|弁|佩|带|履|舄|笏|绶|冕|袍|衫|裙|袄|褐
结果:命中行20(正文行)

命中词汇及次数:

词汇 命中次数 语境
4次 衣青、衣冠、衣钵、不去衣
1次 衣冠如菩萨状
2次 一带有直银千笏者、带有直千金者
1次 直银千笏(量词,非服饰笏板)

第3轮:核心词-面料类

关键词:帛|绢|绫|罗|缎|锦|绮|纱|绸|丝|布|葛|麻|棉|茧|蚕
结果:命中行20

命中词汇及次数:

词汇 命中次数 语境
3次 布达国(地名,非面料)
1次 博啰城(地名,非面料)
0次 无实际命中

结论:面料类词汇在本文中无真实命中,均为地名用字。

第4轮:装饰词

关键词:黼黻|文章|纹|绣|织|染|彩|画
结果:命中行6、行20

命中词汇及次数:

词汇 命中次数 语境
2次 松文(山石纹理)、有文而无孔方(钱币文字)
2次 绘其上甚盛、所绘达摩像
1次 如中国画者(孔雀)
1次 其俗渐染颇似中国(风俗影响,非染色)

第5轮:动作词

关键词:服|冠|戴|穿|著|被|衣|披|裹|束|系
结果:命中行20

命中词汇及次数:

词汇 命中次数 语境
2次 僧服、末服之国(降服义)
4次 衣青(穿衣)、衣冠、衣钵、不去衣
2次 被发(散发)、被引入海(被动)
1次 衣冠

步骤3:上下文提取(sed/rg -oP字符级)

对命中的关键词逐一提取前后约30-40字符的上下文,共执行13组上下文提取命令。详见《西使记_原文提取.md》。


步骤4:分类整理

将提取到的20条服饰相关信息分为5大类:

另有6条为伪命中(地名用字、被动语态等),已排除。


步骤5:产出3份MD文件

文件名 内容 大小
西使记_总结.md 文献概述、统计分类、学术价值评估 ≤20KB
西使记_日志.md 本文件,工作过程记录 ≤20KB
西使记_原文提取.md 原文片段及注释 ≤20KB

伪命中排除记录

序号 原文片段 误匹配词 排除原因
1 布达国 地名,非布料
2 博啰城 地名,非罗纱
3 其俗渐染颇似中国 风俗渐变义,非染色工艺
4 有文而无孔方 钱币铭文,非服饰纹样
5 被引入海不复出 被动标记,非被服
6 末服之国 降服义,非服饰
7 直银千笏 量词(笏=财物单位),非笏板

特殊说明

  1. 本文为游记体裁,非舆服志或礼志,服饰内容极为稀少且零散
  2. 所记服饰均为异域民族,无中原服饰制度信息
  3. 正文为单行长文,grep行号定位无意义,需字符级上下文提取
  4. "衣钵"为佛教术语(法统传承),非严格服饰,但因涉及"衣"字仍收录备参
  5. "弓鞋"为渡船比喻,非实际鞋履,因涉及鞋履词汇仍收录备参