研究总结 日志 原文

《书传会选》服饰内容提取·日志

基本信息

提取过程

第一轮:基础关键词搜索(衣/裳/裘/弁/冕/服)

关键词 命中行数 行号
22行 54,56,58,62,80,81,133,135,137,167,169,171,181,209,211,217,219,232,234,235,237,238
5行 62,80,133,172,232
2行 80,219
3行 84,175,232
5行 60,62,119,232,234
47行 34,56,58,60,62,80,81,110,111,113,115,119,123,125,131,133,137,138,161,166,167,169,171,173,174,175,177,179,181,183,205,208,209,211,213,216,217,219,228,229,232,234,235,237,241,243,245

操作命令(Python脚本,因bash grep遇编码错误):

with open('书传会选.txt', 'r', encoding='utf-8', errors='replace') as f:
    lines = f.readlines()
keywords = ['衣', '裳', '裘', '弁', '冕', '服']
for kw in keywords:
    hits = [i+1 for i, line in enumerate(lines) if kw in line]
    print(f'{kw}: {len(hits)} hits, lines: {hits}')

第二轮:冠/带/佩/舄/芾/韨搜索

关键词 命中行数 行号 备注
8行 34,80,119,171,205,207,232,234 行34冠篇首=编排义;行80冠石山=地名
0行 无命中
12行 56,62,80,82,84,119,121,161,166,213,243,247 大多为"背音佩"音释或人名
0行 无命中
0行 无命中
0行 无命中

第三轮:黼/黻/绣/衮/皮弁/章服搜索

关键词 命中行数 行号
2行 62,232
1行 62
2行 62,232
5行 60,62,80,119,232
皮弁 0行
章服 0行

第四轮:玄衣/黄裳/赤舄/采服/锡服/絺冕搜索

关键词 命中行数 行号
玄衣 0行
黄裳 0行
赤舄 0行
采服 0行
锡服 0行
絺冕 0行

第五轮:五服/五采/山龙/华虫/宗彝/藻火/粉米搜索

关键词 命中行数 行号 备注
五服 9行 56,60,62,80,115,177,219,228,229 行56=刑罚义;行62/80=地域义+服饰义混合
五采 1行 62 服饰义
山龙 1行 62 服饰义
华虫 1行 62 服饰义
宗彝 0行 (注:原文用"宗彝"的异体字)
藻火 1行 62 服饰义
粉米 1行 62 服饰义

上下文提取操作

对关键行进行上下文提取,因行超长(最长达9942字符),采用Python定位关键词前后120-300字符的方式提取:

CTX = 120  # 上下文字符数
for ln in key_lines:
    line = lines[ln-1]
    for kw in found_kws:
        pos = line.find(kw)
        s = max(0, pos - CTX)
        e = min(len(line), pos + len(kw) + 180)
        ctx = line[s:e].strip()
        print(f'L{ln}[{kw}]: ...{ctx}...')

重点提取行:56, 58, 60, 62, 80, 119, 133, 171, 175, 219, 232, 234

噪声过滤

以下内容被判定为非服饰义并排除:

  1. 行34:服虔(人名)、"以序冠篇首"(编排用语)
  2. 行54:胤之舞衣——舞具,非常服
  3. 行56:五刑有服/五服三就——刑罚义
  4. 行58:奄衣检反——音释标注;"中土之民服从"——顺从义
  5. 行80:冠石山——地名
  6. 行82、84:背音佩——音释标注
  7. 行56"北如字又音佩"、行62"背音佩"——音释,非服饰义
  8. 行80"珠为服饰"——间接提及,非核心服饰制度
  9. 行175"尽弁"——事件描述,非服饰制度阐述

最终统计