当前位置: 代码网 > it编程>前端脚本>Python > Pytorch微调BERT实现命名实体识别

Pytorch微调BERT实现命名实体识别

2025年03月20日 Python 我要评论
环境准备在继续之前,确保你已经安装了pytorch, transformers by hugs face和其他必要的python库:pip install torch transformers dat

环境准备

在继续之前,确保你已经安装了pytorch, transformers by hugs face和其他必要的python库:

pip install torch transformers datasets

加载预训练bert模型

首先导入所需的模块并加载预训练的bert模型。我们使用“bert-base-case”模型作为起点:

from transformers import berttokenizer, bertfortokenclassification
import torch

# load pre-trained model tokenizer (vocabulary)
tokenizer = berttokenizer.from_pretrained('bert-base-cased')

# load pre-trained model for token classification
model = bertfortokenclassification.from_pretrained('bert-base-cased', num_labels=9)

这里,num_labels表示我们希望分类的实体类型的数量。对于简单的ner任务,这可能包括person、organization、location等标签。

准备数据集

我们将使用hug face数据集库来加载数据集。我们将用‘conll2003’数据集来演示这一点:

from datasets import load_dataset

dataset = load_dataset("conll2003")

conll-2003 数据集包含单词、词性标记、句法块标记和命名实体标记。对于ner任务,我们感兴趣的是“ner”标签。它是经典的 英文命名实体识别(named entity recognition, ner) 数据集。以下是详细介绍:

1. 数据集背景

  • 全称: conference on neural information processing systems (conll) 2003 task
  • 领域: 自然语言处理(nlp)
  • 任务: 命名实体识别(ner)
  • 语言: 英文(english)
  • 主办方: conll 会议(hugging face 的 load_dataset 已将其整合到平台)

2. 核心内容

标注实体类型

数据集中定义了以下 4 种实体类型:

  • per(人名,如 “john smith”)
  • org(组织机构,如 “google”)
  • loc(地理位置,如 “new york”)
  • date(日期,如 “2023-10-05”)

数据格式

  • 结构: 每条数据是一个句子,按空格分割的单词列表,每个单词附带对应的标签。

  • 示例:

[
  {"word": "john", "label": "per"},
  {"word": "works", "label": "o"},
  {"word": "at", "label": "o"},
  {"word": "google", "label": "org"},
  ...
]
  • 列名text(句子原文)、words(分词后的单词列表)、labels(实体标签)。

数据集划分

  • 训练集: ~14,000 句子
  • 验证集: ~3,000 句子
  • 测试集: ~3,000 句子

3. 应用场景

  • 训练 ner 模型: 如 rnn、lstm、transformer(bert 等)。
  • 评估模型性能: 官方提供了基准结果(如 f1 分数),可用于对比模型效果。
  • 研究 nlp 任务: 分析实体识别的难点(如歧义、复合实体)。

注意事项

  • 标注标准: 标签为 o 表示非实体,其他为具体实体类型。
  • 数据规模: 相比现代数据集(如 ontonotes),句子和单词数量较小,适合快速验证模型。
  • 扩展性: 可与其他 ner 数据集(如 conll2000nerdb)结合使用以提升模型泛化能力。

标记与对齐

在通过 bert 处理数据之前,正确地对其进行标记并管理词块标记化至关重要,这包括正确对齐实体标签。以下是我们在数据集上进行标记化和对齐的方式:

def tokenize_and_align_labels(examples):
    tokenized_inputs = 
    tokenizer(examples["tokens"], 
              truncation=true, 
              padding="max_length", 
              is_split_into_words=true)
    labels = []
    for i, label in enumerate(examples["ner"]):
        word_ids = tokenized_inputs.word_ids(batch_index=i)
        previous_word_idx = none
        label_ids = []
        for word_idx in word_ids:
            if word_idx is none:
                label_ids.append(-100)
            elif word_idx != previous_word_idx:
                label_ids.append(label[word_idx])
            else:
                label_ids.append(-100)
            previous_word_idx = word_idx
        labels.append(label_ids)
    tokenized_inputs["labels"] = labels
    return tokenized_inputs

# apply tokenizer
encoded_dataset = dataset.map(tokenize_and_align_labels, batched=true)

这段代码的作用是对 命名实体识别(ner)数据进行分词(tokenization)和标签对齐(label alignment),使其适配预训练模型(如 bert、roberta 等)的输入格式。以下是逐行解释和核心逻辑分析:

  • 输入 examples 包含两个关键字段:
    • "tokens": 原始句子的单词列表(如 [["john", "works", "at"], ...])。
    • "ner": 对应的实体标签列表(如 [["per", "o", "o"], ...])。
  • 输出:
    • tokenized_inputs: 分词后的模型输入(包含 input_idsattention_mask 等)。
    • labels: 与模型输出对齐的标签(将原始标签映射到分词后的子词位置)。

-100 标签用于在训练期间屏蔽标签,并且对应于在损失计算过程中必须跳过的标记。

微调 bert

让我们使用 pytorch 框架设置数据加载器,并定义训练和评估函数。此过程涉及配置优化器、设置学习率以及建立微调循环:

from torch.utils.data import dataloader
from transformers import adamw

train_dataset = encoded_dataset["train"]
train_dataloader = dataloader(train_dataset, shuffle=true, batch_size=16)

optimizer = adamw(model.parameters(), lr=5e-5)

model.train()
for epoch in range(3):  # loop over the dataset multiple times
    for batch in train_dataloader:
        inputs = {k: v.to(device) for k, v in batch.items() if k != "labels"}
        labels = batch["labels"].to(device)
        outputs = model(**inputs, labels=labels)
        loss = outputs.loss
        loss.backward()
        optimizer.step()
        optimizer.zero_grad()

训练通常需要对 gpu 利用率给予特别关注。如果具备使用 gpu 的条件,请确保您的模型、输入数据以及优化器都已迁移到 gpu 上。

最后总结

在 pytorch 中对 bert 进行微调以用于命名实体识别涉及一系列步骤,从加载预训练的 bert 分词器和模型开始,到准备数据集、训练,最后使用训练好的模型来识别命名实体。有了合适的数据集和适当的模型调整,这种技术使你能够利用最先进的 nlp 架构应用于各种实际场景。

以上就是pytorch微调bert实现命名实体识别的详细内容,更多关于pytorch bert命名实体识别的资料请关注代码网其它相关文章!

(0)

相关文章:

版权声明:本文内容由互联网用户贡献,该文观点仅代表作者本人。本站仅提供信息存储服务,不拥有所有权,不承担相关法律责任。 如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 2386932994@qq.com 举报,一经查实将立刻删除。

发表评论

验证码:
Copyright © 2017-2025  代码网 保留所有权利. 粤ICP备2024248653号
站长QQ:2386932994 | 联系邮箱:2386932994@qq.com