代码收藏家技术教程 2024-10-15

Python库 – transformers

transformers 库是由 Hugging Face 开发的一个非常流行的 Python 库，用于自然语言处理（NLP）任务。它提供了大量的预训练模型，这些模型可以用于各种 NLP 任务，如文本分类、问答、翻译、摘要生成等。以下是关于 transformers 库的详细介绍：

1. 主要特点

预训练模型：transformers 库包含了多种预训练的语言模型，如 BERT、GPT、T5、XLNet 等。这些模型在大规模文本数据上进行了预训练，可以直接用于各种下游任务。

易用性：库的设计非常用户友好，提供了简洁的 API 接口，使得加载和使用预训练模型变得非常容易。

任务支持：支持多种 NLP 任务，包括但不限于文本分类、命名实体识别、问答、翻译、文本生成等。

社区支持：有一个活跃的社区，不断有新的模型和功能被添加进来。

2. 安装

可以通过 pip 安装 transformers 库：

pip install transformers

3. 基本使用

以下是一个简单的示例，展示如何使用 transformers 库加载一个预训练的 BERT 模型并进行文本分类：

from transformers import BertTokenizer, BertForSequenceClassification
import torch

# 加载预训练的 BERT 模型和分词器
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
model = BertForSequenceClassification.from_pretrained('bert-base-uncased')

# 输入文本
text = "Hello, how are you?"

# 对文本进行分词
inputs = tokenizer(text, return_tensors='pt')

# 使用模型进行预测
outputs = model(**inputs)
logits = outputs.logits

# 获取预测结果
predictions = torch.argmax(logits, dim=-1)
print(predictions)

4. 主要模块

transformers.models：包含了各种预训练模型的实现，如 BertModel、GPT2Model 等。

transformers.tokenization_utils：提供了分词器的基类和各种分词器的实现。

transformers.pipelines：提供了一些预定义的管道，用于简化特定任务的模型使用，如 pipeline('sentiment-analysis')。

5. 示例任务

文本分类

from transformers import pipeline

classifier = pipeline('sentiment-analysis')
result = classifier("I love using the transformers library!")
print(result)

问答

from transformers import pipeline

question_answerer = pipeline('question-answering')
context = "Hugging Face is a company based in New York."
question = "Where is Hugging Face based?"
result = question_answerer(question=question, context=context)
print(result)