带你快速入门HuggingFace!
1 Hugging Face是什么如果你正在学习机器学习、大模型相关的内容那么Hugging Face是你一定不要错过的社区。其实Hugging Face和Github挺相似的相当于是机器学习界的github。Hugging Face一开始只是一家纽约的聊天机器人服务商本来是打算启动做聊天机器人的在github上开源了Transformer库结果有心栽花花不成无心栽柳柳成荫聊天机器人没做出个眉目倒是transformer库在社区里迅速火爆起来。下面我们来了解一下Hugging Face主要提供的服务。2 预训练模型Hugging Face提供了大量的预训练模型帮助到哪怕是小白也可以快速上手大佬们训练出来的模型。一开始主要涉及到的领域主要是NLP领域相关的任务比如文本分类、情感分析、对话问答以及命名实体识别等等。目前平台已经进一步壮大只要你能想得到的厉害的模型在上面基本上都可以找到。Hugging Face大量的预训练模型使得业界的研究者们不用再去重复造轮子可以更加关注自己的问题模型的开源反过来进一步推动了平台的发展。在Hugging Face上Transformer库是其中最核心的项目Transformer库提供了十分简洁的API接口使得模型加载、使用和训练变得非常简单。2.1 Transformer的安装它的安装非常简单我们在自己的虚拟环境中直接安装即可pip install transformers2.2 使用Transformer库假设我们的任务比较简单一般可以直接调用API就可以完成。 比如实现一个翻译任务from transformers import pipeline en_fr_translator pipeline(translation_en_to_fr) print(en_fr_translator(How old are you?))将以上代码执行将会得到翻译[{translation_text: quel âge êtes-vous?}]或者实现文本分类任务from transformers import pipeline classifier pipeline(sentiment-analysis) result classifier(I love using HuggingFace transformers!) print(result)最终我们会得到结果[{label: POSITIVE, score: 0.9998}]表明这是一句积极的话。或者实现文本生成的任务from transformers import pipeline generator pipeline(text-generation, modelgpt2) result generator(Once upon a time,) print(result[0][generated_text])看的出来其实还是有些在自说自话。除了Transformer之外我们也可以使用其他的模型比如BERTfrom transformers import pipeline unmasker pipeline(fill-mask, modelbert-base-chinese) unmasker(中国的首都是[MASK].)运行结果因此说白了Hugging Face其实就是将一堆牛叉的模型库封装好然后给你提供一份特定的使用说明书你直接去用就行了比如gpt、kimi、Qwen这些大模型我们没有必要去写代码也没有必要去重新训练(也不是你我能训练得了的)直接按照说明书直接用就ok。详细使用方法https://huggingface.co/docs/transformers/v4.21.0/en/main_classes/pipelines我们通过实际的界面来看比如在以上Hugging face的界面给出了一堆大模型就拿deepseek-ai/DeepSeek-OCR-2来说吧我们点击去看好家伙27W下载。下面给出了环境配置和具体使用代码以上代码是使用了DeepSeek-OCR-2模型进行OCR光学字符识别任务并将结果转换为markdown格式。因此想体验哪个大模型代码都不用你写了别人都给你写好了。3 数据集Hugging Face提供了大量的数据集包括音视频、计算机视觉、自然语言处理领域的任务。首先需要安装好Datasets库也是一行命令搞定pip install datasets我们来看看数据集的界面总共81万个数据集。3.1 数据集概览一般在下载数据集之前我们需要检查一下数据集信息比如Rotten Tomatoes 电影评论数据集from datasets import load_dataset_builder ds_builder load_dataset_builder(cornell-movie-review-data/rotten_tomatoes) ds_builder.info.description ds_builder.info.features最终得到数据集的关键信息Rotten Tomatoes movie review dataset for binary sentiment classification...任务二元情感分类positive/negative规模10,662条评论5,331条正面 5,331条负面来源Rotten Tomatoes 电影评论用途常用于情感分析基准测试3.2 数据集加载此时我们对数据集满意的话就可以使用load_dataset()加载它。from datasets import load_dataset dataset load_dataset(cornell-movie-review-data/rotten_tomatoes, splittrain)3.3 数据集划分使用函数 get_dataset_split_names() 可以列出数据集的分划名称。from datasets import get_dataset_split_names get_dataset_split_names(cornell-movie-review-data/rotten_tomatoes)最终结果为[train, validation, test]我们也可以只操作Train:from datasets import load_dataset dataset load_dataset(cornell-movie-review-data/rotten_tomatoes, splittrain)得到结果Dataset({ features: [text, label], num_rows: 8530 })返回所有from datasets import load_dataset dataset load_dataset(cornell-movie-review-data/rotten_tomatoes)得到结果DatasetDict({ train: Dataset({ features: [text, label], num_rows: 8530 }) validation: Dataset({ features: [text, label], num_rows: 1066 }) test: Dataset({ features: [text, label], num_rows: 1066 }) })详细使用方法参考中文网站https://hugging-face.cn/docs/datasets/index除此之外Hugging Face还提供了Doc界面包括一些参考文档以及社区文章类似于大家发发朋友圈一篇文章可能没有办法详细的说明Hugging Face的使用说明但是作为快速入门使用Model设Datasets已经够了剩下的大家可以多多探索哦用的越多越熟悉。Hugging Face作为目前机器学习领域最大的开源平台大家没事多逛逛还是很有好处的。欢迎大家关注我的gzh阿龙AI日记

相关新闻

【教程4>第10章>第5节】基于FPGA的图像直方图均衡化算法——理论分析与matlab仿真

【教程4>第10章>第5节】基于FPGA的图像直方图均衡化算法——理论分析与matlab仿真

目录 1.软件版本 2.图像直方图均衡化算法原理 步骤1:计算原始图像的灰度直方图 步骤2:计算原始灰度的累积分布函数 步骤3:构造映射函数 步骤4:根据映射关系生成均衡化图像 3. 图像直方图均衡化的matlab仿真测试 欢迎订阅FPGA/MATLAB/Simulink系列教程 《★教程1:mat…

2026/5/17 2:34:39 阅读更多 →
安卓透明屏幕工具,无广告免费镜子壁纸

安卓透明屏幕工具,无广告免费镜子壁纸

软件介绍 今天给大家安利一款安卓端的宝藏APP——透视手机。它完全免费,一点广告都没有,也不弹窗,功能还挺有意思:动态壁纸、镜子屏幕、透明屏幕、透明桌面模拟,玩起来新鲜感十足。 透明屏幕:桌面秒变…

2026/5/17 2:34:38 阅读更多 →
Python毕设选题推荐:Python Flask基于CS架构的医院财务管理系统基于python+CS架构的医院财务管理系统【附源码、mysql、文档、调试+代码讲解+全bao等】

Python毕设选题推荐:Python Flask基于CS架构的医院财务管理系统基于python+CS架构的医院财务管理系统【附源码、mysql、文档、调试+代码讲解+全bao等】

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

2026/5/17 2:34:36 阅读更多 →

最新新闻

2026视频去水印方法,免费视频去水印实用教程

2026视频去水印方法,免费视频去水印实用教程

在日常浏览短视频、自媒体素材整理、个人作品备份的场景中,视频水印常常会影响画面观感与素材使用效果。很多普通用户都在寻找简单、高效、无门槛的视频去水印方案,尤其是适配手机、电脑多端的免费视频去水印方法。2026年各类去水印工具持续迭代&#xf…

2026/7/4 21:13:56 阅读更多 →
Codex如何为AI代码生成树立质量标杆:从原理到实践

Codex如何为AI代码生成树立质量标杆:从原理到实践

🚀 30款热门AI模型一站整合,DeepSeek/GLM/Qwen 随心用,限时 5 折。 👉 点击领海量免费额度 1. 先搞清楚“最严的父亲”到底在说什么 看到“Codex堪称Claude Code最严的父亲”这个标题,第一反应可能是困惑。这不像一…

2026/7/4 21:13:56 阅读更多 →
VisTR完全指南:从安装到推理,30分钟快速掌握视频实例分割神器

VisTR完全指南:从安装到推理,30分钟快速掌握视频实例分割神器

VisTR完全指南:从安装到推理,30分钟快速掌握视频实例分割神器 【免费下载链接】VisTR [CVPR2021 Oral] End-to-End Video Instance Segmentation with Transformers 项目地址: https://gitcode.com/gh_mirrors/vi/VisTR VisTR(End-to-…

2026/7/4 21:11:55 阅读更多 →
CANN/ge LLM-DataDist C++接口列表

CANN/ge LLM-DataDist C++接口列表

# LLM-DataDist-interface-list 【免费下载链接】ge GE(Graph Engine)是面向昇腾的图编译器和执行器,提供了计算图优化、多流并行、内存复用和模型下沉等技术手段,加速模型执行效率,减少模型内存占用。 GE…

2026/7/4 21:09:54 阅读更多 →
电流频率转换模块选型要考虑哪些参数?量程匹配、精度等级与封装形式的综合决策

电流频率转换模块选型要考虑哪些参数?量程匹配、精度等级与封装形式的综合决策

I/F(电流-频率)转换模块的选型直接影响测控系统的整体性能。面对不同的应用场景和技术要求,如何从量程、精度、温度范围、封装形式、输出频率等多个维度做出合理选择,是系统设计师需要解决的问题。本文结合智腾微电子JLHIF160的技…

2026/7/4 21:09:54 阅读更多 →
ThinkPHP 6.0.8反序列化漏洞深度剖析:从POP链原理到实战利用

ThinkPHP 6.0.8反序列化漏洞深度剖析:从POP链原理到实战利用

1. 项目概述:一次对ThinkPHP6.0.8反序列化漏洞的深度剖析最近在复盘一些经典的PHP框架漏洞案例,ThinkPHP6.0.8的反序列化漏洞(CVE-2021-36542)绝对是一个绕不开的经典。这个漏洞的利用链(POP Chain)设计得非…

2026/7/4 21:05:52 阅读更多 →

日新闻

Memcached 1.6.43 发布:关键安全修复版本,多项问题得到解决

Memcached 1.6.43 发布:关键安全修复版本,多项问题得到解决

Memcached 1.6.43 正式发布,这是一个关键的安全修复版本,修复了多个方面的问题,还对部分功能进行了优化。 安全修复亮点 此次发布在安全修复上表现突出。binprot 避免了项目引用计数溢出,mcmc 因安全问题提升了上游版本号&#xf…

2026/7/4 0:04:29 阅读更多 →
终极指南:使用HMCL启动器跨平台畅玩Minecraft的完整解决方案

终极指南:使用HMCL启动器跨平台畅玩Minecraft的完整解决方案

终极指南:使用HMCL启动器跨平台畅玩Minecraft的完整解决方案 【免费下载链接】HMCL A Minecraft Launcher which is multi-functional, cross-platform and popular 项目地址: https://gitcode.com/gh_mirrors/hm/HMCL HMCL(Hello Minecraft! Lau…

2026/7/4 0:06:29 阅读更多 →
KMX63与PIC18F66K40在嵌入式HMI中的硬件协同与低功耗设计

KMX63与PIC18F66K40在嵌入式HMI中的硬件协同与低功耗设计

1. KMX63与PIC18F66K40的硬件协同架构解析KMX63作为一款三轴加速度计和磁力计组合传感器,与PIC18F66K40微控制器的搭配堪称嵌入式HMI开发的黄金组合。这套硬件组合的核心优势在于KMX63提供的高精度运动感知能力与PIC18F66K40强大的信号处理能力形成了完美互补。KMX6…

2026/7/4 0:06:29 阅读更多 →

周新闻

月新闻