AI模型训练:数据获取与增强
数据是训练一切模型的基础因此如何获取数据就成了一个先行条件。1.常见的机器学习数据集1MNIST属于计算机视觉领域手写数字灰度图包含有六万的训练集以及一万的测试集。2ImageNet引领了深度学习的热点它包含1400万的标注图像2万多的类别。3AudioSet基于 YouTube 上声音的切片用于进行声音分类。4KITTI基于驾驶的信息用作无人驾驶训练。5LibriSpeech有声读物训练集基于 LibriVox 项目的公共领域英语有声读物构建用于自动语音识别。6Object Detection Datasets用于目标检测的数据集包含车辆、人脸、火灾、危险行为等。https://public.roboflow.com/object-detection2.生成数据集1使用 GAN shttps://this-person-does-not-exist.com/en2数据增强通过对原始训练数据进行一系列随机但有意义的变换生成新的、多样化的训练样本的技术。例如旋转、缩放、噪音、抖动等技术增加数据的多样性和数量让模型看到更多可能的“变体”从而提高模型的泛化能力和鲁棒性。# 定义多种增强变换 def create_augmentation_transforms(): transforms_list { # 基础几何变换 Original: transforms.Compose([ transforms.Resize((256, 256)), ]), # 各种旋转 Rotate 30°: transforms.Compose([ transforms.Resize((256, 256)), transforms.RandomRotation(30), ]), Rotate 45°: transforms.Compose([ transforms.Resize((256, 256)), transforms.RandomRotation(45), ]), Rotate -15°: transforms.Compose([ transforms.Resize((256, 256)), lambda x: F.rotate(x, -15), # 固定角度旋转 ]), # 缩放和裁剪 Random Resized Crop: transforms.Compose([ transforms.RandomResizedCrop( size256, scale(0.5, 1.0), # 随机缩放50%-100% ratio(0.75, 1.33) # 宽高比范围 ), ]), # 翻转 Horizontal Flip: transforms.Compose([ transforms.Resize((256, 256)), transforms.RandomHorizontalFlip(p1.0), # 强制翻转 ]), Vertical Flip: transforms.Compose([ transforms.Resize((256, 256)), transforms.RandomVerticalFlip(p1.0), ]), # 颜色变换 Color Jitter (Strong): transforms.Compose([ transforms.Resize((256, 256)), transforms.ColorJitter( brightness0.5, contrast0.5, saturation0.5, hue0.3 ), ]), Grayscale: transforms.Compose([ transforms.Resize((256, 256)), transforms.Grayscale(num_output_channels3), # 保持3通道 ]), # 噪声 Gaussian Noise: transforms.Compose([ transforms.Resize((256, 256)), AddNoise(noise_typegaussian, intensity0.2), ]), Salt Pepper Noise: transforms.Compose([ transforms.Resize((256, 256)), AddNoise(noise_typesalt_pepper, intensity0.05), ]), # 模糊效果 Gaussian Blur: transforms.Compose([ transforms.Resize((256, 256)), transforms.GaussianBlur(kernel_size5, sigma(0.1, 2.0)), ]), # 透视变换 Perspective Transform: transforms.Compose([ transforms.Resize((256, 256)), transforms.RandomPerspective( distortion_scale0.5, p1.0 ), ]), # 仿射变换 Affine Transform: transforms.Compose([ transforms.Resize((256, 256)), transforms.RandomAffine( degrees0, translate(0.2, 0.2), # 平移20% scale(0.8, 1.2), # 缩放80%-120% shear20 # 错切20度 ), ]), # 弹性变换 Elastic Transform: transforms.Compose([ transforms.Resize((256, 256)), transforms.ElasticTransform(alpha50.0, sigma5.0), ]), # 组合增强随机顺序 Random Combination: transforms.Compose([ transforms.Resize((256, 256)), transforms.RandomApply([ transforms.RandomRotation(20), transforms.ColorJitter(0.3, 0.3, 0.3, 0.1), ], p0.8), transforms.RandomHorizontalFlip(p0.5), transforms.RandomGrayscale(p0.2), ]), # 边缘增强 Sharpness Adjust: transforms.Compose([ transforms.Resize((256, 256)), transforms.RandomAdjustSharpness(sharpness_factor2, p1.0), ]), # 自动对比度 Auto Contrast: transforms.Compose([ transforms.Resize((256, 256)), transforms.RandomAutocontrast(p1.0), ]), }文本增强将一段话翻译为另一种中间语言然后又翻译回该语言以此实现语义相同但是语法结构不同的效果。此外还有多种方式比如词汇级增强同义词替换、随机插入字符级增强随机字符替换、随机字符交换等句子级增强语法树变换等。

相关新闻

系统思考:以客户为中心

系统思考:以客户为中心

周一的学习实验室,有小伙伴提到“控场力”。我当下的判断是:控场本身并不是能力,而是系统良性运转后的外显结果。 顺着这个判断继续拆,我们发现一个关键变量反复出现——是否真正以学员为中心、以客户为中心。 这让我想到企业里那…

2026/7/5 7:08:28 阅读更多 →
④YT代码去除冗余

④YT代码去除冗余

一、移除冗余代码 首先将STM32CubeMX中的工程名称修改为"YT",然后在Project Manager的Project选项卡中完成相应配置(具体勾选项如下所示),最后重新生成项目以创建新的YT.uvprojx工程文件。需特别注意:MDK-AR…

2026/7/3 15:31:44 阅读更多 →
Neo4j的安装与配置

Neo4j的安装与配置

一、安装 https://neo4j.com/download-center/#community Windows用户: → 点击 Windows 标签 → 选择 ZIP archive (recommended) → 文件名示例:neo4j-community-5.20.0-windows.zip →或者直接在网盘内下载(百度网盘 请输入提取码) macOS用户&…

2026/7/3 15:31:47 阅读更多 →

最新新闻

NCM加密音乐文件本地化转换方案:从原理到自动化实践

NCM加密音乐文件本地化转换方案:从原理到自动化实践

1. 项目概述:从“加密枷锁”到“自由播放”如果你是一个音乐爱好者,尤其是网易云音乐的重度用户,那么你大概率在电脑的某个角落发现过一些以.ncm为后缀的奇怪文件。这些文件直接双击无法用常规播放器打开,想导入手机或车载U盘更是…

2026/7/5 9:32:39 阅读更多 →
RevokeMsgPatcher防撤回补丁:原理、风险与Windows微信/QQ/TIM实操指南

RevokeMsgPatcher防撤回补丁:原理、风险与Windows微信/QQ/TIM实操指南

1. 项目概述:为什么我们需要一个“防撤回补丁”? 在即时通讯软件里,“消息撤回”功能设计的初衷是给用户一个纠正错误的机会,比如打错字、发错人或者一时冲动说了不合适的话。但很多时候,这个功能也带来了信息不对等的…

2026/7/5 9:28:38 阅读更多 →
Folia:全屏沉浸式在线音乐播放器,多端体验+AI 主题生成带来独特听歌感受!

Folia:全屏沉浸式在线音乐播放器,多端体验+AI 主题生成带来独特听歌感受!

Folia 是一款以全屏沉浸式歌词播放为核心的在线音乐播放器,支持多平台,具备智能歌词匹配、AI 生成配色主题等功能,为用户带来独特听歌体验。项目亮点与特色Folia 支持网易云、navidrome 和本地音乐库。其独特之处在于智能歌词匹配&#xff0c…

2026/7/5 9:26:38 阅读更多 →
SQL注入攻防全解析:从原理到实战,掌握Web安全核心漏洞

SQL注入攻防全解析:从原理到实战,掌握Web安全核心漏洞

1. 项目概述:为什么SQL漏洞是面试官的“心头好”? 干了这么多年安全,也面过不少人,我发现一个挺有意思的现象:无论你是应聘渗透测试、安全开发还是安全运维,面试官几乎都会把SQL注入漏洞拎出来问一遍。从“…

2026/7/5 9:26:37 阅读更多 →
Weex架构安卓商城APP逆向工程包:含完整源码结构、APK资源解包与AndroidX/Support双兼容支持

Weex架构安卓商城APP逆向工程包:含完整源码结构、APK资源解包与AndroidX/Support双兼容支持

本文还有配套的精品资源,点击获取 简介:一套真实上线商城App的逆向分析成果,主逻辑基于Weex框架(main.js驱动),集成weex-main-jsfm.js、weex-rax-api.js等核心运行时模块,支持RAX组件开发&am…

2026/7/5 9:20:36 阅读更多 →
山东大学编译原理PL0实验代码:Java实现的词法扫描、递归下降语法分析与P-code解释器

山东大学编译原理PL0实验代码:Java实现的词法扫描、递归下降语法分析与P-code解释器

本文还有配套的精品资源,点击获取 简介:一套开箱即用的PL/0语言编译器教学实现,基于Java开发,完整覆盖编译流程三大阶段:词法分析通过GETSYM函数识别关键字、标识符、数字和分界符;语法分析采用递归下降…

2026/7/5 9:18:36 阅读更多 →

日新闻

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容 【免费下载链接】BiliTools A cross-platform bilibili toolbox. 跨平台哔哩哔哩工具箱,支持下载视频、番剧等等各类资源 项目地址: https://gitcode.com/GitHub_Trending/bilit/BiliTools …

2026/7/5 0:03:34 阅读更多 →
威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型的陌生现状在忙碌疲惫的一天里,参与了关于混合后量子密码学的讨论,应付端点攻击找茬的人,还参与留言板讨论后,发现“威胁模型”对多数人仍是陌生概念,且多被当作时髦用语。有趣的相关画作有一幅由 Embyr 创作的…

2026/7/5 0:03:34 阅读更多 →
渗透测试入门指南:从零基础到实战环境搭建

渗透测试入门指南:从零基础到实战环境搭建

1. 从“看热闹”到“入门”:我理解的渗透测试到底是什么?每次看到新闻里说某个大公司的数据被“黑”了,或者某个网站被攻击导致服务瘫痪,你是不是和我一样,心里会冒出两个念头:一是“这黑客真厉害”&#x…

2026/7/5 0:07:38 阅读更多 →

周新闻

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容 【免费下载链接】BiliTools A cross-platform bilibili toolbox. 跨平台哔哩哔哩工具箱,支持下载视频、番剧等等各类资源 项目地址: https://gitcode.com/GitHub_Trending/bilit/BiliTools …

2026/7/5 0:03:34 阅读更多 →
威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型的陌生现状在忙碌疲惫的一天里,参与了关于混合后量子密码学的讨论,应付端点攻击找茬的人,还参与留言板讨论后,发现“威胁模型”对多数人仍是陌生概念,且多被当作时髦用语。有趣的相关画作有一幅由 Embyr 创作的…

2026/7/5 0:03:34 阅读更多 →
渗透测试入门指南:从零基础到实战环境搭建

渗透测试入门指南:从零基础到实战环境搭建

1. 从“看热闹”到“入门”:我理解的渗透测试到底是什么?每次看到新闻里说某个大公司的数据被“黑”了,或者某个网站被攻击导致服务瘫痪,你是不是和我一样,心里会冒出两个念头:一是“这黑客真厉害”&#x…

2026/7/5 0:07:38 阅读更多 →

月新闻