跳到内容

matlab-dep-learning/matlab-deep-learning-Model-Hub

存储库文件导航

MATLAB深度学习模型中心

在MATLAB中发现用于深度学习的预处理模型。

模型

计算机视觉

自然语言处理

音频

激光雷达

机器人学

图像分类

预训练图像分类网络已经学会从自然图像中提取强大的信息特征。将其作为起点,利用转移学习学习新任务。

输入是RGB图像,输出是预测的标签和分数:

这些网络已经对一百多万张图像进行了训练,可以将图像分为1000个对象类别。

MATLAB中可用的模型:

注1:由于R2024a,请使用图像预训练网络代替函数并指定预处理模型.例如,使用以下代码访问googlenet:

[net,classes]=imagePretrainedNetwork(“谷歌网”);
网络 大小(MB) 课程 准确度% 位置
谷歌网1 27 1000 66.25 文件
github
压榨机1 5.2 1000 55.16 文件
亚历克赛特1 227 1000 54.10 文件
资源网181 44 1000 69.49 文件
github
资源网501 96 1000 74.46 文件
github
资源网1011 167 1000 75.96 文件
github
移动网络21 13 1000 70.44 文件
github
vgg16型1 515 1000 70.29 文件
vgg19型1 535 1000 70.42 文件
接收v31 89 1000 77.07 文件
接收resnetv21 209 1000 79.62 文件
例外1 85 1000 78.20 文件
暗网191 78 1000 74 文件
暗网531 155 1000 76.46 文件
密度2011 77 1000 75.85 文件
洗牌机1 5.4 1000 63.73 文件
nasnetmobile公司1 20 1000 73.41 文件
纳斯内特拉格1 332 1000 81.83 文件
效率网b01 20 1000 74.72 文件
ConvMixer公司 7.7 10 - github
Vison变压器 大-16-1100
基础-16-331.4
小16-84.7
颜色-16-22.2
1000 大16-85.59
底座-16-85.49
小16-83.73
微小16-78.22
文件

选择模型的提示

在选择适用于您的问题的网络时,预训练网络具有不同的特性。最重要的特征是网络的准确性、速度和大小。选择网络通常是在这些特性之间进行权衡。下图强调了这些权衡:

图。比较图像分类模型的准确性、速度和大小。

返回页首

目标检测

目标检测是一种计算机视觉技术,用于定位图像或视频中的对象实例。当人类观看图像或视频时,我们可以在很短的时间内识别并定位感兴趣的物体。目标检测的目标是使用计算机复制这种智能。

输入是RGB图像,输出是预测的标签、边界框和分数:

这些网络经过训练,可以从COCO数据集中检测80个对象类。这些模型适用于使用转移学习训练自定义对象检测器。

网络 网络变体 大小(MB) 平均精度(mAP) 对象类 位置
效率检测-D0 效率网 15.9 33.7 80 github
YOLO第8版 约洛8n
约洛8s
约洛8m
约洛8l
尤洛8x
10.7
37.2
85.4
143.3
222.7
37.3
44.9
50.2
52.9
53.9
80 github
约洛克斯 YoloX-s公司
YoloX-m公司
YoloX-l公司
32
90.2
192.9
39.8
45.9
48.6
80 文件
github
YOLO版本4 蛋黄4可可
yolov4-小椰子
229
21.5
44.2
19.7
80 文件
github
YOLO第3版 暗网53-coco
tiny-yolov3-椰子
220.4
31.5
34.4
9.3
80 文件
YOLO第2版 暗网19 COCO
tiny-yolo-v2-coco公司
181
40
28.7
10.5
80 文件
github

选择模型的提示

在选择网络应用于您的问题时,预先训练的目标检测器具有不同的特性。最重要的特征是平均精度(mAP)、速度和大小。选择网络通常是在这些特征之间进行权衡。

特定于应用程序的对象检测器

这些网络已经过训练,可以检测给定应用程序的特定对象。

网络 应用程序 大小(MB) 位置 输出示例
空间CNN 车道检测 74 github
RESA公司 道路边界检测 95 github
单发探测器(SSD) 车辆检测 44 文件
更快的R-CNN 车辆检测 118 文件

返回页首

语义分割

分割对于图像分析任务至关重要。语义分割描述了将图像的每个像素与类标签(例如花、人、路、天空、海洋或汽车)相关联的过程。

输入是RGB图像,输出是像素分类(语义图)。

该网络经过训练,可以从PASCAL VOC数据集中检测20个对象类:

网络 大小(MB) 平均准确度 对象类 位置
深度实验室3+ 209 0.87 20 github

零炮图像分割模型:

网络 大小(MB) 示例位置
段任何事物模型 358 文件

特定于应用程序的语义分割模型

网络 应用程序 大小(MB) 位置 输出示例
U形网 原始相机处理 31 文件
三维U形网 脑肿瘤分割 56.2 文件
适配段(GAN) 使用三维仿真数据进行模型调整 54.4 文件

返回页首

实例分段

实例分割是一种增强的对象检测类型,它为每个检测到的对象实例生成分割图。实例分割将单个对象视为不同的实体,而不考虑对象的类别。相反,语义分割将同一类的所有对象视为属于单个实体。

输入是RGB图像,输出是像素分类(语义图)、边界框和分类标签。

网络 对象类 位置
口罩R-CNN 80 文件
github

返回页首

图像转换

图像翻译是将风格和特征从一个图像域转换到另一个图像领域的任务。该技术可以扩展到其他图像到图像学习操作,如图像增强、图像着色、缺陷生成和医学图像分析。

输入是图像,输出是转换的RGB图像。此示例工作流显示了语义分割图输入如何通过预处理模型(Pix2PixHD)转换为合成图像:

网络 应用程序 大小(MB) 位置 输出示例
Pix2PixHD(CGAN) 合成图像翻译 648 文件
单元(GAN) 日间到黄昏日间图像转换 72.5 文件
单元(GAN) 医学图像去噪 72.4 文件
CycleGAN公司 医学图像去噪 75.3 文件
VDSR公司 超分辨率(从低分辨率图像估计高分辨率图像) 2.4 文件

返回页首

姿态估计

姿态估计是一种计算机视觉技术,用于使用一组固定的关键点定位物体的位置和方向。

所有输入均为RGB图像,输出为热图和部分亲和场(PAF),通过后处理进行姿势估计。

网络 主干网 大小(MB) 位置
OpenPose(打开姿势) vgg19型 14 文件
人力资源净值 人体全身-w32
人体全身-w48
106.9
237.7
文件

返回页首

三维重建

三维重建是捕捉真实物体的形状和外观的过程。

网络 大小(MB) 位置 输出示例
NeRF公司 3.78 github NeRF公司

返回页首

视频分类

视频分类是一种计算机视觉技术,用于对视频帧序列中的动作或内容进行分类。

所有输入均为仅视频或带光流数据的视频,输出为手势分类和分数。

网络 输入 大小(MB) 分类(人为行为) 说明 位置
慢速快速 视频 124 400 比通货膨胀3D更快收敛 文件
右(2+1)D 视频 112 400 比通货膨胀3D更快收敛 文件
充气-3D 视频和光流数据 91 400 当结合光流和RGB数据时,分类器的准确性提高。 文件

返回页首

文本检测与识别

文本检测是一种计算机视觉技术,用于定位图像中的文本实例。

输入是RGB图像,输出是标识文本区域的边界框。

网络 应用程序 大小(MB) 位置
CRAFT(手工艺) 接受过检测英语、韩语、意大利语、法语、阿拉伯语、德语和孟加拉语(印度语)的培训。 3.8 文件
github

特定于应用程序的文本检测器

网络 应用程序 大小(MB) 位置 输出示例
七段数字识别 使用深度学习和OCR的七段数字识别。这在工业自动化应用中很有帮助,因为数字显示器经常被复杂的背景包围。 3.8 文件
github

返回页首

变压器(文本)

变压器预训练模型已经学会从文本中提取强大的信息特征。将其作为起点,利用转移学习学习新任务。

输入是文本序列,输出是文本特征嵌入。

网络 应用 大小(MB) 位置
BERT(误码率) 特征提取(句子和单词嵌入)、文本分类、标记分类、屏蔽语言建模、问答 390 github
文件
全MiniLM-L6-v2 文档嵌入、聚类、信息检索 80 文件
全MiniLM-L12-v2 文档嵌入、聚类、信息检索 120 文件

特定于应用的变压器

网络 应用程序 大小(MB) 位置 输出示例
芬伯特 FinBERT模型是用于金融情绪分析的BERT模型 388 github
GPT-2级 GPT-2模型是用于文本摘要的解码器模型。 1.2 GB github

返回页首

音频嵌入

音频嵌入预处理模型已经学会从音频信号中提取强大的信息特征。将其作为起点,利用转移学习学习新任务。

输入是音频信号,输出是音频特征嵌入。

注2:自R2024a以来,请使用音频预训练网络代替函数并指定预处理模型.例如,使用以下代码访问VGGish:

net=音频预训练网络(“vggish”);
网络 应用程序 大小(MB) 位置
VG鱼类2 功能嵌入 257 文件
打开L32 功能嵌入 200 文件

特定于应用程序的音频模型

网络 应用程序 大小(MB) 输出类别 位置 输出示例
瓦德内2 语音活动检测(回归) 0.427 - 文件
YAM网2 声音分类 13.5 521 文件
绉纱2 基音估计(回归) 132 - 文件

语音到文本

语音到文本模型提供了一种快速、高效的方法,可以将口语转换为书面文本,增强残疾人的可访问性,实现文本摘要和情感分析等下游任务,并简化文档处理过程。作为人机界面(包括个人助理)的关键元素,它允许自然和直观的交互,使机器能够理解和执行口头命令,提高可用性,并扩大各种应用程序的包容性。

输入是音频信号,输出是文本。

网络 应用程序 大小(MB) 单词错误率(WER) 位置
波浪2vec 语音到文本 236 3.2 github
深度演讲 语音到文本 167 5.97 github

返回页首

激光雷达

点云数据由各种传感器采集,如激光雷达、雷达和深度相机。由于每个对象的数据稀疏、对象遮挡和传感器噪声,用点云数据训练鲁棒分类器具有挑战性。深度学习技术已经被证明可以通过直接从点云数据中学习鲁棒的特征表示来解决其中的许多挑战。

输入是将激光雷达点云转换为五通道,输出是叠加在点云上的分割、分类或目标检测结果。

网络 应用程序 大小(MB) 对象类 位置
PointNet(点网) 分类 5 14 文件
PointNet(点网)++ 细分 8 文件
点分段 细分 14 文件
挤压段V2 细分 5 12 文件
萨尔萨下一步 细分 20.9 13 github
PointPillars(点支柱) 目标检测 8 文件
复杂YOLO v4 目标检测 233(络合物-yolov4)
21(锡络合物-yolov4)
github

返回页首

机械手运动规划

机械手运动规划是一种用于规划机器人手臂在障碍环境中从起始位置到目标位置的轨迹的技术。

预训练的深度学习模型已经学会了为重复任务(如拾取和放置对象)规划此类轨迹,从而比传统算法提高了速度。

输入是机器人的开始配置、目标配置和障碍环境编码,输出是中间轨迹猜测。

网络 应用程序 大小(MB) 位置
基于深度学习的CHOMP(DLCHOMP) 轨迹预测 25 文件
github

返回页首

基于运动规划网络的路径规划

运动规划网络(MPNet)是一种基于深度学习的方法,用于在运动规划问题的起点和目标点之间找到最佳路径。MPNet是一种深度神经网络,可以在多个环境中进行训练,以学习环境中各种状态之间的最佳路径。MPNet利用这一先验知识,

  • 在未知测试环境中的两个状态之间生成通知样本。这些示例可用于基于采样的运动规划器,例如用于路径规划的最佳快速展开随机树(RRT*)。
  • 计算未知测试环境中两个状态之间的无碰撞路径。基于MPNet的路径规划器比RRT*等经典路径规划器效率更高。

要了解更多信息,请访问运动规划网络入门

网络 应用程序 大小(MB) 位置
mazeMap训练MPNET 路径规划 0.23 文件

返回页首

模型请求

如果您想请求MATLAB支持其他预处理模型,请从此回购创建问题.

或者将请求发送至:

王江浩
深度学习产品经理
jianghaw@mathworks.com

版权所有2024,The MathWorks,Inc。