MATLAB深度学习模型中心

在MATLAB中发现用于深度学习的预处理模型。

模型

计算机视觉

自然语言处理

变压器

音频

激光雷达

机器人学

图像分类

预训练图像分类网络已经学会从自然图像中提取强大的信息特征。将其作为起点，利用转移学习学习新任务。

输入是RGB图像，输出是预测的标签和分数：

这些网络已经对一百多万张图像进行了训练，可以将图像分为1000个对象类别。

MATLAB中可用的模型：

注1：由于R2024a，请使用图像预训练网络代替函数并指定预处理模型.例如，使用以下代码访问googlenet：

[net，classes]=imagePretrainedNetwork（“谷歌网”）；

网络	大小（MB）	课程	准确度%	位置
谷歌网¹	27	1000	66.25	文件 github
压榨机¹	5.2	1000	55.16	文件
亚历克赛特¹	227	1000	54.10	文件
资源网18¹	44	1000	69.49	文件 github
资源网50¹	96	1000	74.46	文件 github
资源网101¹	167	1000	75.96	文件 github
移动网络2¹	13	1000	70.44	文件 github
vgg16型¹	515	1000	70.29	文件
vgg19型¹	535	1000	70.42	文件
接收v3¹	89	1000	77.07	文件
接收resnetv2¹	209	1000	79.62	文件
例外¹	85	1000	78.20	文件
暗网19¹	78	1000	74	文件
暗网53¹	155	1000	76.46	文件
密度201¹	77	1000	75.85	文件
洗牌机¹	5.4	1000	63.73	文件
nasnetmobile公司¹	20	1000	73.41	文件
纳斯内特拉格¹	332	1000	81.83	文件
效率网b0¹	20	1000	74.72	文件
ConvMixer公司	7.7	10	-	github
Vison变压器	大-16-1100 基础-16-331.4 小16-84.7 颜色-16-22.2	1000	大16-85.59 底座-16-85.49 小16-83.73 微小16-78.22	文件

选择模型的提示

在选择适用于您的问题的网络时，预训练网络具有不同的特性。最重要的特征是网络的准确性、速度和大小。选择网络通常是在这些特性之间进行权衡。下图强调了这些权衡：

图。比较图像分类模型的准确性、速度和大小。

返回页首

目标检测

目标检测是一种计算机视觉技术，用于定位图像或视频中的对象实例。当人类观看图像或视频时，我们可以在很短的时间内识别并定位感兴趣的物体。目标检测的目标是使用计算机复制这种智能。

输入是RGB图像，输出是预测的标签、边界框和分数：

这些网络经过训练，可以从COCO数据集中检测80个对象类。这些模型适用于使用转移学习训练自定义对象检测器。

网络	网络变体	大小（MB）	平均精度（mAP）	对象类	位置
效率检测-D0	效率网	15.9	33.7	80	github
YOLO第8版	约洛8n 约洛8s 约洛8m 约洛8l 尤洛8x	10.7 37.2 85.4 143.3 222.7	37.3 44.9 50.2 52.9 53.9	80	github
约洛克斯	YoloX-s公司 YoloX-m公司 YoloX-l公司	32 90.2 192.9	39.8 45.9 48.6	80	文件 github
YOLO版本4	蛋黄4可可 yolov4-小椰子	229 21.5	44.2 19.7	80	文件 github
YOLO第3版	暗网53-coco tiny-yolov3-椰子	220.4 31.5	34.4 9.3	80	文件
YOLO第2版	暗网19 COCO tiny-yolo-v2-coco公司	181 40	28.7 10.5	80	文件 github

选择模型的提示

在选择网络应用于您的问题时，预先训练的目标检测器具有不同的特性。最重要的特征是平均精度（mAP）、速度和大小。选择网络通常是在这些特征之间进行权衡。

特定于应用程序的对象检测器

这些网络已经过训练，可以检测给定应用程序的特定对象。

网络	应用程序	大小（MB）	位置
空间CNN	车道检测	74	github
RESA公司	道路边界检测	95	github
单发探测器（SSD）	车辆检测	44	文件
更快的R-CNN	车辆检测	118	文件

返回页首

语义分割

分割对于图像分析任务至关重要。语义分割描述了将图像的每个像素与类标签（例如花、人、路、天空、海洋或汽车）相关联的过程。

输入是RGB图像，输出是像素分类（语义图）。

该网络经过训练，可以从PASCAL VOC数据集中检测20个对象类：

网络	大小（MB）	平均准确度	对象类	位置
深度实验室3+	209	0.87	20	github

零炮图像分割模型：

网络	大小（MB）	示例位置
段任何事物模型	358	文件

特定于应用程序的语义分割模型

网络	应用程序	大小（MB）	位置
U形网	原始相机处理	31	文件
三维U形网	脑肿瘤分割	56.2	文件
适配段（GAN）	使用三维仿真数据进行模型调整	54.4	文件

返回页首

实例分段

实例分割是一种增强的对象检测类型，它为每个检测到的对象实例生成分割图。实例分割将单个对象视为不同的实体，而不考虑对象的类别。相反，语义分割将同一类的所有对象视为属于单个实体。

输入是RGB图像，输出是像素分类（语义图）、边界框和分类标签。

网络	对象类	位置
口罩R-CNN	80	文件 github

返回页首

图像转换

图像翻译是将风格和特征从一个图像域转换到另一个图像领域的任务。该技术可以扩展到其他图像到图像学习操作，如图像增强、图像着色、缺陷生成和医学图像分析。

输入是图像，输出是转换的RGB图像。此示例工作流显示了语义分割图输入如何通过预处理模型（Pix2PixHD）转换为合成图像：

网络	应用程序	大小（MB）	位置
Pix2PixHD（CGAN）	合成图像翻译	648	文件
单元（GAN）	日间到黄昏日间图像转换	72.5	文件
单元（GAN）	医学图像去噪	72.4	文件
CycleGAN公司	医学图像去噪	75.3	文件
VDSR公司	超分辨率（从低分辨率图像估计高分辨率图像）	2.4	文件

返回页首

姿态估计

姿态估计是一种计算机视觉技术，用于使用一组固定的关键点定位物体的位置和方向。

所有输入均为RGB图像，输出为热图和部分亲和场（PAF），通过后处理进行姿势估计。

网络	主干网	大小（MB）	位置
OpenPose（打开姿势）	vgg19型	14	文件
人力资源净值	人体全身-w32 人体全身-w48	106.9 237.7	文件

返回页首

三维重建

三维重建是捕捉真实物体的形状和外观的过程。

网络	大小（MB）	位置	输出示例
NeRF公司	3.78	github

返回页首

视频分类

视频分类是一种计算机视觉技术，用于对视频帧序列中的动作或内容进行分类。

所有输入均为仅视频或带光流数据的视频，输出为手势分类和分数。

网络	输入	大小（MB）	分类（人为行为）	说明	位置
慢速快速	视频	124	400	比通货膨胀3D更快收敛	文件
右（2+1）D	视频	112	400	比通货膨胀3D更快收敛	文件
充气-3D	视频和光流数据	91	400	当结合光流和RGB数据时，分类器的准确性提高。	文件

返回页首

文本检测与识别

文本检测是一种计算机视觉技术，用于定位图像中的文本实例。

输入是RGB图像，输出是标识文本区域的边界框。

网络	应用程序	大小（MB）	位置
CRAFT（手工艺）	接受过检测英语、韩语、意大利语、法语、阿拉伯语、德语和孟加拉语（印度语）的培训。	3.8	文件 github

特定于应用程序的文本检测器

网络	应用程序	大小（MB）	位置	输出示例
七段数字识别	使用深度学习和OCR的七段数字识别。这在工业自动化应用中很有帮助，因为数字显示器经常被复杂的背景包围。	3.8	文件 github

返回页首

变压器（文本）

变压器预训练模型已经学会从文本中提取强大的信息特征。将其作为起点，利用转移学习学习新任务。

输入是文本序列，输出是文本特征嵌入。

网络	应用	大小（MB）	位置
BERT（误码率）	特征提取（句子和单词嵌入）、文本分类、标记分类、屏蔽语言建模、问答	390	github 文件
全MiniLM-L6-v2	文档嵌入、聚类、信息检索	80	文件
全MiniLM-L12-v2	文档嵌入、聚类、信息检索	120	文件

特定于应用的变压器

网络	应用程序	大小（MB）	位置	输出示例
芬伯特	FinBERT模型是用于金融情绪分析的BERT模型	388	github
GPT-2级	GPT-2模型是用于文本摘要的解码器模型。	1.2 GB	github

返回页首

音频嵌入

音频嵌入预处理模型已经学会从音频信号中提取强大的信息特征。将其作为起点，利用转移学习学习新任务。

输入是音频信号，输出是音频特征嵌入。

注2：自R2024a以来，请使用音频预训练网络代替函数并指定预处理模型.例如，使用以下代码访问VGGish：

net=音频预训练网络（“vggish”）；

网络	应用程序	大小（MB）	位置
VG鱼类²	功能嵌入	257	文件
打开L3²	功能嵌入	200	文件

特定于应用程序的音频模型

网络	应用程序	大小（MB）	输出类别	位置
瓦德内²	语音活动检测（回归）	0.427	-	文件
YAM网²	声音分类	13.5	521	文件
绉纱²	基音估计（回归）	132	-	文件

语音到文本

语音到文本模型提供了一种快速、高效的方法，可以将口语转换为书面文本，增强残疾人的可访问性，实现文本摘要和情感分析等下游任务，并简化文档处理过程。作为人机界面（包括个人助理）的关键元素，它允许自然和直观的交互，使机器能够理解和执行口头命令，提高可用性，并扩大各种应用程序的包容性。

输入是音频信号，输出是文本。

网络	应用程序	大小（MB）	单词错误率（WER）	位置
波浪2vec	语音到文本	236	3.2	github
深度演讲	语音到文本	167	5.97	github

返回页首

激光雷达

点云数据由各种传感器采集，如激光雷达、雷达和深度相机。由于每个对象的数据稀疏、对象遮挡和传感器噪声，用点云数据训练鲁棒分类器具有挑战性。深度学习技术已经被证明可以通过直接从点云数据中学习鲁棒的特征表示来解决其中的许多挑战。

输入是将激光雷达点云转换为五通道，输出是叠加在点云上的分割、分类或目标检测结果。

网络	应用程序	大小（MB）	对象类	位置
PointNet（点网）	分类	5	14	文件
PointNet（点网）++	细分	三	8	文件
点分段	细分	14	三	文件
挤压段V2	细分	5	12	文件
萨尔萨下一步	细分	20.9	13	github
PointPillars（点支柱）	目标检测	8	三	文件
复杂YOLO v4	目标检测	233（络合物-yolov4） 21（锡络合物-yolov4）	三	github

返回页首

机械手运动规划

机械手运动规划是一种用于规划机器人手臂在障碍环境中从起始位置到目标位置的轨迹的技术。

预训练的深度学习模型已经学会了为重复任务（如拾取和放置对象）规划此类轨迹，从而比传统算法提高了速度。

输入是机器人的开始配置、目标配置和障碍环境编码，输出是中间轨迹猜测。

网络	应用程序	大小（MB）	位置
基于深度学习的CHOMP（DLCHOMP）	轨迹预测	25	文件 github

返回页首

基于运动规划网络的路径规划

运动规划网络（MPNet）是一种基于深度学习的方法，用于在运动规划问题的起点和目标点之间找到最佳路径。MPNet是一种深度神经网络，可以在多个环境中进行训练，以学习环境中各种状态之间的最佳路径。MPNet利用这一先验知识，

在未知测试环境中的两个状态之间生成通知样本。这些示例可用于基于采样的运动规划器，例如用于路径规划的最佳快速展开随机树（RRT*）。
计算未知测试环境中两个状态之间的无碰撞路径。基于MPNet的路径规划器比RRT*等经典路径规划器效率更高。

要了解更多信息，请访问运动规划网络入门

网络	应用程序	大小（MB）	位置
mazeMap训练MPNET	路径规划	0.23	文件

返回页首

模型请求

如果您想请求MATLAB支持其他预处理模型，请从此回购创建问题.

或者将请求发送至：

王江浩
深度学习产品经理
jianghaw@mathworks.com

姓名		姓名	上次提交消息	上次提交日期
最近一次提交历史 52次承诺
图像		图像
许可证		许可证
MATLAB深度学习模型Hub.mlx		MATLAB深度学习模型中心.mlx
自述.md		自述.md
安全.md		安全.md
查看深度学习模型中心GitHub。米		查看深度学习模型中心GitHub。米

提供反馈

保存的搜索

使用保存的搜索更快地筛选结果

存储库文件导航

MATLAB深度学习模型中心

模型

计算机视觉

自然语言处理

音频

激光雷达

机器人学

图像分类

目标检测

语义分割

实例分段

图像转换

姿态估计

三维重建

视频分类

文本检测与识别

变压器（文本）

音频嵌入

特定于应用程序的音频模型

语音到文本

激光雷达

机械手运动规划

基于运动规划网络的路径规划

模型请求

关于

发布4

包装

贡献者4

语言文字

许可证

matlab-dep-learning/matlab-deep-learning-Model-Hub

文件夹和文件

最近一次提交

历史

存储库文件导航

MATLAB深度学习模型中心

模型

计算机视觉

自然语言处理

音频

激光雷达

机器人学

图像分类

目标检测

语义分割

实例分段

图像转换

姿态估计

三维重建

视频分类

文本检测与识别

变压器（文本）

音频嵌入

特定于应用程序的音频模型

语音到文本

激光雷达

机械手运动规划

基于运动规划网络的路径规划

模型请求

关于

话题

资源

许可证

安全政策

星星

观察者

叉子

发布4

包装0

贡献者4

语言文字

包装