大家好,我是微学ai,今天给大家介绍一下人工智能深度学习100种网络模型,这些模型可以用pytorch深度学习框架搭建。模型按照个人学习顺序进行排序:
深度学习模型
- ann (artificial neural network) - 人工神经网络:基本的神经网络结构,包括输入层、隐藏层和输出层。
- cnn (convolutional neural network) - 卷积神经网络:主要用于图像识别和处理的基础神经网络结构。
- rnn (recurrent neural network) - 循环神经网络:用于处理序列数据的神经网络结构。
- lstm (long short-term memory) - 长短时记忆网络:一种特殊的rnn,用于解决长序列中的梯度消失问题。
- gru (gated recurrent unit) - 门控循环单元:一种简化版的lstm,用于处理序列数据。
- bilstm (bidirectional lstm) - 双向长短时记忆网络:同时考虑序列的正向和反向信息的lstm。
- bigru (bidirectional gru) - 双向门控循环单元:同时考虑序列的正向和反向信息的gru。
- transformer - transformer模型:一种基于自注意力机制的神经网络结构,用于处理序列数据。
- bert (bidirectional encoder representations from transformers) - 双向transformers编码器模型:一种基于transformer的预训练模型,用于自然语言处理任务。
- elmo (embeddings from language models) - 语言模型嵌入:一种基于双向lstm的预训练模型,用于自然语言处理任务。
- roberta (robustly optimized bert pretraining approach) - 稳健优化的bert预训练方法:一种改进的bert预训练模型。
- t5 (text-to-text transfer transformer) - 文本到文本传输变压器:一种基于transformer的预训练模型,用于自然语言处理任务。
- gpt (generative pre-trained transformer) - 生成预训练transformer:一种基于transformer的生成式预训练模型,用于自然语言处理任务。
- gpt-2 (generative pre-trained transformer 2) - 生成预训练transformer2:一种基于transformer的生成式预训练模型,用于自然语言处理任务。
- gpt-3 (generative pre-trained transformer 3) - 生成预训练transformer3:一种基于transformer的生成式预训练模型,用于自然语言处理任务。
- lenet (lenet-5) - lenet-5:一种早期的卷积神经网络,用于手写数字识别。
- alexnet - alexnet:一种深度卷积神经网络,用于图像识别,赢得了2012年的imagenet竞赛。
- resnet (residual network) - 残差网络:一种具有残差连接的深度卷积神经网络,用于图像识别。
- vgg (visual geometry group) - 视觉几何组:一种深度卷积神经网络,用于图像识别。
- inception - inception网络:一种具有多尺度卷积的深度卷积神经网络,用于图像识别。
- mobilenet - 移动网络:一种轻量级的卷积神经网络,用于移动设备上的图像识别。
- densenet (densely connected convolutional network) - 密集连接卷积网络:一种具有密集连接的深度卷积神经网络,用于图像识别。
- u-net - u型网络:一种用于图像分割的卷积神经网络。
- gan (generative adversarial network) - 生成对抗网络:一种生成式模型,由生成器和判别器组成,用于生成新的数据样本。
- dcgan (deep convolutional generative adversarial network) - 深度卷积生成对抗网络:一种基于卷积神经网络的gan。
- wgan (wasserstein generative adversarial network) - 瓦asserstein生成对抗网络:一种改进的gan,使用wasserstein距离作为损失函数。
- pix2pix - pix2pix网络:一种用于图像到图像转换的条件生成对抗网络。
- cyclegan - cyclegan网络:一种用于无监督图像到图像转换的生成对抗网络。
- stylegan (style-based generative adversarial network) - 基于样式的生成对抗网络:一种用于生成高质量图像的gan。
- capsnet (capsule network) - 胶囊网络:一种用于图像识别的神经网络结构,包含胶囊层。
- snn (spiking neural network) - 脉冲神经网络:一种模拟生物神经元动力学的神经网络结构。
- rbm (restricted boltzmann machine) - 受限玻尔兹曼机:一种生成式模型,用于特征学习和降维。
- dbn (deep belief network) - 深度信念网络:一种基于rbm的深度生成式模型。
- autoencoder - 自编码器:一种用于特征学习和降维的神经网络结构。
- vae (variational autoencoder) - 变分自编码器:一种生成式自编码器,用于生成新的数据样本。
- seq2seq (sequence-to-sequence) - 序列到序列模型:一种用于序列到序列转换的神经网络结构,包括编码器和解码器。
- attention - 注意力机制:一种用于加权序列中不同部分的神经网络结构。
- nmt (neural machine translation) - 神经机器翻译:一种基于seq2seq和注意力机制的神经网络结构,用于机器翻译。
- albert (a lite bert) - 轻量级bert:一种轻量级的bert预训练模型。
- xlm (cross-lingual language model) - 跨语言语言模型:一种用于多语言自然语言处理任务的预训练模型。
- xlm-r (xlm-roberta) - xlm-roberta:一种基于roberta的跨语言预训练模型。
- deberta (decoding-enhanced bert with disentangled attention) - 解码增强的bert与解耦注意力:一种改进的bert预训练模型,具有解耦注意力机制。
- electra (efficiently learning an encoder that classifies token replacements accurately) - 高效学习精确分类令牌替换的编码器:一种基于生成对抗网络的预训练模型。
- fasttext - fasttext:一种用于文本分类和词嵌入的神经网络模型。
- word2vec - word2vec:一种用于词嵌入的神经网络模型。
- glove (global vectors for word representation) - 全局词向量表示:一种用于词嵌入的神经网络模型。
- siamese network - 孪生网络:一种用于度量学习和相似性比较的神经网络结构。
- triplet network - 三元组网络:一种用于度量学习和相似性比较的神经网络结构,包括三个相互关联的子网络。
- yolo (you only look once) - 一次性查看:一种实时目标检测的神经网络模型。
学习点击地址 - ssd (single shot multibox detector) - 单次多框检测器:一种实时目标检测的神经网络模型。
学习点击地址 - retinanet - retinanet:一种用于目标检测的神经网络模型,具有特征金字塔网络和锚框。
- mask r-cnn - mask r-cnn:一种用于实例分割的神经网络模型,基于faster r-cnn。
- nasnet (neural architecture search network) - 神经架构搜索网络:一种通过神经架构搜索自动设计的神经网络模型。
- efficientnet - efficientnet:一种自动调整网络深度、宽度和分辨率的神经网络模型。
- squeezenet - squeezenet:一种轻量级的卷积神经网络,用于图像识别。
- shufflenet - shufflenet:一种轻量级的卷积神经网络,用于图像识别,具有通道混洗操作。
- mnasnet - mnasnet:一种通过神经架构搜索自动设计的轻量级卷积神经网络,用于图像识别。
- pnasnet (progressive neural architecture search) - 渐进式神经架构搜索:一种通过渐进式神经架构搜索自动设计的神经网络模型。
- rcnn (region-based convolutional neural network) - 基于区域的卷积神经网络:一种用于目标检测的神经网络模型。
- fast r-cnn - fast r-cnn:一种改进的r-cnn,用于目标检测,具有较快的训练和推理速度。
- faster r-cnn - faster r-cnn:一种改进的fast r-cnn,用于目标检测,具有区域提议网络。
- r-fcn (region-based fully convolutional network) - 基于区域的全卷积网络:一种用于目标检测的神经网络模型,基于全卷积网络。
- fpn (feature pyramid network) - 特征金字塔网络:一种用于目标检测的神经网络模型,具有多尺度特征金字塔。
- hrnet (high-resolution network) - 高分辨率网络:一种用于图像识别和语义分割的神经网络模型,保持高分辨率特征图。
- deeplab - deeplab:一种用于语义分割的神经网络模型,具有空洞卷积和条件随机场。
- pspnet (pyramid scene parsing network) - 金字塔场景解析网络:一种用于语义分割的神经网络模型,具有金字塔池化模块。
- nin (network in network) - 网络中的网络:一种卷积神经网络,用于图像识别,具有多层感知机卷积层。
- srgan (super-resolution generative adversarial network) - 超分辨率生成对抗网络:一种用于图像超分辨率的生成对抗网络。
- ladder network - 梯形网络:一种半监督学习的神经网络模型,具有多层编码器和解码器。
- ctc (connectionist temporal classification) - 连接主义时序分类:一种用于序列到序列转换的神经网络损失函数,用于语音识别等任务。
- cpm (convolutional pose machines) - 卷积姿态机:一种用于人体姿态估计的卷积神经网络模型。
- openpose - openpose:一种用于实时多人关键点检测的神经网络模型。
- wavenet - wavenet:一种用于生成原始波形音频的深度神经网络模型。
- tacotron - tacotron:一种用于文本到语音合成的神经网络模型,基于seq2seq和注意力机制。
- transformer-xl (transformer with extra-long context) - 变压器扩展长上下文:一种改进的transformer,用于处理长序列数据。
- biggan (big generative adversarial network) - 大型生成对抗网络:一种用于生成高质量图像的大型生成对抗网络。
- progan (progressive growing of gans) - gan的渐进式增长:一种通过逐渐增加生成器和判别器的分辨率来训练gan的方法。
- spade (spatially-adaptive normalization) - 空间自适应归一化:一种用于图像到图像转换的生成对抗网络,具有空间自适应归一化层。
- stargan - stargan:一种用于多域图像到图像转换的生成对抗网络。
- swin transformer - swin transformer:一种基于滑动窗口的transformer,用于计算机视觉任务。
- vit (vision transformer) - 视觉变压器:一种将图像分割成小块并将其视为序列的transformer,用于图像识别。
- deit (data-efficient image transformer) - 数据高效图像变压器:一种基于vision transformer的数据高效图像识别模型。
- stable diffusion - 稳定扩散网络模型,用于图像处理,文本生成图像的应用。
- reformer - 改革者:一种改进的transformer,用于处理长序列数据,具有局部敏感哈希和可逆残差层。
- performer - 表演者:一种改进的transformer,用于处理长序列数据,具有快速注意力机制。
- linformer - 线性变压器:一种改进的transformer,用于处理长序列数据,具有线性复杂度的自注意力机制。
- longformer - 长变压器:一种改进的transformer,用于处理长序列数据,具有稀疏自注意力机制。
- conformer - 一致者:一种用于自动语音识别的神经网络模型,结合了transformer和卷积神经网络。
- nerf (neural radiance fields) - 神经辐射场:一种用于三维场景重建的神经网络模型。
- dall-e - dall-e:一种基于transformer的生成式模型,用于从文本描述生成图像。
- clip (contrastive language-image pretraining) - 对比性语言-图像预训练:一种同时学习图像和文本表示的预训练模型。
- detr (detection transformer) - 检测变压器:一种基于transformer的端到端目标检测神经网络模型。
- t2t-vit (tokens-to-token vision transformer) - 令牌到令牌视觉变压器:一种基于令牌到令牌的视觉变压器,用于图像识别。
- omninet - omninet:一种用于多任务学习的神经网络模型,具有共享特征提取器和任务特定的分支。
- pointnet - pointnet:一种用于处理点云数据的神经网络模型。
- gcn (graph convolutional network)- 图卷积神经网络:适用于处理图数据,尤其是基于图结构的数据分析和机器学习任务。
- se-net (squeeze-and-excitation network) -基于通道注意力机制的卷积神经网络:通过学习每个通道间的关系来提高模型泛化能力。
- tsm (temporal shift module) -时间序列模块:用于处理视频中的时间序列信息,可以在不增加计算量的情况下提高视频分类的准确率。
- stt (speech-to-text) -语音到文本模型:将语音信号转换成对应的文字。
- tts (text-to-speech) -文本到语音模型:将文字信息转换成对应的语音信号。
以上模型涵盖了计算机视觉、自然语言处理、语音识别、生成模型等多个领域,可以根据实际需求选择合适的模型进行搭建和训练。
发表评论