神经网络算法汇总：从基础到主流模型，一篇看懂

发表于 2026-04-22 分类于算法笔记

引言

神经网络是深度学习的核心，本质是模拟人脑神经元连接，通过多层结构自动学习数据特征，完成分类、回归、生成、决策等任务。本文按基础结构 + 经典网络 + 专用领域模型做清晰汇总，兼顾原理和应用，适合快速建立知识体系。

一、基础神经网络（入门必学）

1. 感知机（Perceptron）

最早的神经元模型，单层结构
只能处理线性可分问题
是所有神经网络的最小单元

2. 前馈神经网络（FFNN / MLP）

全称：多层感知机
结构：输入层 → 隐藏层 → 输出层，数据单向传播
适用：表格数据、简单分类/回归
局限：对图像、序列数据效率极低

3. 反向传播（BP 神经网络）

带误差反向传播的 MLP
通过梯度下降更新权重，是深度学习训练的基础

二、图像处理专用神经网络

1. 卷积神经网络（CNN）

核心层：卷积层 + 池化层 + 全连接层
优势：局部连接、权值共享，大幅减少参数量
擅长：图像分类、检测、分割、人脸识别

经典模型：

模型	特点
LeNet-5	最早商用 CNN
AlexNet	深度学习爆发标志
VGG	结构简洁，深层特征提取
ResNet	残差连接，解决深层网络退化
GoogLeNet / Inception	多尺度卷积并行

2. 目标检测类衍生网络

两阶段（高精度）：R-CNN → Fast R-CNN → Faster R-CNN
一阶段（高速度）：YOLO、SSD

三、序列/文本数据专用网络

1. 循环神经网络（RNN）

带记忆，可处理变长序列
问题：长序列会出现梯度消失/爆炸

2. LSTM（长短期记忆网络）

RNN 的改进版，加入门控机制（输入门/遗忘门/输出门）
解决长序列训练问题
适用：语音识别、文本生成、时间序列预测

3. GRU

LSTM 的简化版，参数更少、速度更快
效果接近 LSTM，工业界常用

四、注意力机制与 Transformer 家族

1. Attention（注意力机制）

让模型自动关注重要信息，忽略无关内容
彻底解决长序列依赖问题

2. Transformer

完全基于自注意力机制，不依赖 RNN/CNN
结构：Encoder + Decoder
奠定现代大模型基础

3. 基于 Transformer 的主流模型

模型	结构	擅长任务
BERT	Encoder 为主	理解类（分类、抽取、问答）
GPT	Decoder 为主	生成类（写作、对话、代码）
T5 / LLaMA	Encoder+Decoder	多任务通用

五、生成式神经网络

1. 自编码器（AE）

结构：Encoder 压缩 + Decoder 还原
用途：降维、去噪、特征学习

2. VAE（变分自编码器）

概率版自编码器，可生成新样本

3. GAN（生成对抗网络）

生成器：造假数据
判别器：分辨真假
用途：图像生成、风格迁移、超分辨率

六、强化学习类神经网络

1. DQN（深度 Q 网络）

CNN + Q-Learning
代表：AlphaGo 前身、游戏 AI

2. Policy Gradient / Actor-Critic

适合连续动作、机器人控制
广泛用于自动驾驶、智能体决策

七、核心能力总结

网络类型	擅长数据类型	典型应用
MLP	表格数据	分类、回归、预测
CNN	图像、视频	识别、检测、分割
RNN/LSTM/GRU	文本、时序数据	翻译、语音、预测
Transformer	文本/图像/多模态	大模型、对话、翻译
GAN/VAE	任意数据	图像生成、数据增强

八、学习路线建议

先学 MLP/BP 理解基本训练逻辑
再学 CNN 做图像
再学 LSTM/GRU 做序列
最后主攻 Transformer（现代 AI 主流）

0%