引言
神经网络是深度学习的核心,本质是模拟人脑神经元连接,通过多层结构自动学习数据特征,完成分类、回归、生成、决策等任务。本文按基础结构 + 经典网络 + 专用领域模型做清晰汇总,兼顾原理和应用,适合快速建立知识体系。
一、基础神经网络(入门必学)
1. 感知机(Perceptron)
- 最早的神经元模型,单层结构
- 只能处理线性可分问题
- 是所有神经网络的最小单元
2. 前馈神经网络(FFNN / MLP)
- 全称:多层感知机
- 结构:输入层 → 隐藏层 → 输出层,数据单向传播
- 适用:表格数据、简单分类/回归
- 局限:对图像、序列数据效率极低
3. 反向传播(BP 神经网络)
- 带误差反向传播的 MLP
- 通过梯度下降更新权重,是深度学习训练的基础
二、图像处理专用神经网络
1. 卷积神经网络(CNN)
- 核心层:卷积层 + 池化层 + 全连接层
- 优势:局部连接、权值共享,大幅减少参数量
- 擅长:图像分类、检测、分割、人脸识别
经典模型:
| 模型 |
特点 |
| LeNet-5 |
最早商用 CNN |
| AlexNet |
深度学习爆发标志 |
| VGG |
结构简洁,深层特征提取 |
| ResNet |
残差连接,解决深层网络退化 |
| GoogLeNet / Inception |
多尺度卷积并行 |
2. 目标检测类衍生网络
- 两阶段(高精度):R-CNN → Fast R-CNN → Faster R-CNN
- 一阶段(高速度):YOLO、SSD
三、序列/文本数据专用网络
1. 循环神经网络(RNN)
- 带记忆,可处理变长序列
- 问题:长序列会出现梯度消失/爆炸
2. LSTM(长短期记忆网络)
- RNN 的改进版,加入门控机制(输入门/遗忘门/输出门)
- 解决长序列训练问题
- 适用:语音识别、文本生成、时间序列预测
3. GRU
- LSTM 的简化版,参数更少、速度更快
- 效果接近 LSTM,工业界常用
1. Attention(注意力机制)
- 让模型自动关注重要信息,忽略无关内容
- 彻底解决长序列依赖问题
- 完全基于自注意力机制,不依赖 RNN/CNN
- 结构:Encoder + Decoder
- 奠定现代大模型基础
| 模型 |
结构 |
擅长任务 |
| BERT |
Encoder 为主 |
理解类(分类、抽取、问答) |
| GPT |
Decoder 为主 |
生成类(写作、对话、代码) |
| T5 / LLaMA |
Encoder+Decoder |
多任务通用 |
五、生成式神经网络
1. 自编码器(AE)
- 结构:Encoder 压缩 + Decoder 还原
- 用途:降维、去噪、特征学习
2. VAE(变分自编码器)
3. GAN(生成对抗网络)
- 生成器:造假数据
- 判别器:分辨真假
- 用途:图像生成、风格迁移、超分辨率
六、强化学习类神经网络
1. DQN(深度 Q 网络)
- CNN + Q-Learning
- 代表:AlphaGo 前身、游戏 AI
2. Policy Gradient / Actor-Critic
- 适合连续动作、机器人控制
- 广泛用于自动驾驶、智能体决策
七、核心能力总结
| 网络类型 |
擅长数据类型 |
典型应用 |
| MLP |
表格数据 |
分类、回归、预测 |
| CNN |
图像、视频 |
识别、检测、分割 |
| RNN/LSTM/GRU |
文本、时序数据 |
翻译、语音、预测 |
| Transformer |
文本/图像/多模态 |
大模型、对话、翻译 |
| GAN/VAE |
任意数据 |
图像生成、数据增强 |
八、学习路线建议
- 先学 MLP/BP 理解基本训练逻辑
- 再学 CNN 做图像
- 再学 LSTM/GRU 做序列
- 最后主攻 Transformer(现代 AI 主流)