跳转至

Draymonder Docs

多层感知机

Draymonder Docs

主页
编码人生
编码人生
- 机器学习
  机器学习
  - 大模型
    大模型
    
    Agent调研
    
    深入理解LangManus
    
    IMO Agent
  - 自然语言处理
    自然语言处理
    
    NLP简介
  - 数据分析
    数据分析
    
    Pandas教程
  - 深度学习
    深度学习
    
    PyTorch教程
    
    线性回归
    
    多层感知机多层感知机
    目录
    
    简易实现
    
    torch工具类实现
    
    SoftMax
- 计算机科学
  计算机科学
  - 操作系统
    操作系统
    
    MiniOS-xv6
    
    Linux C++开发
    
    Linux常用命令
    
    Linux IO
    
    Linux Memory
    
    面试常考题
  - 网络
    网络
    
    Web/RPC 框架
    
    图解Http
    
    正/反向代理
    
    DNS应用
  - 经典书籍
    经典书籍
    
    设计数据密集型应用
- 中间件
  中间件
  - 关系数据库
    关系数据库
    
    MySQL-InnoDB引擎
    
    MySQL-踩坑
    
    ClickHouse
    
    BoltDB
  - 非关系数据库
    非关系数据库
    
    Bitcask
  - 缓存
    缓存
    
    Redis
    
    缓存-踩坑
  - 消息队列
    消息队列
    
    Kafka
    
    RocketMQ
- 系统设计
  系统设计
  - 性能测试平台
  - 设计原则
  - 微服务
    微服务
    
    微服务设计
    
    DNS & CDN & 异地多活
    
    日志 & 链路追踪 & 监控
  - go im
  - 视频进度设计
  - 评论中台设计
- 信息安全
  信息安全
  - 游戏外挂调研
- 其他
  其他
点滴生活
点滴生活
- 年度总结
  年度总结
  - 2026
  - 2025
  - 2024
  - 2023
  - 2022
  - 2021
- 书籍
  书籍
  - 传记
    传记
    
    邓小平传
    
    江泽民传
    
    马斯克传
    
    乔布斯传
  - 投资
    投资
    
    金钱心理学
    
    聪明的投资者
    
    财富的真相
    
    纳瓦尔宝典
  - 社交
    社交
    
    人性的弱点
  - 历史
    历史
    
    明朝那些事儿
  - 人文
    人文
    
    文化苦旅
  - 情感
    情感
    
    人间告白
- 理财
  理财
- 运动
  运动
  - 骑行
    骑行
    
    2024 渐入佳境
    
    2023 初试
- 游玩
  游玩
  - 2026
    2026
    
    2026元旦
  - 2025
    2025
    
    2025年底
    
    2025初冬
    
    2025国庆
    
    2025七夕
    
    2025端午
    
    2025五一
    
    2025清明
  - 2024
    2024
    
    2024冬季
    
    2024国庆
    
    2024中秋
    
    2024暑假
    
    2024端午
    
    2024女友见家长
    
    2024五一
    
    2024清明
    
    2024元旦
  - 2023
    2023
    
    2023石家庄
    
    2023团建
    
    2023国庆
- 考试
  考试
  - 教师招聘记录
- 视频
  视频
  - 科技发展
  - 生活向追剧
  - 纪录片
    纪录片
    
    人生海海
- 品尝
  品尝
  - 粤菜
- 开车
  开车
  - 考驾照

多层感知机

输入和输出中间，增加了隐藏层

隐藏层先做 w * x + b的线性运算，再组合 rule、sigmod、tanh的非线性运算

多层感知机的超参有

学习率 learning rate
批大小 batch_size
训练周期 epoches
隐藏层的个数，以及每层的神经元个数

简易实现

import torch
from torch import nn
from d2l import torch as d2l

batch_size = 256
train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size)

num_inputs, num_outputs, num_hiddens = 784, 10, 256

# 定义两个矩阵
W1 = nn.Parameter(torch.randn(
    num_inputs, num_hiddens, requires_grad=True) * 0.01)
b1 = nn.Parameter(torch.zeros(num_hiddens, requires_grad=True))
W2 = nn.Parameter(torch.randn(
    num_hiddens, num_outputs, requires_grad=True) * 0.01)
b2 = nn.Parameter(torch.zeros(num_outputs, requires_grad=True))

params = [W1, b1, W2, b2]

def rule(X):
    return torch.max(X, torch.zeros_like(X))

def net(X):
    X = X.reshape((-1, num_inputs))
    H = rule(X@W1 + b1)
    return (H@W2 + b2)

loss = nn.CrossEntropyLoss(reduction='none')

updater = torch.optim.SGD(params, lr=lr)
d2l.train_ch3(net, train_iter, test_iter, loss, num_epochs, updater)

torch工具类实现

import torch
from torch import nn
from d2l import torch as d2l

net = nn.Sequential(nn.Flatten(),
                    nn.Linear(784, 256),
                    nn.ReLU(),
                    nn.Linear(256, 10))

def init_weights(m):
    if type(m) == nn.Linear:
        nn.init.normal_(m.weight, std=0.01)

net.apply(init_weights)


batch_size, lr, num_epochs = 256, 0.1, 10
loss = nn.CrossEntropyLoss(reduction='none')
trainer = torch.optim.SGD(net.parameters(), lr=lr)

train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size)
d2l.train_ch3(net, train_iter, test_iter, loss, num_epochs, trainer)

评论