代码如下： <div class="highlight highlight-source-python notranslate position-relative

增加gpu后准确率成倍减小，是为什么呢 about pytorch-multi-gpu-training HOT 2 OPEN

jia-zhuang commented on September 18, 2024

增加gpu后准确率成倍减小，是为什么呢

from pytorch-multi-gpu-training.

Comments (2)

dahuaxiya commented on September 18, 2024 1

Owner

是这样的，我试了一下。每个GPU只能看到所有数据的一部分，是我的计算方法有误，应该除以每个GPU看到的所有样本数量，而不是数据集所有的样本数量。
谢谢作者的解答

from pytorch-multi-gpu-training.

jia-zhuang commented on September 18, 2024

我理解原因可能是：
ddp是数据并行，意味着模型有多份，它们有些相同的初始参数，每次前向后向时只看到属于自己partition的训练数据，算完梯度后，进程间通讯，大家同步一下参数。我看你是直接算当前batch上的准确率，并且是在backward之前，那意味着还没同步参数，模型看到的训练数据是不一样的：如果是1GPU，那模型是看到全量数据的，如果是2GPU，每个模型只看到了一半的数据，导致算出来的准确率也不一样。
建议在完成一个前向后向后，在测试集上计算指标。

from pytorch-multi-gpu-training.

Recommend Projects

增加gpu后准确率成倍减小，是为什么呢 about pytorch-multi-gpu-training HOT 2 OPEN

Comments (2)

Related Issues (5)

Recommend Projects

React

Vue.js

Typescript

TensorFlow

Django

Laravel

D3

Recommend Topics

javascript

web

server

Machine learning

Visualization

Game

Recommend Org

Facebook

Microsoft

Google

Alibaba

D3

Tencent