nvidia

Я пытаюсь сложить строки матрицы 4800x9600 вместе, в результате чего получается матрица 1x9600. То, что я сделал, это разбил 4800x9600 на 9600 матриц длиной 4800 каждая. Затем я выполняю сокращение на 4800 элементах. Проблема в том, что это очень медленно... У кого-нибудь есть предложения? В основном, я п...

Это часть какого-то параллельного ядра редукции/экстремума. Я сократил его до минимального кода, который все еще получает clBuildProgram сбой (обратите внимание, что он действительно падает, а не просто возвращает код ошибки): EDIT : похоже, что это также происходит, когда local_value объявляется global вме...

В предыдущих версиях CUDA, то atomicAdd не был реализован в парном разряде, поэтому она является общей для реализации этого, как здесь. С новым CUDA 8 RC я сталкиваюсь с проблемами, когда пытаюсь скомпилировать свой код, который включает такую функцию. Я предполагаю, что это связано с тем, что с Pascal и Comp...

Недавно я писал некоторый код OpenGL 3.3 с Vertex Array Objects (VAO) и протестировал его позже на графическом адаптере Intel, где я обнаружил, к моему разочарованию, что привязка буфера массива элементов явно не является частью состояния VAO, как вызов: glBindVertexArray(my_vao); glDrawElements(GL_TRIANGLE...

Я программирую игру DirectX, и когда я запускаю ее на ноутбуке Optimus, используется графический процессор Intel, что приводит к ужасной производительности. Если я заставлю графический процессор NVIDIA использовать контекстное меню или переименовать мой исполняемый файл в bf3.exe или какое-то другое известное...

Пользователи жаловались, что мое приложение (использует Direct3D 11 для рендеринга тяжелого 3D-контента для CAD-подобной функциональности)работает на Intel GPU в системах с двумя GPU. Обнаружил, что NvOptimusEnablement / AmdPowerXpressRequestHighPerformance экспортированные переменные. Тем не менее, приложен...

Итак, я экспериментировал с классом performance counter в C# и имел большой успех, исследуя счетчики процессора и почти все, что я могу найти в мониторе производительности windows. Однако я не могу получить доступ к категории "NVIDIA GPU"... Так, например, следующая строка кода-это то, как это обычно работае...

Например, я могу использовать атомарные операции CUDA atomicAdd(ptr, val), atomicCAS(ptr, old, new), ... на его глобальной памяти (GPU-RAM). С CUDA 6.5. Но могу ли я использовать эти атомарные операции для удаленной глобальной памяти над GPUDirect 2.0 P2P ?...

В графических процессорах транзакции в кэш L2 могут иметь размер 32B, 64B или 128B (как для чтения, так и для записи). А общее количество таких транзакций можно измерить с помощью метрик nvprof, таких как gst_transactions и gld_transactions. Однако я не могу найти никаких материалов, которые подробно описывал...

Как организованы потоки для выполнения графическим процессором?...