博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
CUDA 学习(五)、线程块
阅读量:4217 次
发布时间:2019-05-26

本文共 401 字,大约阅读时间需要 1 分钟。

一、概述

        在GPU编程上,通常我们可能会创建成千上万个并发线程来实现设备上的高吞吐量。例如:

            

        这将会调用名为 some_kernel_func 的GPU函数共 2*128 次,每次都是不同的线程。然而,这样做通常会使 thread_idx 参数的计算变得更加复杂,而 thread_idx 通常又用来表示数组的下标。因此,内核函数如下:

         

        为了计算thread_idx 这个参数,我们必须考虑线程块的数量。对第一个线程块而言,blockIdx.x 是0,因此 thread_idx 直接就等于之前使用过的 threadx.x,然而,对于第二个线程块而言,它的blockIdx.x 的值是1,blockDim.x 表示本例中所要求的每个线程块启动的线程数量,它的值是128,那么对第二个线程块而言,在计算thread_idx 时,要在threadIdx.x 的基础上加上一个1*128线程的基地址。

       例如:

                            

                        

 

你可能感兴趣的文章
浮点数的二进制表示
查看>>
求一组数字组成的最大整数三种解法
查看>>
廖雪峰Python教程学习笔记(1)
查看>>
关于libsvm在linux下运行时遇到get no rate异常
查看>>
Effective Java 学习笔记一 Object的方法
查看>>
对malloc rolloc calloc的用法以及区别
查看>>
C/C++:long int与long long的区别
查看>>
五种常见软件架构
查看>>
进程间通信的方式——信号、管道、消息队列、共享内存
查看>>
QSQLITE 数据库操作总结
查看>>
Q_OBJECT宏的作用
查看>>
宏Q_OBJECT
查看>>
Qt布局管理(1):部件拉伸原理及大小策略(sizePolicy)
查看>>
Qt 5种标准对话框及使用方法详解
查看>>
Access数据库的存储上限
查看>>
sqlite3数据库最大可以是多大?可以存放多少数据?读写性能怎么样?
查看>>
详细了解SQLITE 优缺点 性能测试
查看>>
Access、SQLite,我该如何选择?
查看>>
Access 规范
查看>>
D-Bus学习(一):总体介绍
查看>>