V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  foool  ›  全部回复第 1 页 / 共 1 页
回复总数  6
3 小时 59 分钟前
回复了 Avafly 创建的主题 算法 C++如何优化矩阵乘法 gemm
几个小建议和疑问:
1 先大致理论分析下最大能够达到的 GFLOS 是多少(考虑 CPU 多 port 都可以执行运算);
2 先用单线程跑到最高速率,排除多线程调度或资源竞争导致的劣化;
3 尝试加上预取指令,perf 看看瓶颈在哪里
4 测试多次,取最优值,看你测试了一次,都会有“冷启动”的问题。
5 omp parallel for schedule(static) 是在编译时就确定代码位于哪个线程了吗,会导致 cache 相关问题吗( false sharing )
4 小时 6 分钟前
回复了 Avafly 创建的主题 算法 C++如何优化矩阵乘法 gemm
对比 openblas 中 cblas_sgemm 也是 4 并行度的吗?
29 天前
回复了 K2 创建的主题 Bitcoin 杯柄
每次看到这样的图,我都想到了我孙子听的成语故事,刻舟求剑。
100 天前
回复了 nnegier 创建的主题 程序员 CPU 关于内存这里的描述是什么意思呢?
R=Rank ,若干 chip 组成一个 Rank ,共同提供单位长度的数据,
多个 Rank 之间是时分复用的,不能翻倍带宽或速率,

前面的 2x 和 4x 感觉你也理解错了,那是每个芯片能够提供的数据带宽,建议你看看内存手册,如果真想知道上面说的是啥。

你给的链接已经说的很清楚了,内存是双通道(桌面端一般配置),每个通道一般都是一个或一对内存 DIMM 。
你想问为什么自己修改了内核配置 config 文件,但编译的时候似乎没有按照你修改的配置 config 文件进行内核编译,但你应该学习下如何提问,不要在问题中掺杂太多无关记录和没有先验知识的描述。
2021-01-04 21:33:55 +08:00
回复了 liuguangxuan 创建的主题 算法 各位老哥,请教一个时间同步的算法问题。
B 的时钟是什么?类型是 monotonic 还是 realtime ?

如果 A 仿真速率不变,为什么要不断逼近,直接调整为和 A 一致不行?
即使 B 不知道 A 的仿真速率,也可以通过两次采样时间简单计算得到 A 的仿真速率,调整和其一样不行吗。

为什么要有随机延迟,被仿真设备或者协议带来的延迟?
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2749 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 19ms · UTC 12:14 · PVG 20:14 · LAX 04:14 · JFK 07:14
Developed with CodeLauncher
♥ Do have faith in what you're doing.