阿里 ECS 是一台物理机器构成的还是多台物理机器构成的？

Recommended Services

› Amazon Web Services

› LeanCloud

› New Relic

› ClearDB

This topic created in 1618 days ago, the information mentioned may be changed or developed.

阿里 ECS 是一台机器构成的还是多台机器构成的？

是一台物理机实现（某一台池化机器上的某个虚拟机）
还是多台物理机构成的网络计算机（即：纯粹基于网络的计算机，比如：内存由北京的一个服务器组成，CPU 由广东和福建的两台服务器共同构成，硬盘是浙江的三台服务器构成的）

请问是 1 还是 2 ？

如果不是 2 ，那么现在的技术世界里存不存在 2 这种实现？

Supplement 1 · Dec 21, 2021

了解到有一项叫做“超融合”的技术，有点类似于 2 的情况。

构成

机器

物理

ecs

51 replies • 2021-12-22 15:22:53 +08:00

ThirdFlame

Dec 21, 2021

显然是 1
2 的话成本有点高而且开销有点大

julyclyde

Dec 21, 2021

古代有个 mosix 可以把多个机器合并为一个
不过后来这东西没继续发展了

现在的 ecs 应该都是小于等于一台物理机的

wy315700

Dec 21, 2021

内存和 CPU 应该是一起的，硬盘分本地硬盘和云硬盘

PopRain

Dec 21, 2021

你在开玩笑吗？内存、CPU 不在一台计算机上？硬盘可能是网络的，但是一般也是在同一个机房，不太可能异地，异地也只是备份而已。

andyskaura

Dec 21, 2021

太看得起网络带宽了吧

seasona

Dec 21, 2021

1 ，ecs 其实就是 QEMU/KVM 开出的一台虚拟机，CPU 和内存都是一台本地服务器的，硬盘基本都是网络盘

swulling

Dec 21, 2021

CPU 和内存是一台宿主机上的，硬盘通常挂载同一个可用区的云盘。

这是因为网络带宽和时延，也就刚刚追上硬盘，离内存还远（受到物理规律限制可能永远追不上）

stoneabc

Dec 21, 2021

@PopRain 不过最新的各种内存、gpu pooling 的研究，过个几年真有可能 cpu 、内存、gpu 等设备都不在一台物理机上了…

t6attack

Dec 21, 2021

研究过 GPU 编程的朋友，可能会发现一个问题：当运算数据量很小的时候，速度提升并不明显，甚至比 CPU 计算更慢。原因是 GPU 带来的速度提升，被“向 GPU 传递数据所消耗的时间”所抵消。
你看，半个主板的距离，速度损耗都让人无法接受。你这直接给拉开两个城市了。

Alexonx

Dec 21, 2021 via Android

2 的实现的话，目前受限于网络带宽，很少有大规模的应用。OSDI '18 有篇论文挺类似的，这个论文描述的系统架构把硬件分成了处理器、内存和存储三种，中间通过网络进行通信，但是其中操作系统要付出大量的代价来保证一致性和容错。
PDF:https://www.usenix.org/system/files/osdi18-shan.pdf

2i2Re2PLMaDnghL

Dec 21, 2021

@stoneabc 但做法也不太可能是表现为一台机器（一个操作系统），而是表现为一个任务分发器（一个编排系统）

justs0o

Dec 21, 2021

第二种除非有突破光速的东西出来，否则永远不可能

kenshin912

Dec 21, 2021

显然是 1
内存和 CPU 必然在一台宿主机上 , 不然那延迟......
硬盘也应该在同一个机房内.

lopssh

Dec 21, 2021

@Alexonx

@julyclyde

@stoneabc

有一项叫做“超融合”的技术，不知道是否部分符合了 2 的定义。

felixcode

PRO

Dec 21, 2021

带宽可能可以通过技术革新来解决，但延时是受物理规律限制的。

CPU 和内存间有几到几十毫秒，再融合也不行，超融合也不行，再多的超字也不行。

FantaMole

Dec 21, 2021

超融合老是让我出戏到打牌

westoy

Dec 21, 2021

红帽的超融合是基于软件方案的定义，又不是你说的那种六神合体......

loading

Dec 21, 2021

@lopssh #14 你知道现在的超融合是怎么回事吗？约等于坑人。
你说的那种是集群，超过一台计算机能力的才需要把一个实例分布到多台物理机，你说的可能是指超级计算机。你自己查一下，阿里的 ECS 哪一个配置超过现在一台普通的服务器的配置了？

echo1937

Dec 21, 2021

@lopssh #14 超融合也不是你想象的那样子。

https://www.vmware.com/cn/products/hyper-converged-infrastructure.html

freelancher

Dec 21, 2021

@lopssh 无语了都。超融合能突破物理极限吗？

超融合的本质是分布式存储 + 虚拟化融合部署，核心是分布式存储。

存储放另一个地区都会造成巨大的网络延迟。

没事就多看看计算机的书！我潜水的都被炸出来了！

stoneabc

Dec 21, 2021

@felixcode 先不说能不能实现。。现在云厂商普通 vpc 内网的延时也就个位数 ms 。。上 Roce 之类东西的话能到个位数 us 级别

mikuazusa

Dec 21, 2021

只能是 1 ，2 的情况目前的超融合也达不到。
想了解超融合的，看一下什么是超融合一体机就知道了。

felixcode

PRO

Dec 21, 2021

@stoneabc
"内存由北京的一个服务器组成，CPU 由广东和福建的两台服务器共同构成"
这个怎么能达到 us 级别？

freelancher

Dec 21, 2021

令人震惊的计算机文盲。不多说了。看完帖子我能气晕。

stoneabc

Dec 21, 2021

@felixcode 仅指 “多台物理机构成” ，跨地域当然不行

felixcode

PRO

Dec 21, 2021

@stoneabc
roce 的个位数 us 级延时是指适配器延时，没算上传输延时。
哪怕是个位数 us 级的延时，放到现有的架构上，内存与 cpu 之间的延时也是现有单机的上百倍了。

Chase2E

Dec 21, 2021

<=一台物理机器，云计算的本质就是利用冗余资源嘛

b1u2g3

Dec 21, 2021

无知，半知半解 =》无畏

interim

Dec 21, 2021

一时无力吐槽，这竟然是个开发问出的问题，建议重修计算机。

msg7086

Dec 21, 2021 via Android

超融合我记得只有存储是共享的吧，而且也是走 IB 之类互联的。
这些技术的难点都在于突破光（电）速。
CPU 和内存之间十几厘米的距离到顶了，拉到隔壁桌子都不行，你还跨省。这么远的距离，4GHz 的 CPU 瞬间被拉成 4KHz 。

markgor

Dec 21, 2021

所谓的超融合其实就是现在云厂推的无服务器应用...单纯跑一个应用的。
只涉及到存储 /计算 /带宽能力。
和虚拟机完全不是一个级别的。
另外阿里 ecs 也不是一台物理机器；

存储->建立存储池，末端是多台物理机器；
CPU/内存->集群中建立的虚拟机；
比方 A 集群中由 3 台物理机组成，虚拟机的配置运行仅仅会在其中一台节点中生效。
当发现这个节点异常时，集群会把配置文件移动到另一个节点中。由于数据的存储是存储池中的，所以这个移动其实仅仅是配置。

如果你有租用超过 3 年的云主机，你细心查看会发现有过自动重启的日志（可能看运气吧，但我其中一台试过），提交工单后答复由于宿主机异常，导致了转移，所以引起云服务器重启....

内存带宽大概是 4200MT/s ，网络带宽需要达到怎样的条件才能这样异地组机呢，而且还没考虑稳定性...
这有点过渡设计了....

eason1874

Dec 21, 2021

硬盘可以通过网络连接，大部分场景能满足，需要高 I/O 的除外

CPU 和内存通过网络连接不可行，损耗极其大，说可行的要么不懂，要么骗子

这题目让我想起好多人以为超算就是堆 CPU 堆内存。。。

julyclyde

Dec 21, 2021

@lopssh 那只是个市场用语

ch2

Dec 21, 2021

你用过就知道，哪台机器性能指标啥样都得提前文档里写好的，同一个大区不同小区之间高几毫秒延迟都得说的清清楚楚，不在一台机器上的都能猜得到

xingHI

Dec 21, 2021

香港轻量最低配什么价格

PMR

Dec 21, 2021 via Android

内存延迟超过 80/90ns 都已经出现计算能力下降的情况

内存 cpu 在上广的情况
天翼云在两地网络延迟能摸到 29ms
这延迟带来是非常致命

luckyc

Dec 21, 2021

内存、CPU 必须在一起, 人家厂商为了最大化的加速, 恨不得把内存集成到 CPU 里面去.

vhwwls

Dec 21, 2021

底层是高度定制化的 KVM ，CPU 和内存当然只能是同一台机器上的，至于硬盘视情况而定，大部分情况是分布式存储上的。

tinybaby365

Dec 21, 2021

CPU 和内存来自同一台 host ，（ CPU 和内存都归为计算资源），磁盘可以来自该 host ，也可以是外部的云盘。云盘也是不会出 zone 的，不可能跨 region 的，延迟太大了。云盘使用的是 RDMA 类的方案。

littlewing

Dec 21, 2021

如果你买的是 1024C1024T 的配置的话，有可能是 2

lamesbond

Dec 21, 2021

应该是 1 ，阿里专有云资源快用完的时候，能开好几台 1 核，2 核的 ecs ，但开不出一台高配的，这些 1 核，2 核的就是每台物理机的“边角料”

dianso

Dec 21, 2021

内存一般都在香港吧，网线应该在美国和欧洲，硬盘在国内，毕竟数据重要。

Buges

Dec 21, 2021 via Android

除了硬盘都是 1 。其实 serverless 可以算是一种类似 2 的实现，不过你关心的不再是机器而是应用程序本身。

Barnard

Dec 22, 2021

不应该，异地的通信已经是大大制约了，即使在同一个主板都要想方设法增加内存和 cpu 之间的总线带宽，更别说异地了，所以现在 SOC 集成 CPU 和内存，性能提升明显。

另外这些都应该是很基础的计算机知识，楼主不知道么？

ganbuliao

Dec 22, 2021

就是用了超融合也得在一个机房里面网络延迟是个大问题

thtznet

Dec 22, 2021

1 和 2 事实上是统一的，任何计算机的所有联接目前都是物理联接，网线也是通过物理连上的，所以 1 和 2 的区别只是联接的线是 PCB 上的金线还是光纤+PCB 金线，理论上 PCB 金线的数据传输极限也是光速，光纤的传速极限也是光速，但是基于物理地点的差距，那么即便都在光速的情况下传输信号，那么 [方案 1] 永远都比 [方案 2] 快，那么现实的问题是，如果 [方案 1] 的计算资源不够了怎么办？目前计算机设计的方案就是在物理地点附近堆硬件，将 2 台物理计算机相邻放置，并将 CPU 和内存和硬盘等多个组件全部联起来，用什么连？用 PCB 连，所以它成了多路服务器，规模再大点，还要继续堆硬件，物理地点还要更靠近，一个 PCB 板有制造极限，那么用多个 PCB 联接起来，所以它成了刀片服务器，规模再大点，继续堆。。。所以它成了超算。。。