V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
binbin0915jjpp
V2EX  ›  服务器

centos7 主机 ssh 卡住也不报错 crond 无反应 必须强制物理重启 但 docker 里的容器都正常

  •  
  •   binbin0915jjpp · 2023-10-08 18:47:10 +08:00 · 984 次点击
    这是一个创建于 410 天前的主题,其中的信息可能已经有所发展或是发生改变。

    RT 设置成每天重启也不行 因为有的时候撑不了一天 感觉宿主机系统死了 怎么排查 128G 内存也只吃了 30 几 G 资源充足的

    17 条回复    2023-10-11 15:01:13 +08:00
    shixuedela
        1
    shixuedela  
       2023-10-08 19:58:35 +08:00
    首先排查是不是网络问题导致的 ssh 卡住,
    然后查 log
    dode
        2
    dode  
       2023-10-08 20:21:01 +08:00
    做一个 webhook 重启 sshd 服务
    idontnowhat2say
        3
    idontnowhat2say  
       2023-10-08 20:28:51 +08:00
    tty 先直接输入账号密码登陆下看看排除下到底是不是 sshd 进程的问题。
    LindsayZhou
        4
    LindsayZhou  
       2023-10-08 23:04:03 +08:00
    问这种问题很不好,没有足够信息别人只能盲猜。

    我猜是 profile 里有东西卡住了。
    如果是 bash 的话,试试 --noprofile --norc 参数吧。

    ssh -t remote_host bash --noprofile --norc
    binbin0915jjpp
        5
    binbin0915jjpp  
    OP
       2023-10-09 06:29:44 +08:00
    @LindsayZhou 就是不知道怎么查 只是描述现象 感觉是 amd 机器的锅 不稳定?
    julyclyde
        6
    julyclyde  
       2023-10-09 20:58:11 +08:00
    首先,你提到“宿主机”那你是用了虚拟机吗?建议先描述清楚这层关系
    binbin0915jjpp
        7
    binbin0915jjpp  
    OP
       2023-10-10 10:54:21 +08:00
    @LindsayZhou 无效
    [root@f0ba92c6c19b /]# ssh -t 192.168.1.3 bash --noprofile --norc
    The authenticity of host '192.168.1.3 (192.168.1.3)' can't be established.
    ECDSA key fingerprint is SHA256:tFOfvXN7u9diTevMb9tapK3zT9MacXNVFTb875aud2E.
    ECDSA key fingerprint is MD5:ac:f3:78:2c:62:50:02:7e:a6:3d:c0:68:1d:c7:54:0a.
    Are you sure you want to continue connecting (yes/no)? yes
    Warning: Permanently added '192.168.1.3' (ECDSA) to the list of known hosts.
    [email protected]'s password:
    packet_write_wait: Connection to 192.168.1.3 port 22: Broken pipe
    binbin0915jjpp
        8
    binbin0915jjpp  
    OP
       2023-10-10 10:56:37 +08:00
    @julyclyde 就是一台 Centos7 服务器(叫他宿主机) 上面跑了很多容器
    binbin0915jjpp
        9
    binbin0915jjpp  
    OP
       2023-10-10 10:57:11 +08:00
    容器运行都没问题 但是主机自己的 ssh crond 服务器都死了
    julyclyde
        10
    julyclyde  
       2023-10-10 13:52:44 +08:00
    @binbin0915jjpp 主机自己的 ssh 、crond 都死了啊,那你有没有对它进行性能监控呢
    看看出问题瞬间有什么指标飙升的情况吗?比如进程数、内存用量、swap 速率、tcp 连接数、打开文件总数之类的
    binbin0915jjpp
        11
    binbin0915jjpp  
    OP
       2023-10-10 15:52:44 +08:00
    @julyclyde 没有 关键到机房直接操作 也不行 ssh 死的 本地也连不上..
    spediacn
        12
    spediacn  
       2023-10-10 18:36:58 +08:00 via iPhone
    128G 应该是物理机吧

    建议按楼上这位哥的来,看看进程数、内存使用、swap 速率、tcp 连接数、文件句柄数,如果因为死掉没法看的话,旁路接一个交换机的端口镜像,持续抓包看是不是有异常连接数大户吃光了

    再者,我也遇到过几次莫名其妙死了的情况,盲目扩句柄数、会话数、缓存这些参数可能改完是正常的,但遇到一些极端环境(比如某些进程占用过大)才能发现问题。我觉得多数都是 sysctl 里头的参数配置导致问题,如果你修改过 sysctl ,将修改内容注释掉跑几天试试。

    如果直连互联网没做防护的话,大概率被打。
    julyclyde
        13
    julyclyde  
       2023-10-11 14:26:58 +08:00
    @binbin0915jjpp 插键盘也登录不上嘛?是卡在输入密码之前还是输入密码之后?
    binbin0915jjpp
        14
    binbin0915jjpp  
    OP
       2023-10-11 14:39:32 +08:00
    @julyclyde 输入之后
    binbin0915jjpp
        15
    binbin0915jjpp  
    OP
       2023-10-11 14:41:23 +08:00
    怀疑是这 2 个参数 之前改的过于夸张大
    ClientAliveInterval 60
    ClientAliveCountMax 1500
    改回来了 暂时还没死
    julyclyde
        16
    julyclyde  
       2023-10-11 14:42:04 +08:00
    @binbin0915jjpp
    本地登录,“login 冒号”是 getty 程序提供的
    你输入用户名之后它 exec 了 login 命令,由 login 命令提问“password 冒号”,并进行验证
    然后 exec shell
    按说这一系列都不会额外多出进程数来,打开文件数会增加,所以猜测应该不是这两项满了导致的

    往内存量方面考虑一下试试?
    binbin0915jjpp
        17
    binbin0915jjpp  
    OP
       2023-10-11 15:01:13 +08:00
    @julyclyde 128G 内存 自用了 30 不到 top 里也基本正常
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1009 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 22:20 · PVG 06:20 · LAX 14:20 · JFK 17:20
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.