lcdtyph

到底混淆(伪装)是特征,还是“没有特征”就是特征呢?

  •  
  •   lcdtyph · Nov 30, 2018 · 6409 views
    This topic created in 2734 days ago, the information mentioned may be changed or developed.
    下午看到一个帖子 https://www.v2ex.com/t/512951 ,里面有楼层说混淆本身就是特征。
    但是我个人觉得没有特征才是最大的特征呀,想听听更多人的意见。
    42 replies    2018-12-02 12:36:09 +08:00
    geekvcn
        1
    geekvcn  
       Nov 30, 2018
    不是說了嗎 , 不管你怎麼搞 , 混淆還是不混淆 , 都能 100%識別 , 混淆更容易識別 , 特徵更明顯 , 不混淆也能識別 , 但是要在茫茫的合法和不合法流量裏挑出來很麻煩 , 也就是時間成本和性能開銷 , 非特殊時期部署後會不會影響正常合法流量和現有服務 , 一般特殊時期都是直接一刀切不管合法流量還是不合法 , 不止混淆是特徵 , 日流量 , 月流量 , 服務提供商等等都是特徵 , 真有必要物理斷網都行
    kljsandjb
        2
    kljsandjb  
       Nov 30, 2018 via iPhone
    混淆就是特征 没毛病
    lcdtyph
        3
    lcdtyph  
    OP
       Nov 30, 2018
    @geekvcn #1
    先不考虑 100%识别的极端情况,因为不现实。
    我觉得混淆之后的流量要识别是很麻烦的,因为要区分伪装的和真实的并不容易,从这个角度来说它的特征和已知合法协议一样,反而不那么明显了。
    而没有特征的协议就不一样了,在特殊时期可以考虑随机阻断位置协议的流量,这个成本不要太低,所以没有特征本身就是一种特征呀。
    hundan
        4
    hundan  
       Nov 30, 2018 via Android
    我的观点:100%识别?没有特征是特征?混淆本身是特征?口嗨而已,讲讲细节讲的出来吗
    lcdtyph
        5
    lcdtyph  
    OP
       Nov 30, 2018
    @kljsandjb #2 能详细说说么
    yexm0
        6
    yexm0  
       Nov 30, 2018
    阿里云香港跟新加坡,无论你是正常做站的,还是拿来开飞机的,一律炸.
    所以特征不特征的就只是看人家心情而已.
    lcdtyph
        7
    lcdtyph  
    OP
       Nov 30, 2018
    @yexm0 #6 阿里云可以直接在你的服务器上作行为监视,这个炸了不是很正常么。
    geekvcn
        8
    geekvcn  
       Nov 30, 2018
    @lcdtyph HTTPS , HTTP 的本身特徵都很明顯 , 但是偽裝後的流量和正常 HTTP , HTTPS 區別很大 , 比方說單 IP 訪問頻率 , 流量 , 沒有特徵意味著混在海量流量里 , 海量流量都是沒特徵的 , 而不是像伪装成微信视频通话的数据包 , HTTP , HTTPS 這些協議本身正常流量有很大特徵 , 不符合正常的特徵全部 ban 了
    yexm0
        9
    yexm0  
       Nov 30, 2018
    @lcdtyph 与监视无关,是连正常的做站也被干扰的.
    @hundan 上一年带 R 的写了个检测不带 R 的流量的程序,然后不带 R 的那位反击写了个识别带 R 的流量的程序,这俩的程序识别出来的精确度还行.
    lcdtyph
        10
    lcdtyph  
    OP
       Nov 30, 2018
    @geekvcn #8
    这个问题感觉是因为目前常用的混淆效果得不够好导致的…
    你说的“海量流量”具体指什么呢,我理解的是这些在经过骨干节点的流量绝大多数都是 HTTP/HTTPS 吧。
    aa6563679
        11
    aa6563679  
       Nov 30, 2018 via iPhone
    反正我的机场只要是 tls 一律炸,不管是真 https 还是其他的东西
    geekvcn
        12
    geekvcn  
       Nov 30, 2018
    @lcdtyph 還有你一直說特殊時期 , 特殊時期一般是白名單制 , 混淆不混淆都沒用 , 就是我所說的一刀切 , 所以平時情況下混淆一定是更容易被識別
    geekvcn
        13
    geekvcn  
       Nov 30, 2018
    @lcdtyph TCP , UDP 流量那麼多 , http/https 只是 TCP 數據包中的一部分什麼時候占絕大多數了
    lcdtyph
        14
    lcdtyph  
    OP
       Nov 30, 2018
    @geekvcn #13 因为普通用户是绝大多数呀,能扩散出去的一般也就 HTTP(s)+DNS 了,顶多再有一些视频语音流量和 BT 什么的。
    wy315700
        15
    wy315700  
       Nov 30, 2018
    和正常的流量有任何一点不一样就是特征
    geekvcn
        16
    geekvcn  
       Nov 30, 2018   ❤️ 1
    @lcdtyph 就這麼和你說吧 , 全看當局臉色 , 嚴的時候白名單 , 或者物理斷網 , 不嚴的時候混在海量 TCP/UDP 流量里而不是 HTTP 這類只是 TCP 的一種更好 , 我就打個比方 , 一個國內的 IP 每天都對國外一個 IP 大流量 , 按照你說的一般人也就上上網而且是不同的網 , 那這個 IP 不是跳板是什麼? 而且這個 IP 還是搬瓦工這類大型企業不會用 , 一般人很多用來做跳板的 , 所以沒有混淆和不混淆 , 只有嚴不嚴
    hundan
        17
    hundan  
       Nov 30, 2018 via Android   ❤️ 1
    @yexm0 是这样的,如果说 100%识别能做到只是资源问题的话,反过来说也是一样的。这里并不是谈论现有的协议和检测手法,能被检测只能说明协议伪装不够完美。
    流量的传递和识别,本质上一个是客户端和服务端的解析,然后中间人进行特征提取。
    但理论上可以创造一种协议,比如伪装成 http,使得流量的内容在中间人看来可以完美的解析为 http,或者说流量可被浏览器解析为正常页面,而在两端被使用自有协议解析。
    也就是说,理想情况下的流量和正常流量完全一致。
    上面某人说的 100%识别只是资源问题,那我也可以说 100%伪装也是资源问题。
    但是唯一的问题是开发难度极大。
    当然如果你们加个前提条件:现有协议,那当我没说过。
    hundan
        18
    hundan  
       Nov 30, 2018 via Android
    虽然感觉你们在扯现有协议的问题,我可能扯远了
    love4taylor
        19
    love4taylor  
    PRO
       Nov 30, 2018 via Android
    讲一件事 正常 TLS 流量在运营商后台是可以看到域名的. 而 s(r) 混淆出来的只有 IP.
    lcdtyph
        20
    lcdtyph  
    OP
       Nov 30, 2018 via iPhone
    @Love4Taylor 目前原版和 r 版的 tls 混淆都是有 sni 部分的,是看得见域名的。
    love4taylor
        21
    love4taylor  
    PRO
       Nov 30, 2018
    @lcdtyph #20 然而就是看不到 这几年我尝试过无数次 相比之下 v2 的完整 TLS 才会有域名 (江苏联通的 DPI 还是很强的
    geekvcn
        22
    geekvcn  
       Nov 30, 2018
    @hundan 沒說現有協議 , 我只是告訴他混在海量 TCP/UDP 數據包裏面比混在 HTTP/HTTPS 這類本身就有特徵的流量裏更好罷了 , 至於怎麼實現還是用別人的輪子都更不容易被識別
    Liqianyu
        23
    Liqianyu  
       Nov 30, 2018
    混淆流量是通过混淆伪装正常流量,提供强特征以避免 QoS。
    加密流量没有特征但可以阻断或 QoS,白名单才可以完全屏蔽。
    honeycomb
        24
    honeycomb  
       Nov 30, 2018 via Android
    @lcdtyph 首先你的目的是什么,这里应该有这些:
    1,它认不出来目标就是它要的东西
    2,目标应该也是足够低调(比如和大众足够相似),不致不引起它注意
    lcdtyph
        25
    lcdtyph  
    OP
       Nov 30, 2018
    @honeycomb #24 我的目的是:
    1. 尽量不被注意
    2. 万一被怀疑了或者抽查到了,也尽量不被检测出来
    CEBBCAT
        26
    CEBBCAT  
       Dec 1, 2018 via Android
    @geekvcn 有博客吗?想关注一下
    CEBBCAT
        27
    CEBBCAT  
       Dec 1, 2018 via Android
    破娃讨论过这个问题,好像还在 Twitter 上拿公交车 出租车 私家车打了个比喻
    whkvf
        28
    whkvf  
       Dec 1, 2018 via Android
    流量为王
    cwek
        29
    cwek  
       Dec 1, 2018
    你要看混淆的程度,现在有一种研究就是做对加密流量负载的特征分析,这样做得话,混淆了和没做的没啥区别,其次是端口探测,如果对于访问行为能正确响应的,那就能避免被容易探测出来而减少风险。对于流量分析,好像有个说法是在不确定具体账户情况下,对于账户间的大额金额流动是不敏感的。

    所以,如果伪装得好,的确对抗分析还是有效果的。(其实就是流量整形和避免单纯模仿。)
    alfchin
        30
    alfchin  
       Dec 1, 2018 via Android
    @hundan 开个 ssr 直接在出口防火墙端提示异常 https 协议流量。ss 流量稍微大一点提示未知大流量协议。要解密流量很难也没必要,但是要把那些有问题的流量标志出来的成功率还是很高的,尤其是那些用来看 4k 的傻鸟。
    alfchin
        31
    alfchin  
       Dec 1, 2018 via Android
    @hundan 你这东西完全实现不了的。你的正常 http 单位时间能附加的东西是有限度的,而且没事连续高频刷几个页面本身就是高度可疑行为。结论就是流量一大分分钟被抓。目前所有工具在流量统计面前都是没啥用的,因为行为过于反常了,除非你能混在已经备案过的白名单流量里面。
    hundan
        32
    hundan  
       Dec 1, 2018 via Android
    @alfchin “连续高频刷几个页面”并不是我说的 是你自己理解的 理想状态下是构造出 http 协议下的正常页面 不是特定某几个页面
    “ http 附加信息”这个也是你自己理解的 我指的不是在 http 下附加信息 并不是说现有的这种 http 伪装
    理想状态下的 http 伪装 在 gfw 面前是一台日夜不停工作的爬虫 流量大但是内容正常
    cwbsw
        33
    cwbsw  
       Dec 1, 2018
    @hundan 正常爬虫会日夜不停地访问同一个 IP 吗?
    hundan
        34
    hundan  
       Dec 1, 2018 via Android
    @cwbsw 这不是很正常吗?其他不说,爬煎蛋的人应该不少吧?日夜不停地爬一个网站,有什么问题
    leavic
        35
    leavic  
       Dec 1, 2018 via Android
    说混淆特征更明显的既不懂密码学也不懂统计学,甚至连玄学都没学过。
    leavic
        36
    leavic  
       Dec 1, 2018 via Android
    @geekvcn 在一个莫名其妙的端口上,有巨大的不可解析的非常规协议的 tcp 流量,难道就比大流量的 http 特征更不明显了吗?
    leavic
        37
    leavic  
       Dec 1, 2018 via Android
    @geekvcn 你说的白名单时期我还真没经历过,臆想出来的吗?
    alfchin
        38
    alfchin  
       Dec 2, 2018 via Android
    @hundan 你自己都没发现你的逻辑有问题吗?一个啥都不是的网站,值得爬虫天天爬,大流量爬?墙现在也有主动探测能力。过去看一眼结合流量直接傻了。除非你能在白名单网站的网段内找到一个跳板,不然这招也是行不通。
    hundan
        39
    hundan  
       Dec 2, 2018 via Android
    @alfchin “啥都不是”这个不是你自己理解的吗??
    hundan
        40
    hundan  
       Dec 2, 2018 via Android
    @alfchin 既然不考虑精力和开发难度,你都能把墙说得这么牛逼,能不能把你的想象力分一部分到伪装上?
    qwvy2g
        41
    qwvy2g  
       Dec 2, 2018 via Android
    是不是有人以为混淆了显示个域名就检测不到你连接的 ip 了?
    lcdtyph
        42
    lcdtyph  
    OP
       Dec 2, 2018
    @qwvy2g #41 混淆的目的从来都不是隐藏 ip
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   4131 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 121ms · UTC 05:18 · PVG 13:18 · LAX 22:18 · JFK 01:18
    ♥ Do have faith in what you're doing.