V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  thinszx  ›  全部回复第 6 页 / 共 6 页
回复总数  108
1  2  3  4  5  6  
@lsvih 其实我这个是复现一篇论文的,文中用的是 resnet/cnn 加 bilstm 的结构,resnet/cnn 部分主要是截取的报文部分转图片,其实利用的就是流量交换的信息头和数据,可能是因为图像的算法还是成熟些吧,现成的东西多,不过你说的对,seq model 从效率上讲比图片高多了,光是转图片的过程就够我训练模型了...
@ColinDowney 谢谢!😊
@Mohanson 谢谢指教!这个图片是用恶意流量转十六进制转出来的,因为想着图像识别的算法比较成熟,所以试了一下,空白部分是流量长度不够做的补位,如果要丢弃掉黑色部分的话可能就只能选取图片中完整的部分做了,会不会丢掉很多特征呀?
@ThirdFlame 可是我模型跑出来的结果很好(我本来以为能有七八十的准确率就上天了),如果有影响的话,是图片具有多少空白部分这个特征也被学习到了吗?实在是想不通,查论文好像也没人研究过
@jyyx 得到的数据没有问题,但是数据类型不太对,我想直接得到 dataframe 类型的数据,你的方法得到的是 list 型的,如果要得到 dataframe 型的数据还需要再转一次,可能我表达的不太清楚,MisterLee 的方法就是我想要的了,直接得到了 dataframe 格式的分组
@wittyfans 谢谢,真的很有帮助!!!
@wittyfans 啊,是的,学习到了!原来有这么简洁方法,谢谢(◦˙▽˙◦)
@jyyx 谢谢你的回答,不过和我想得有一些出入,我想得到的是拆分后的 DataFrame,因为后续对各个分组的操作还要用到 pandas 的一些函数

目前我解决的方法是新开了一个列表,来存储排序后 DataFrame 中各个分组的大小(直接调用了 count()函数),然后用了一个 for 循环每次切片操作,得到小的 DataFrame

大致的做法像这样:
itr = 0 # 起始指针
sorted_group_list = [] # 存放每个小分组对象
separate_group_counts = np.array(df['A'].count()).tolist() # 存储了各个分组的大小

for count in separate_group_counts:
sorted_group_list.append(df[itr:itr + count].copy()) # 这里的 copy 不要可能会省点内存,不过有点危险
itr += count

楼下那位的做法好像也挺不错的,比我的简洁一点
1  2  3  4  5  6  
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   983 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 12ms · UTC 19:47 · PVG 03:47 · LAX 11:47 · JFK 14:47
♥ Do have faith in what you're doing.