V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  princelai  ›  全部回复第 19 页 / 共 53 页
回复总数  1054
1 ... 15  16  17  18  19  20  21  22  23  24 ... 53  
@huzhikuizainali #13 当然不是单纯用结果去判断,你要根据你的训练误差,测试误差,去判断你的特征和模型的好坏,所以让你把所有特征都放进去,让模型自己 train 出来,误差也分为多种,回归和分类的,AUC,RMSE,MAPE,交叉熵。如果是做特征选择,那通常是方差算出来的,比如 chi2,一般会根据你选择的函数结果也不同。
@huzhikuizainali #11 我觉得是你记错了,如果是特征降维 /SVD 这些可能会用到矩阵特征值,你的这个特征和那个不是一个东西,原始数据处理要么是增加特征,可以是交叉 /衍生出来的,要么是标准化 /归一化,剩下线性和非线性的拟合部分交给模型去做。
应该是你说的间接数据效果更好,通常特征都是原始特征+交叉特征,你的间接数据就属于人为选择的交叉特征。而且为什么不把原始数据和间接数据一起放入模型,让模型自己选择哪个有用哪个没用呢?
2021-05-14 16:33:37 +08:00
回复了 vicalloy 创建的主题 Python Python 终于决定要提升一下性能了
@LeeReamond #34 底下那个时间(秒)其实应该叫做相对时间(倍),如果搞成对数坐标,bar 显示更好看,但是倍数关系会被破坏,变得不直观了,看的人需要反算 exp 推出倍数关系
2021-05-14 16:11:11 +08:00
回复了 vicalloy 创建的主题 Python Python 终于决定要提升一下性能了
@tabris17 #28 他们测试都是用纯语言去跑,但是实际上 python 的数据分析都是 pandas,numpy,sklearn,scipy 这些,都是经过 C,fortran 优化过的底层,所以不用来跑分,而是实际使用的话是很快的。
2021-05-14 16:07:13 +08:00
回复了 vicalloy 创建的主题 Python Python 终于决定要提升一下性能了
@hronro #31 我定期爬数据自己做图,matplotlib+seaborn,加权指的是速度+内存使用排名加权
2021-05-14 14:43:27 +08:00
回复了 vicalloy 创建的主题 Python Python 终于决定要提升一下性能了
2021-05-14 12:54:39 +08:00
回复了 vicalloy 创建的主题 Python Python 终于决定要提升一下性能了
julia 比 python 慢那么多就离谱,jit 编译器第一次跑要预热的,估计测是的人只跑了一遍就直接写结果了吧。
2021-05-07 19:05:55 +08:00
回复了 ELloop 创建的主题 电影 请问有什么恐怖电影可以推荐吗
看了一圈,没人提孤儿怨
楼上这么多推荐电力猫的?通常复式都是 2 个空开吧,电力猫过不去
2021-05-07 15:56:16 +08:00
回复了 galileo1214 创建的主题 Python 自然语言处理问题 W2V
开头连着结尾是合理的,比如文本生成,生成到句号,需要根据上 N 个词和句号来继续生成下一句话的开头。

而且就算真的没有上下文关系,只要你的每句话够长,那么不管 window=5 还是 7,都只有少部分两句话被关联起来了,对于整体的分布影响不大。

最后如果你非纠结这个问题,那你自己 split('.;')或者正则分割一下不就好了吗
2021-05-07 15:30:57 +08:00
回复了 Pogbag 创建的主题 北京 同事和我借房产证…
复印件就可以,我年初刚给我同事办完,他假装租我家房子,用到了复印件,然后目的是办完居住证好能去申请京 B 的摩托车牌子,自己去居委会就能办。
2021-05-07 11:24:35 +08:00
回复了 Jay54520 创建的主题 程序员 如何解含有多个变量的线性方程组?
```python
from sympy import symbols, init_printing, solve

init_printing(use_unicode=True)

a, c, d, h, i = symbols('a c d h i')

b = c - d * a
f = d + d * a
g = f * h
e = g * i + b
j = e / f

solve(j, a)
```

Out[53]:
⎡-(c + d⋅h⋅i) ⎤
⎢─────────────⎥
⎣ d⋅(h⋅i - 1) ⎦
2021-05-06 09:51:36 +08:00
回复了 Pogbag 创建的主题 问与答 你们的 NAS 上都跑了什么服务
2021-04-29 19:20:45 +08:00
回复了 ingin 创建的主题 北京 兄弟们,来北京很久了,还没吃过烤鸭,大家有推荐的吗?
我推荐晟永兴,新派烤鸭值得尝试,不过打包就算了
描述的不清楚没能理解
必须是 3b1b/manim,github 上有
2021-04-23 12:09:13 +08:00
回复了 huzhikuizainali 创建的主题 Python 在本机用 Python 做数据挖掘,大家一般用什么数据库?
我主要是时序数据,所以选择了 timescaledb,其实就是 postgresql 魔改版本,所以其他数据基本都入到我这个库里了,本地小数据我都用 pandas 输出为 parquet/feature,读写非常快,压缩比也很高
2021-04-19 18:25:03 +08:00
回复了 sunhk25 创建的主题 Python Python numpy 如何优雅的进行矩阵的并行计算
@sunhk25 #6 你是想说 how 是你自定义的函数?你不是简单的相加是吗?那上 numba,循环放到 numba 里很快,比 numpy 还快。或者你都有两个传播好的 array 了,你改一下 how 函数不就完了
2021-04-19 18:11:08 +08:00
回复了 sunhk25 创建的主题 Python Python numpy 如何优雅的进行矩阵的并行计算
还有一种方法,原理一样
```python
match_arr = np.mgrid[1:7,1:7].sum(axis=0)
```
1 ... 15  16  17  18  19  20  21  22  23  24 ... 53  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   962 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 32ms · UTC 20:56 · PVG 04:56 · LAX 13:56 · JFK 16:56
Developed with CodeLauncher
♥ Do have faith in what you're doing.