V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  princelai  ›  全部回复第 22 页 / 共 53 页
回复总数  1053
1 ... 18  19  20  21  22  23  24  25  26  27 ... 53  
@rationa1cuzz #8 我自己手上正好有一个 12k 的数据集

data.shape
Out[8]: (116419, 12)

%timeit data.query("startCityId==321 and endCityId==3401")
3.14 ms ± 147 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

%timeit data.query("startCityId==321 and endCityId==3401 and carType=='8_1'")
12.5 ms ± 7.9 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)

data.startCityId.nunique()
Out[10]: 265
data.endCityId.nunique()
Out[11]: 284

carType 是一个字符串,另两个是整数类型,这么小的数据集查询这么慢,肯定是哪里出问题了
我试了试,只能循环转为 dataframe,之后查询就会快很多

```
d = {
'中学': {
'初一': {
'数学': [{
'id': 1,
'题目': 'xx',
'答案': 'xx'
},
{
'id': 2,
'题目': 'xx',
'答案': 'xx'
}
]
},
'初三': {
'语文': [{
'id': 3,
'题目': 'xx',
'答案': 'xx'
},
{
'id': 4,
'题目': 'xx',
'答案': 'xx'
}
]
}
},
'小学': {
'三年级': {
'英语': [{
'id': 5,
'题目': 'xx',
'答案': 'xx'
},
{
'id': 6,
'题目': 'xx',
'答案': 'xx'
}
],
'体育': [{
'id': 7,
'题目': 'xx',
'答案': 'xx'
},
{
'id': 8,
'题目': 'xx',
'答案': 'xx'
}
]
},
'五年级': {
'美术': [{
'id': 9,
'题目': 'xx',
'答案': 'xx'
},
{
'id': 10,
'题目': 'xx',
'答案': 'xx'
}
]
}
}
}

trans = []

for title1_key,title1_val in d.items():
for title2_key,title2_val in title1_val.items():
for title3_key, title3_val in title2_val.items():
tmp_df = pd.DataFrame(title3_val)
tmp_df['title1'] = title1_key
tmp_df['title2'] = title2_key
tmp_df['title3'] = title3_key
trans.append(tmp_df)
df = pd.concat(trans)
```

查询的话,大数据量用 query 方法会更快一点

df.query('id==5')
Out[156]:
id 题目 答案 title1 title2 title3
0 5 xx xx 小学 三年级 英语

df.query("title2=='三年级' and title3=='英语'").id
Out[158]:
0 5
1 6
2021-01-12 10:59:43 +08:00
回复了 andyskaura 创建的主题 北京 在北京整个皮卡开怎么样 不拥摇号 也不进 5 环
各远郊区的卫星城区内主干道都不让走,我弟就开了三四年皮卡,还因为这个政策的征求意见稿,他们车友会去写信找政 /府抗议了么,没用
2020-12-18 17:34:00 +08:00
回复了 baozijun 创建的主题 问与答 大家健身环都坚持多久了
一周 1-2 次,刚第四大关
2020-12-17 09:42:29 +08:00
回复了 waiaan 创建的主题 浏览器 有没有超长网页的截图办法?
chrome fireshot
2020-12-14 16:06:04 +08:00
回复了 Scorpiocat 创建的主题 Python pandas 操作求助,数据如下
你这个 excel 表就能很快实现,一共也没多少数据
2020-12-14 16:05:38 +08:00
回复了 Scorpiocat 创建的主题 Python pandas 操作求助,数据如下
import pandas as pd

df = pd.read_excel("data.xlsx")

df1 = df.pivot_table(index="医院",columns="月",values="总计",aggfunc="sum").reindex(columns=range(1,13)).fillna(0).cumsum(axis=1)
df1.columns = [f"{c}月" for c in df1.columns]
2020-12-14 14:21:58 +08:00
回复了 Scorpiocat 创建的主题 Python pandas 操作求助,数据如下
from itertools import product
df2 = df1.reindex(index=list(product(df1.index.get_level_values(0).unique(),[f'{i}' for i in np.arange(1,8,1)])),fill_value=0)
2020-12-07 16:55:26 +08:00
回复了 Hlianbobo 创建的主题 Python 粗看 numpy 和 pandas 后的一点困惑
你说的基本都是对的但是有点狭隘,知道为什么现在机器学习、科学计算和数据分析大部分都用 python 这种比较慢的脚本语言当接口吗,因为生态好,除了 np 和 pd,scipy,sklearn,statsmodels,matplotlib,seaborn 都基于 numpy,pytorch 的 tensor 也和 np.array 基本一致,以上这些,excel,SQL,R,julia 目前甚至未来都是做不到的。
2020-11-04 10:07:21 +08:00
回复了 zhanghua0 创建的主题 Linux VMware 上的 Arch Linux 的 KDE 桌面渲染炸了
manjaro 就很友好,基本不需要配置,archlinux 的嫡系
2020-11-04 09:52:22 +08:00
回复了 pythonzz 创建的主题 反馈 为什么 V2EX 没有返回顶部的按钮?
vimium,一个 gg 就上去了,G 就到最下边
2020-11-03 11:29:54 +08:00
回复了 whasyt 创建的主题 程序员 问下数据对比有什么好用的工具或者方法吗?
@whasyt #10 既然你会 python,那么你现在的难点是什么?我没弄明白,excel 不方便就自己写点代码呗
2020-11-03 11:18:58 +08:00
回复了 whasyt 创建的主题 程序员 问下数据对比有什么好用的工具或者方法吗?
你用 pandas 读两个表,索引 merge 或者 concat,然后用 isna,notna 看看是否也有 nan,col1/col2 计算误差,是这样吗?
2020-10-30 12:02:49 +08:00
回复了 wandehul 创建的主题 装修 一人一句装修的经验或者坑
墙面刷漆能用标准色就用标准色,自己调的留好色号,我家墙被我用无痕钉打坏了,至今都没办法,因为找不到相同颜色了,只能准备弄个照片墙盖上
2020-10-26 15:33:35 +08:00
回复了 Libby520 创建的主题 北京 小客车摇号中签啦!
蹭蹭,啊不是,沾沾喜气
2020-10-23 13:09:20 +08:00
回复了 Aoyd 创建的主题 问与答 戴森吹风机贵在哪里?
@yolee599 #78 带森有的是 100 块以上产品就带的矿物负离子,松下高端带的叫纳米水离子( nanoe ),好象是这样
2020-10-23 10:17:23 +08:00
回复了 qwa2013 创建的主题 Python Python 去重
我觉得我破译了楼主想问的问题,应该是,有一个形似 xxxyyyzzz 的字符串,y 是随机的(没说是数字还是字符还是两者组合),如果遇到 x,z 都是随机字母数字组合,那么删除该行,如果 x,z 都是纯数字或纯字符,那么就保留,但楼主没说如果 x 是纯数字,z 是纯字符,是否要删除。
2020-10-23 10:06:40 +08:00
回复了 Aoyd 创建的主题 问与答 戴森吹风机贵在哪里?
上个月给我媳妇新买个吹风机,对比的就是戴森和人鱼姬,最后下单后者。根据我查到的资料

戴森的优点是造型好看,手持重心合理,高速风机
缺点是贵,没有离子这种护法功能,说白了就是傻吹,更适合中短发型,尤其是男性

我媳妇用了人鱼姬吹了一个月说吹完确实头发更顺滑了。
我是昌平县城的,钓鱼的多在小汤山,昌金路(大辛峰村北口东),上面是我路过见到的,但我估计还有很多,比如十三陵、南口附近。免费的就运河钓,你就沿着运河开车走,外面都是铁丝网,但是里面肯定有人钓鱼,你问问里边人把哪里的铁丝网剪开了,你也能进去钓,运河里晚上野钓的特别多。
1 ... 18  19  20  21  22  23  24  25  26  27 ... 53  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1248 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 32ms · UTC 17:49 · PVG 01:49 · LAX 10:49 · JFK 13:49
Developed with CodeLauncher
♥ Do have faith in what you're doing.