部门最近处理数据,从 IT 那里导出了 20G 的 txt 文件,但是不晓得怎么用。V 友萌给点建议撒~
1
hcymk2 2017-05-03 15:10:56 +08:00
没什么特殊要求,而且那个 txt 文件是 CSV 格式的话, 直接分割 20G 的 txt
http://stackoverflow.com/questions/23757991/maximum-number-of-rows-of-csv-data-in-excel-sheet |
2
liprais 2017-05-03 15:11:30 +08:00
导入了之后打算干啥?
|
3
rrfeng 2017-05-03 15:12:27 +08:00 1
倒进去了也打不开……导进去干啥
|
4
954880786 2017-05-03 15:12:37 +08:00 via iPhone
开两个文件指针,一边读一边写啊
|
5
EmdeBoas 2017-05-03 15:14:21 +08:00
java nio MappredByteBuffer
|
6
iyaozhen 2017-05-03 15:14:47 +08:00
导进去要干啥?
|
7
andychen20121130 2017-05-03 15:14:52 +08:00
一部分一部分处理啊。有什么难的
|
8
lcatt 2017-05-03 15:16:43 +08:00
excel 也不支持 20G 的数据量啊
|
9
h4x3rotab 2017-05-03 15:16:58 +08:00
要是想分割还好说,不分割不大可能放进一个 excel 文件里
|
10
xcodeghost 2017-05-03 15:18:46 +08:00
导入进去后,估计你打不开了。
|
11
feng1234 2017-05-03 15:22:45 +08:00
让 IT 那边给你们拆分
|
12
jugelizi 2017-05-03 15:24:28 +08:00
你想用 excel 自带的分析工具。。。
|
13
weiping 2017-05-03 15:24:36 +08:00
支持不了,学学 python, 处理下。
|
14
littleylv 2017-05-03 15:26:40 +08:00
我想说,IT 导出 txt 的时候为什么不按大小切割
|
15
rssf 2017-05-03 15:26:57 +08:00 via iPhone
execl20g ?你觉得 execl 不会死还是咋地!倒数据库吧
|
16
foxni 2017-05-03 15:28:59 +08:00
execl 有行数限制的好不,20G 的打不开,导进去也没用。
|
17
liprais 2017-05-03 15:29:03 +08:00
正经的,楼主还是想办法把这 20g 数据倒进数据库吧,然后才好分析啥的
|
18
bozong 2017-05-03 15:30:51 +08:00
有点挑战。。。
|
19
lty1993 2017-05-03 15:31:04 +08:00
买个 LibXL 然后 Parse TXT 一行一行插去 Excel。
|
20
JackyBao 2017-05-03 15:32:39 +08:00
我很想知道 Excel 打开 20G 的文件,会不会爆内存?
|
21
EricInBj 2017-05-03 15:33:20 +08:00
直接改成 csv 后缀用 excel 打开
然而 excel 会罢工吧。。。 |
23
Tunar 2017-05-03 15:33:56 +08:00
boom !
|
24
Septembers 2017-05-03 15:34:27 +08:00
@JackyBao 我 60G 的 CSV 喂 数据库什么事情都没发生
|
25
curiosity OP 下载了一个分割器,分成了几百个小文件...
主要是我不会用数据库啊(惭愧 谢谢谢谢各位的解答,谢谢。 |
26
Yc1992 2017-05-03 15:35:29 +08:00
第一步:把冰箱门打开;第二步,把大象装进去;第三步:把冰箱门关上
|
27
Tink 2017-05-03 15:35:42 +08:00
excel 也打不开
|
28
xavier007 2017-05-03 16:02:00 +08:00
导进去也打不开,还不如导入到 sqlite 或者其他数据库里
|
29
davidqw 2017-05-03 16:03:37 +08:00 1
excel 最多支持 1048576 行,导不完的。100M 的文件打开都慢的要死,弄个 mysql 处理吧
|
30
araraloren 2017-05-03 16:38:00 +08:00
~~ execl 表示这锅我不背
自己写代码分批处理比较好吧,既然是数据处理 |
31
jy02201949 2017-05-03 16:43:05 +08:00
建议导入到数据库里用吧,起码写个 select 分析分析还是可以的,放 EXCEL 你用啥系统、软件都玩不转
|
32
icedx 2017-05-03 16:43:55 +08:00
Python -> .csv -> .xls
|
33
johnWall 2017-05-03 16:44:14 +08:00
这个锅直接给 Hive 就好了吧。。逃
|
34
lrh3321 2017-05-03 17:04:54 +08:00
叫 IT 的给你 建个临时的数据库,把数据直接往里面导,20G 的 txt,转成 excel 你照样打不开
|
35
ho121 2017-05-03 17:15:39 +08:00 1
难道不是先看看是什么格式的吗?
|
36
im8a 2017-05-03 17:36:28 +08:00
python > csv > xls +1
代码一小时内写完然后 i3 跑个一天搞定 |
37
tracyone 2017-05-03 17:41:37 +08:00 via iPhone
先用正则表达式工具分析数据然后再倒入到 excel
|
38
syhsyh9696 2017-05-03 17:43:46 +08:00 via Android
Linux 下先 split 分割合适大小在搞,这样也太大了
|
39
vexexv 2017-05-03 17:44:39 +08:00
会 sed 不?然后改一下文件后缀就成了,只是能打开 20G 的 excel 吗?
|
41
whale 2017-05-03 17:50:38 +08:00
一个数据文件 20G,还是 txt,遇到会很头痛!
|
42
singer 2017-05-03 17:54:40 +08:00 via iPhone
Python 读读快的
|
43
vus520 2017-05-03 18:10:56 +08:00
不应该是放到数据库或者 hadoop 中么
|
44
Ginson 2017-05-03 18:47:36 +08:00
txt 用 shell 处理吧,比 excel 不知道高到哪里去了
|
45
wanganjun 2017-05-03 19:45:14 +08:00 via iPhone
导到数据库吧,excel 是可以连接,读取数据库数据的
|
46
qfdk 2017-05-03 19:48:12 +08:00 via iPhone
你需要用 zepplin 然后用 csv 的库 把它读进去 查询就 select
|
47
tairan2006 2017-05-03 20:01:46 +08:00
算了吧。。能导进去又怎么样,你有那么大的内存么……
|
48
lany 2017-05-03 20:21:09 +08:00
20G boom
|
49
FunctionOne 2017-05-03 20:38:38 +08:00
所以说,不要收集太多数据……
|
50
jyf007 2017-05-03 21:19:52 +08:00 via Android
我做 it 也是用 jq 处理 json 改 csv,但是之中有过滤啊。
|
51
fy 2017-05-03 22:06:41 +08:00
Excel 格式有一个限制是必须全部载入内存后才能打开。
所以说…… |
52
davidqw 2017-05-03 22:07:28 +08:00 1
推荐个方案:本地安装 MySQL,客户端 WorkBench 导入数据和清洗数据,Tableau 连接数据库分析出图
|
53
runntuu 2017-05-03 22:39:34 +08:00
长么大还没见过 20G 的 txt,表示想看。。
|
54
zander 2017-05-03 22:46:42 +08:00 via iPhone
try sql.
|
55
dexterzzz 2017-05-03 22:49:29 +08:00
说 excel 100 多 w 行限制的根本不知道 excel 现在发展到什么地步了,去看看什么是 powerpivot,power bi。
|
56
Quaintjade 2017-05-03 22:50:07 +08:00 via Android
[IT 表示不想理你,并向你扔了条裤子]
[你接住了裤子,并开始纠结如何套到头上] |
57
hahahasnoopy 2017-05-03 23:08:59 +08:00
@dexterzzz 居然 Excel 都能这样玩了,惊了
|
58
rayray314 2017-05-04 00:05:11 +08:00
Power Query + Power Pivot 可玩,Power BI 亦可。
|
59
HuangLibo 2017-05-04 00:25:13 +08:00
还是用数据库吧...
|
61
s7word 2017-05-04 01:29:23 +08:00
20G txt?给 excel 它能吃的消?
|
62
wuYin 2017-05-04 01:55:15 +08:00 via Android
大公司面试题既视感[doge]
|
63
xpsair 2017-05-04 02:01:57 +08:00
excel 好像只能处理到 50W 行左右的数据,多了就会显示说只加载了一部分。
|
64
ryd994 2017-05-04 04:20:07 +08:00 via Android
excel 那么可怜,你为什么要这样欺负它?
|
66
zhidian 2017-05-04 06:27:49 +08:00
我想吐槽了,如果一楼不对……你确定不是 csv 的文本 Excel 能知道怎么导入?是 csv 的话拆分起来不是 so easy ?
|
67
Romanticlizhi 2017-05-04 08:24:07 +08:00
@dexterzzz 2003 一个 sheet 是 6w 多,2007 一个 sheet 是 100 多 w,这没毛病的
|
68
Romanticlizhi 2017-05-04 08:25:24 +08:00
@davidqw 是一个 sheet 支持这么多行,并不影响你多 sheet
|
69
shizhouren 2017-05-04 08:37:09 +08:00
Python 是怎么读 txt 文档的,这算是机器学习吗?
|
70
UnknownR 2017-05-04 08:44:32 +08:00
上次打开个几百 mb 的 log 都瞎眼,20G,那画面太美,不知道能不能打开,excel 的逻辑上限 2^20 行,也就是 100w 行多一点,而且你的内存最低要求也要 4 根插满的 8G,
|
71
GoForce5500 2017-05-04 09:02:12 +08:00
安利 Spark,写好 Parser 就可以开始统计了。
|
72
changwei 2017-05-04 09:13:23 +08:00 via Android
想不到这个世界上怎么总会有一些奇奇怪怪的需求
|
73
Alexhex 2017-05-04 09:32:11 +08:00
非码农。
之前我也处理过一些很大的实验数据。后来用 Python 手工把采样频率降到了原先的 1/10 (就是每 10 行抽一行),然后再导入 Excel 处理。 |
74
Sh888 2017-05-04 09:38:49 +08:00
SQL Server ETL
|
75
realpg 2017-05-04 09:45:24 +08:00 1
@zhidian #66
不是 csv 只要有分隔就能导入啊 基本我导入的都是 txt 很少 csv @tairan2006 #47 您对 EXCEL 的认知还停留在 2007 吧……现在已经 2017 年了…… excel powerpivot, power query, power view 都是神器 |
76
HGladIator 2017-05-04 10:12:29 +08:00
喂猫不用 spark hadoop 什么的 专制各种大文件
|
77
lilydjwg 2017-05-04 11:19:42 +08:00
导进去了也打不开……导进去干啥
|
78
davidqw 2017-05-04 12:00:09 +08:00
@Romanticlizhi 可以试下单 sheet 百万行 excel 的分析,不说处理速度和数据拆分衔接的问题,光软件日常崩溃就够喝一壶的
|
79
yuedingwangji 2017-05-04 12:36:09 +08:00
excel 肯定就读不了那么多的行
|
80
dexterzzz 2017-05-04 12:42:02 +08:00
一群不懂 excel 的人...( _ _)ノ|
|
83
tairan2006 2017-05-04 13:41:38 +08:00
@realpg 搜了一下,长见识了…不过平时还是用 DB 用的多
|
84
sampeng 2017-05-04 14:43:06 +08:00
20G...普通的统计 shell 也能跑出来。其实并不多,20G 并不代表行数多。python 处理也比 excel 强啊。居然有人在 V2EX 问怎么扔 excel 里面。这很神奇啊。。难道不是怎么用 XXX 做计算之类的么。。不按套路出牌啊
|
85
learnshare 2017-05-04 14:49:16 +08:00
20G Excel 不会炸么
|
86
Felldeadbird 2017-05-04 15:00:26 +08:00
几十 M 的 excel 已经打开慢了。。20G,不敢想象。
|
88
elex 2017-05-05 08:54:47 +08:00
使用 csv,一边读一边写,存到 csv 再打卡就可以
|
89
tjxjj 2017-05-20 22:04:32 +08:00
等 30 年差不多了。。。,到哪个时候计算机的性能差不多可以就打开了
|