V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  noparking188  ›  全部回复第 2 页 / 共 59 页
回复总数  1164
1  2  3  4  5  6  7  8  9  10 ... 59  
181 天前
回复了 noparking188 创建的主题 生活 上海也有梅雨季,嘉峪关亦有美食
@qianckjuan 谬赞了老哥,我就看了嘉峪关选调生小作文气不过有感而发,嘲讽一下武大黑奴、文科妓女
在这里问不如去问大头鹰
Streamlit 挺不错的,而且提供免费的类似云上一键部署,分享分布很方便,不过如果复杂的前端展示和交互需求,建议就不要折腾了,很费解不讨好,直接前端写。
我前端时间试了用 streamlit 写了个小 web 应用,哈哈,可以参考: https://navisearch.streamlit.app/
@drymonfidelia 能不能补充,对于这样的数据量,你给的已知条件不够
1. 什么类型的数据,给个 sample ,或类似的 sample?
2. 试过切块压缩后的存储占用吗,比如切 10GB 一块,再行存压缩或者列存压缩后分布占用?
3. 最高有 256G 内存,那么计算资源( CPU 核)能有多少,SSD 读写达到多少?
4. 如果服务器为多台,带宽达到多少?
5. 结果文件是否要求为同样单个 CSV 文件?
6. 处理时间要求多少?
7. 任务为一次性的,还是后续有同样的需求,方案要能复用?

我有个想法可以讨论下:
1. Spark 或者 Hadoop 之类计算框架先做数据预处理,追加行号、数据值编码为整数,切块和压缩后存储(比如 10 GB 一块,parquet 格式 snappy 压缩)
2. 真正的计算任务就是对先前预处理后的数据进行处理,可以用 Spark ,或者 PrestoDB DB 这种 MPP 计算引擎

我想到的主要问题和瓶颈:
1. 数据量太大,还是单个文件,磁盘 IO 是主要耗时,所以要预处理做切块、编码、压缩,减轻任务计算时的 IO 压力;
2. 串行处理无法充分利用计算资源,所以要数据切块分区、利用成熟的分布式计算框架,比如 Spark

感觉这是一个工程问题,重在如何优化。

非常希望你能分享下后续,是否解决了,解决方案,感觉很有意思。
296 天前
回复了 sitong 创建的主题 问与答 大家伙,帮帮我妹妹,我实在是没有办法
校园招聘上会找,抓住校招机会,本地企业单位政府会对这个学校有一定扶持
1. 海外运营(苏州有不少要出海的制造业、科技企业)
2. 苏州本地小学老师,不行就下面县
3. 考研机构助理老师(跟着考研,本校就行,下次校招可以去园区当中学老师)
https://i.imgur.com/io2SM1h.png 我就这学校毕业的,有需要可以留个联系方式我帮你问问
你投投专门做数据的公司,技能比较匹配,这些全部都用得上。杭州知道一个微风企,类似这种,找到匹配的企业,直接 25k+ 要。
@kkk9 #18 你谈包工头那就说工地啦,也是个具体实例来讨论你这个大层面,也可以问问各行各业的 v 友,是干活的同事多,还是派活的领导多很多。
你换话题好奇赚多少,实话实说赚多赚少或者亏损都是常事,这是生意。
说实话没理解你的逻辑,思维太跳跃我跟不上。
感谢回复。
@chuck1in #19 江浙沪水电工最低 350 一天
302 天前
回复了 McreeWu 创建的主题 职场话题 怎么应对卷工作时长的新同事?
我觉得他在拍你马屁,刚来不熟多抱你大腿
丁克不谈,现在好多年轻小姑娘都不想生小孩,就算退步结婚了也不坚持不生小孩。唉
302 天前
回复了 palegodenrod 创建的主题 职场话题 路该怎么走?
什么 Java 开发,那叫后端开发,直接海投,各种招聘网站都试,找各种内推渠道。拿到一个 offer 就算成功了。
@kkk9 #7 我爸包工头,我也在工地搬砖过,你在瞎扯,工头和工人的比例最少也是 1/10 ,工头也要干活,还要做管理
303 天前
回复了 QGabriel 创建的主题 Android 安卓手机拍照有能跟 iPhone 媲美的吗
同样价钱,我换了 小米 13ultra 顶配,而不是 iPhone 15 丐版,主要是考虑拍照好点,存储够大
304 天前
回复了 lurui45 创建的主题 职场话题 30 了,还要出去工作吗
你现在这公司还能干几年
你们没有数据开发吧,这思路太后端了

OP 的最终需求就是校验 Oracle 迁移到 PostgreSQL 的数据,给了两个 CSV 是不能连数据库?

考虑以下点:
1. CSV 作为两边数据源的中间缓存,两边库导出的 CSV 就是错的,特殊字符转义等问题,这点就已经导致不一样;
2. 校验任务执行频率和执行时间要求;
3. 能否直连两边库;
4. 中间缓存对两边库数据类型的兼容统一,只能 CSV 跳过这点;

一次性比较我直接 cut sort comm ,写代码浪费生命。
经常跑、对比文件就直接 导入 DuckDB FULL OUTER JOIN 。

比较专业的方案 https://github.com/datafold/data-diff ,可以参考它的思路
304 天前
回复了 HaLLS 创建的主题 Go 编程语言 求助,请各路大神指点指点我的未来吧...
同等学历考研
310 天前
回复了 shuffblow 创建的主题 职场话题 佬们,帮忙看看 24 校招前端的简历
感觉不用改,都是细枝末节,精力用在投简历,找人内推啥的,先有面试机会,背八股文、刷刷 hot 200 够了。
你这 211 学历又英语好,可以尝试的机会很多。国企、传统行业外企啥的都试试。
310 天前
回复了 lavalse 创建的主题 职场话题 一个大三 CS 学生的迷茫
你不喜欢的话只学 SQL 和英语就够了,可以不用编程,能快速上手各种工具在上面写 SQL 。甚至可以只要英语好点,然后校招进公司从零开始培训,用到啥学啥。
313 天前
回复了 Poluk 创建的主题 职场话题 想请各位帮忙看下简历哪里还需要修改?
@Poluk #15 刷两周真题能读一个本三,认真复习三个月能读南工大南工程这种。
这个也是四年制全日制,修完全部专业课。真心建议你先去读本科,遇到资源好的老师还会带你去打比赛,保送大厂实习。本科入学不要搞虚的,直接刷 leetcode ,复习考研。
真心建议,兄弟听我一句劝,不害你。身边有很多例子,要听留个邮箱我发你。你读专科,大概率是小镇错题家,都是阶级兄弟,能救一个是一个。
1  2  3  4  5  6  7  8  9  10 ... 59  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5693 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 49ms · UTC 03:23 · PVG 11:23 · LAX 19:23 · JFK 22:23
Developed with CodeLauncher
♥ Do have faith in what you're doing.