V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  ershierdu  ›  全部回复第 1 页 / 共 32 页
回复总数  628
1  2  3  4  5  6  7  8  9  10 ... 32  
7 天前
回复了 zhangforce 创建的主题 Apple 关于 MacBook air 的几点咨询
听起来你已经激活了这台 MacBook Air ,那也没有退货的选项了(我理解国补+教育优惠应该不是 Apple 官方的平台买的),何不先用一段时间试试?别人并不清楚你真正的性能需求。旧设备可以先别急着置换,万一 M4 的 Air 有什么问题可以随时先换回去。如果最后发现性能足够但内存/硬盘不够,再换也来得及。

我用的是 Windows ,以前也尝试过多设备,后来发现都不如一台笔记本走天下。文件能通过网盘同步,但配置的环境、打开的窗口、微信等软件的登录状态,这些都不可能做到无缝切换。
108 天前
回复了 ershierdu 创建的主题 投资 2024 年 12 月,怎么买美股/港股?
@dya 盈透是必须用护照吗?
108 天前
回复了 ershierdu 创建的主题 投资 2024 年 12 月,怎么买美股/港股?
@Artpop 谢谢。ib 是指盈透证券对吧,“不用人在内地”是说“必须在香港吗”


@WasteNya 港股通要 50w 吧,没打算投这么多哈哈


@iampure 可以人在内地吗?
@Biggoldfish
@Muniesa
感谢二位,在主楼里 append 了一些信息
我倒觉得这个事挺有意思的。楼上说数据量太大没时间看,但即便是现有的 AI 都接近能自动提取精彩内容了,再过几十年这绝对不是问题。重点在于,存储、计算资源只会越来越便宜,检索引擎会越来越智能,但原始数据删掉就没有了。
将来可能用自然语言描述一个场景,AI 就能把所有类似的记录全查出来,难以想象如果我有影像来呼应童年回忆是什么感受。

所以我基本不删任何照片,全部上云……
不了解最新的分布式架构,但感觉这也太符合 MapReduce 的思路了…

逻辑上:
1. 把文件扫一遍,得到 id->list[pair<content,sort>]的映射。
2. 单独为每个 id 的内容做内部排序。

实现上:
1.无论用什么方法,一轮文件 IO 把数据都进来都是需要的。为了后续处理更方便,再多加一轮 IO ,先把大文件按 1<id<10w, 10w+1<id<20w...切成多个小文件,这样每个小文件都是独立的,后续处理时维护的中间状态会少很多。
2. 每个小文件用一个进程处理,得到 id->list[pair<content,sort>]的中间结果。要么像楼上说的直接进数据库,要么每个 id 的内容放在一个文件里。一个小文件跑完后就可以从中间结果生成最终数据了。

并行度可以在切小文件的时候控制(每个小文件 10w 还是 100w 个 id )。

前提:
你存放最终结果的数据库需要能承受这么大的最终数据,否则啥办法都白搭。
2024-03-14 23:51:38 +08:00
回复了 ttomatoo 创建的主题 问与答 C 盘焦虑症各位有吗? C 盘分多大合适?
@wxgsorry 有价值的数据都在云端(甚至桌面我都在用坚果云同步)。否则,硬盘损坏/电脑丢失等情况造成数据丢失的可能性,会比 C 盘满了更能让我焦虑……
1  2  3  4  5  6  7  8  9  10 ... 32  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2502 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 28ms · UTC 15:51 · PVG 23:51 · LAX 08:51 · JFK 11:51
Developed with CodeLauncher
♥ Do have faith in what you're doing.