导师让做数据湖的大模型应用,但是我没有实际的数据湖可以用,有点无米之炊。各位老哥知道什么开源的基于 S3 协议的数据湖搭建方案吗?
1
dayeye2006199 213 天前 via Android
什么是数据湖的大模型应用?两个名词堆一块儿了?
|
2
ihnfsa OP @dayeye2006199 我也只知道几个关键字,AI Agent + RAG + 数据湖
|
3
dog82 213 天前
数据湖炒概念的成分更大,我没找到市面上的成功案例。我对国云数据的魔镜稍微了解一点,楼主去看看 http://www.moojnn.com/product-center/publicinto.html
|
5
yjhatfdu2 213 天前
开源数据糊一般是指 apache hudi 、apache iceberg 和 delta lake ,但这玩意儿都还是适合写入为主,偶尔批量计算的场景,不适合实时查询,和 AI Agent 、RAG 有啥关系?
|
6
ihnfsa OP @yjhatfdu2 我也没搞清楚,现在想的是能不能把 Text2SQL 用在湖上一些查询系统上,类似于这种 https://help.aliyun.com/zh/dms/release-the-ai-agent
|
7
CadonHo 213 天前
数据湖就是一个存储,特点就是各种数据格式都能存。不过有一说一,大模型的应用不是应该往垂直领域找么,这个跟数据湖关系不大吧,数据湖就是大模型应用中的一个环节而已。
|
8
hero1874 213 天前
数据湖和大模型这俩关系挂靠在一起,有点违和
看你上面说的 AI Agent + RAG + 数据湖 是把数据湖作为 RAG 的外部数据来源吗,数据湖里存一些非结构化的数据 数据湖可以看看 Apache Paimon 这个倒支持流式读写,批读写,也支持 S3 |
9
opengps 213 天前 1
先把数据湖改个名,叫对象存储,理解起来瞬间容易不少
|
10
zlo309618100 213 天前
啥是数据湖?文盲.jpg
|
11
roidinev 213 天前
是啊, 大模型的应用应该往垂直领域找。除非你想研究出论文:比如研究大模型对存储吞吐量/延迟的需求,优化数据湖等。
|
12
wheat0r 213 天前 5
导师:我啥也不懂,你们弄好了挂我一作
|
13
ZGame 213 天前
首先你要确定你的大模型需要的数据,再去考虑技术栈会不会合适点...
|
14
mightybruce 213 天前
你的题目写得不对,数据湖和对象存储是两个东西
大模型应用和这个也没有关系。 要么导师误入子弟,要么导师没有说清楚,需要再次沟通。 |
15
sampeng 213 天前
灰常简单啊。。
搭个 mysql 。咯。这就是数据糊 |
16
o562dsRcFqYl375i 213 天前
@CadonHo 正解
|
17
yalin 213 天前
AWS 云方案?
|
18
o562dsRcFqYl375i 213 天前
@opengps 👍
|
19
c3de3f21 213 天前
flink + paimon + trino [ connector + store + search]
|
21
deorth 213 天前 via Android
op:虽然完全不知道导师出的什么吊题目,但是我先问问网友
|
22
nullboy 213 天前
"数据湖" 这名字听起来怎么感觉怪怪的
|
23
HughRyu 212 天前
我个人理解 Datalake 就是各个 Dataware 的集合,不能为了强行推 Datalake 概念而堆砌 Dataware 。
|
28
ihnfsa OP 这个题目是甲方给的,导师也不懂,没安排和甲方沟通,让我在这想方案。s3/hdfs 是我自己琢磨的,我看数据湖一般会有一个存储系统,可以用来放非结构化数据和查询系统的数据。rag 和向量数据库、图数据库有关系,但感觉这些查询系统放在湖里面有点强行了。
|
29
VermouthcZzz 212 天前
@ihnfsa 目前跟 AI/数据 相关的似乎向量数据库符合你的要求
我最近在看向量搜索相关的内容 分享给你 希望你能获取一些灵感 https://pub.towardsai.net/advanced-rag-techniques-an-illustrated-overview-04d193d8fec6 |
30
mhycy 212 天前
数据湖的大模型应用?是现有数据的 AI 标注再利用么?
这东西和数据湖没啥关系啊,反正是个信息量足够大的东西都能称之为湖 改个高大上名字罢了 |
31
cbythe434 212 天前
重点是套大模型上去,数据湖不是重点
随便云平台整个 mysql ,搞一套大数据一键部署下 写的时候 replace_all("数仓","数据湖") |
32
ihnfsa OP @VermouthcZzz 谢谢,好文章。
|
33
b821025551b 212 天前
去年软考备考的时候还真看过这玩意,个人理解是这样的:
目前的任何采用数据库的结构化存储方式,都不可以叫数据湖,而是叫数据仓库。上面各位所说的对象存储、Dataware 堆砌等等严格意义上都不能算是数据湖。 真要说什么是数据湖,可以理解成就是一个巨大的文件,里面存储着各种乱七八糟毫无章法的东西,结合 AI 来把这些毫无章法的东西进行数据挖掘。在这种场景下,重要的是如何去挖掘,而数据湖仅仅是一块硬盘,最重要的指标是 IO 速度,仅此而已。 |
34
whileFalse 212 天前 via Android
数据湖就像你的磁盘,甭管是什么数据都一股脑丢进去,所以里面有各种不同格式的文件,相同格式的文件也有各种不同的数据结构
然后等你有功夫的时候为这些乱七八糟的格式分别建立结构、索引,然后再清洗、查询、可视化。 以 aws 为例,s3 就是磁盘,通过 glue 来为不同的数据文件创建结构,通过 athena 和 redshift spectrum 查询,通过 quicksight 可视化(这玩意很垃圾),还有 lake formation 这种管理服务。 |
35
jiangbao888 212 天前
可以看下这个,感觉是你的需求。https://github.com/lakesoul-io/LakeSoul
|
36
HkMuxxx 212 天前
数据湖本质也就是数仓吧,只是解决了传统数仓 upsert 的痛点
|
37
ihnfsa OP @jiangbao888 谢谢了,这是个好东西,我部署一下试试
|
38
ihnfsa OP @whileFalse 我理解的数据湖差不多就是这样,现在想自己部署一个,不然总有点知其表不知其里。
|
39
allpass2023 212 天前
|
40
dayeye2006199 212 天前 via Android
@wheat0r 这位教授您快请主席台入座
|
41
yjhatfdu2 211 天前
数据糊技术显然是为了写入和低成本优化的,查询速度会慢的离谱(正常场景下),例如使用 apache hudi ,即使使用了记录级索引,在 1TB20 亿行数据中使用索引取一行也要 12 秒,取 40000 行要 115 秒(来源 https://hudi.apache.org/blog/2023/11/01/record-level-index/),这在 RAG 的场景中简直是离谱
|
42
yjhatfdu2 211 天前
其实现在技术上几种数据糊技术核心的目的是解决传统 hadoop 系统中,parquet 等列存格式,难以支持 ACID 和事务的问题
|