1
sohoer 2015-06-02 10:22:28 +08:00
人工智能?
|
2
cacoo OP @sohoer 不是人工智能
是分3个模块: 1、生成模块:按照基础的元素(文学作品就是汉字+符号+段落)产生作品,产生的作品可能对人来说是无价值的,比如5000字的文学作品,但5000字全是"我我我我我我我"或者"我,我,我,"这种。算作"原矿" 2、筛选模块:由其他用户写算法,调整一些参数,筛选出可能对人有价值的作品。算出"粗矿" 3、定价模块:再由用户阅读/听音乐,最终判断并发现对人有价值的作品。算作"宝石" |
3
hahastudio 2015-06-02 10:39:51 +08:00
凯文凯利 《失控》
第十四章 在形式的图书馆中 |
4
Sylv 2015-06-02 10:39:54 +08:00 via iPhone 1
记得刘慈欣的《诗云》讲的就是这么一件事。在故事的最后外星人用整个太阳系的质量,穷举并存储了所有五言和七言的诗。结果他悲伤地发现,即使他已写出了诗词的巅峰之作,但却不可能把它们检索出来。
|
5
cacoo OP 恩
肯定有人有同样的想法。 我是说实际做一下。 比如现在有云计算了,生成这些作品不是难事。 主要是语义算法了。 我个人感觉从音乐作品入手容易些。因为音乐可以很短的旋律就可以。 |
6
expkzb 2015-06-02 11:05:05 +08:00
不就是天下文章一大抄的道理么
|
7
shoumu 2015-06-02 11:14:36 +08:00
以前看过的一个,没有去查是否是真的。
《宇宙巨校闪级生》 作者:紫闲峰人 作品大类:魔法玄幻作品性质:公众作品本书是用VB语言编写的魔幻神侠小说,适合所有年龄段的读者阅读。本书共有111部,分为1111卷,按纯文本(txt格式)计算,本书的总字数超过340兆,如换成中文计算:总字数应该不会少于一亿七千万字。这次公开的是本书中的前二十部,后面的九十一部及未来的升级版、简化版和第一人称版《蘑菇王子传》将在找到理想的合作者之后再陆续推出。 现在查不到,据说是被起点删了。。 |
9
em70 2015-06-02 11:21:37 +08:00 via Android
这个问题可以简化为:人到底是不是一个复杂的有限状态机?
哲学上不同流派对这个问题有分歧,但谁都无法拿出可靠的证明。 我的观点是人不是复杂的机器,人是有灵魂的,因为有两个问题我觉得必须用灵魂角度解释,一个是跨性别同性恋,另一个是多重人格。 |
10
cacoo OP @em70
话说...这个不用这么复杂... 就是单单在文学和音乐作品上... 一种生产模式的转变,由原来必须由作家,转变为发现者 云计算生产出"原料",高手写算法筛选出"粗料",大众可以选出自认为有价值的"精选料" 而不是等上百八十年出一个贝多芬、肖邦 |
11
aheadlead 2015-06-02 11:30:13 +08:00 via iPhone
🐒+💻+无限的⌚️...
|
12
Sylv 2015-06-02 11:32:31 +08:00
@cacoo 你确定生成这些作品不是难事?就算用 26 个字母穷举出所有 140 字的 Twitter 信息,那就是 26^140,粗略算下需要的存储数量级是 10^180 EB,查了下全人类现在的存储力大概也就是 295 EB。更别说去检索了。
|
14
crs0910 2015-06-02 12:10:22 +08:00
按你说的,检索和筛选的过程不就是目前的创作吗?
|
15
crs0910 2015-06-02 12:13:36 +08:00
或者说目前依靠人类大脑的创作,就是一种检索和筛选"文化宝石"的最优算法。
|
16
Actrace 2015-06-02 12:16:45 +08:00
记得在艺术领域已经有这种奇怪的东西了,用软件来编曲,还编的挺好听。。忘记是哪个软件了。。全自动计算机编曲,还能选择曲风,虽然我不知道软件是否能理解曲风啦。
|
17
ligyxy 2015-06-02 12:53:50 +08:00
这大概就是我小时候对Windows系统的最初幻想——所有的画面,鼠标的每个移动和Word里的不同字的排列组合都是操作系统里早已存有的,只是当我操作下去后,这些画面才变成了连续的、有意义、有逻辑的东西
|
18
jiayao321 2015-06-02 13:03:22 +08:00
很久以前就有这样的想法,物理和数学等理论都是已经存在的东西,它是被人们发现的,而不是被创造出来的
|
19
hahastudio 2015-06-02 13:19:49 +08:00
实际去做的话,关键在于如何筛选和评分
我试过用遗传算法去尝试无限猴子,忘记突变率和选择压一类的参数了,最终结果是平均 89 代才会出现能写 "To be or not to be, that is the question" 的猴子 没记错的话,凯文凯利 的《失控》里面也提到,从庞大的可能性集合里搜索一篇比直接构造一篇要复杂得多 |
20
pijingzhanji 2015-06-02 13:25:00 +08:00
恭喜你们,有这种想法说明你们离耶稣基督的道越来越近了。
|
21
loratadine 2015-06-02 13:28:37 +08:00
一亿只大猩猩乱敲打字机也能写出一部哈姆莱特吗
|
22
cacoo OP @crs0910
可以这么理解... @Actrace 恩,但这个只是一个程序...而不是一个可用的网站之类... @hahastudio @loratadine 恩,我记得国外真有人做过猴子打字的事,但数量、时间不足,导致实验失败了... |
24
finab 2015-06-02 14:55:12 +08:00
按照概率来说,出一部好作品的几率所消耗的电费,可以请的起无数个专业人士
|
26
bugeye 2015-06-02 15:40:52 +08:00
首先你说的3000个汉字就是小看了文学艺术。。。。。。
第二,语义分析不代表能捡出有用的作品,比如你随手乱写句子的也可以通过语文分析。然而只是浪费评论者的时间而己。 最不可能的是这条:“再让人工挑选,这样作品是发现,而不是创作了。 ” 你以为有人懂文学?可以做出准确的评价?你太年轻了,你不知道文学圈子只是关系圈子而已。 诗的字数最少,比如五言律诗只有40字,比你的2万字的假设少多了,理论上更适合你的理论。就以律诗为例,咱们来看看人工挑选能不能挑出有用的作品来?或者说要花多久才能挑出来。 拿杜甫举例吧,作品多(1000多首),水平高(稍懂点诗的大概都能体会出杜诗的妙处)。 杜甫和李白,王维,高适,岑参,裴迪,严武,或者说他和所有盛唐诗人都相识,关系也都不错。和李白、岑参更是好的像同性之爱。但在他活的时候没有一个上述诗人认为他的诗写得好的。所有盛唐诗人在写给杜甫的信里似乎都刻意避开称赞他的诗。哪怕是礼节性的夸他两句都没有。 以至于杜甫在生命的最后一年里写下了这样两句:“百年歌自苦,未见有知音”。很明显,杜甫也不知道为什么就是没人喜欢自己的诗。到了宋朝,因为找不到盛唐诗人称赞杜甫的任何线索,叶适这样的大儒号称“杜甫强作近体……当时为律诗者不服,甚或绝口不道” 杜甫得到承认,其实也有点运气。黄山谷的诗虽然写得不咋样,但他的江西派(包括陈师道,陈与义这样的重量级诗人。南宋的大家也或多或少和江西派有关。)人多势重,在学术圈子里影响力极大。而江西派以杜甫为祖宗,在互相吹捧之余,不忘顺便吹吹祖宗,所以杜甫终于走红了。 杜甫的诗经过了差不多300年才得到广泛的承认。其实是很幸运的,只花了300年而已。 张若虚的《春江花月夜》在唐朝无名,宋朝人不屑,明朝人研究杜甫时把这诗顺便挖出来但也没说它好,清朝开始有人提到并终于有几个人说它好,最后到民国才声望鼎盛。闻一多誉之为“诗中的诗,顶峰上的顶峰,任何评论都是对它的亵渎”,花了1000年的时间才到了它应有的地位。这其间无数看上去牛B的评论家没一个认为《春江花月夜》写得好,值得一提的。 |
27
lavande 2015-06-02 16:03:17 +08:00
穷举没有意义的
如果真要分析,都是基于统计学做的,要模型,要训练,需要大量有效的语料 |
28
cacoo OP |
29
ibremn 2015-06-02 17:19:03 +08:00
地球高寿?科学的答案,46亿年。科幻的答案,1000万年。是的,地球诞生与1000万年前,或者应该说1000万年前建成。茫茫宇宙中,一个“具有“超级智慧的泛维度种族”对关于生命意义的无休止的争论感到烦厌了,他们觉得一劳永逸地解决这个问题。他们建造了宇宙一切空间和时间中第二强大的电脑”沉思“,向它寻求”关于生命宇宙、宇宙。以及一切的终极答案“。整整750万年后,”沉思“给出了答案——42.面对这个玄妙的答案,泛维度种族需要回过头先弄明白生命宇宙以及一切的终极问题,方能理解答案。但“沉思”不能胜任此项艰巨的任务。它说:“你们需要一台能够计算出这个终极答案的电脑,这台电脑具有无限和微妙的复杂性,以至于有机生命本身将会成为操作母体的一部分。你们自身也会以一种新的生命形式投入到这台电脑中,去操控为期1000万年的程序,并且我已为它取好名字。它将会称为——地球。”
地球这颗星球加上人类自身,构成一台有机电脑的母体运行着一个为期1000万年的研究程序。匪夷所思的是,那个泛维度种族在地球上新的生命形式,居然是小小的、白色的、毛茸茸的、疯狂迷恋奶酪的、在上世纪60年代早期的肥皂剧中把女人们吓得尖叫的生物——老鼠。人类在老鼠身上做实验,观察它们行为的过程,竟然是老鼠精心安排的,以此来研究人类。所以,千万别被那些虚假的幻象迷惑。地球,其实是老鼠定制的。它们不仅付了款,还负责管理。 -------摘自 银河系漫游指南 |
31
bumz 2015-06-02 21:04:17 +08:00
當我們能夠篩選掉狗屁不通的句子時,我們得到的是無意義的句子堆砌;
當我們篩掉明顯的上下無關的句子組合時,我們得到的是大量無厘頭的敘事; 當我們篩掉莫釐頭尻的敘事時,我們得到的是大量不明所以的流水帳; 當我們篩掉不明所以的流水帳時,我們得到的是大量不知所云的說理; 當我們篩掉不知所云的說理時,我們得到的是各種相互矛盾的立場; 。。。 所有種類有多少呢?超出了可用無限大紙張表示的範圍。 也就是說,任何可以寫出的程序,即便無限長,其所做的事情,都不能減少負責最後「意義」部分的人的工作量。 畢竟機器篩掉的,永遠只佔「0%」。 -------------- 究竟什麼是有意義的呢? 定義意義的過程本身,就是在創造。 世界上本來是沒有任何意義的。 |
32
xcatliu 2015-06-02 22:39:36 +08:00
@Sylv
宇宙中所有原子的数量是 1e70 数量级,要存储所有可能的 twitter,至少需要 10000000000000000000000000000000000000000000000000000000000000000000000 个宇宙 |
33
Hawk 2015-06-02 22:44:34 +08:00
其实现在代码不就是这样子吗
|
34
yuelang85 2015-06-02 23:01:08 +08:00
@Hawk 哈哈哈哈
概率论里有无限猴子理论,大意就是给无数个猴子配备打字机,终有一天他们能打出整套莎士比亚: http://zh.wikipedia.org/wiki/無限猴子定理 基于此,有一种排序算法叫 猴子排序,嗯,具体的,可以自己想象下 :-P |
35
youdu 2015-06-02 23:03:21 +08:00
做到最后的可能是:否定知识产权、版权。
|
36
davidlau 2015-06-02 23:16:11 +08:00
在《失控》看到类似的观点
第第十四章 在形式的图书馆中 14.1 “大千”图书馆之旅 22836 14.2 一切可能图像之空间 14.3 倘佯在生物形态王国 14.4 御变异体而行 14.5 形式库中也有性 14.6 三步轻松繁育艺术杰作 14.7 穿越随机性 |
37
davidlau 2015-06-02 23:27:30 +08:00
另,《失控》中还提到交互式的遗传进化算法生成艺术:
初始化空白的画 for 每个迭代 { 在当前画基础上随机生成5幅稍微修改的画 让用户选择一幅,用户满意则停止 } 类似这篇论文的实例图: http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.4.583&rep=rep1&type=pdf |
38
bjhyyc 2015-06-03 00:04:20 +08:00
这是一种退化,请停止
|
39
Mutoo 2015-06-03 00:48:43 +08:00
你生命中会发生的一切,都已经记载在 PI 里了。
|
41
VirgilMing 2015-06-03 09:50:02 +08:00 via iPhone
@em70 RESTful 和一台机运行多个系统实例是很难想象的吗…
|
42
mailsuhua 2015-06-03 10:07:29 +08:00
这和科技算命一个概念
|
43
em70 2015-06-03 10:08:01 +08:00
@VirgilMing 你觉得自己只是一台复杂的机器吗,每一个动作都是编好的程序,只不过足够复杂而已.
|
44
cacoo OP 这里更多想讨论在工程方面的实现的可行性,比如之前有人提到存储的问题,那么可能的解决方式是产生作品后先用算法过滤,合适的就留下来,不合适的就保存一个产生作品的算法形式而不是保存作品实体,以便以后有人可以查看这个不合适的作品...
而且我更多的是考虑一种网站服务的形式,作为一种流水线/机制,而不是单机程序 @youdu 还是考虑在现有的版权法规的框架下,如果由此带来的版权变革先不考虑。 @bjhyyc 为什么你认为这是一种退化?你是说人类创作作品是因为人能创作作品是作为自然进化、选择的结果吗?我这里考虑的是一种工业的方式,而不是从自然的的角度 @jiayao321 科学理论面向的实际用户太少了,音乐作为可以跨国界、跨种族,文学作品需要翻译所以不如音乐。 |
45
Koradio 2015-06-03 18:37:06 +08:00
这个说法看似简单易懂,但隐含了一个很有争议的条件.
即创造的价值是能被衡量的 一个创作的作品是否能被看作有"价值",是美学价值呢,社会价值还是潜在价值? 这个问题的难点不在于如何去实现它,而是编算法的人怎么去编. |
46
roricon 2015-06-03 20:48:11 +08:00
刘慈欣 <诗云>
|
47
lavande 2015-06-03 23:35:12 +08:00
不管是把创作描述成被创造还是被发现,这都无所谓
实际上lz要做的东西很简单,就是“机器辅助创作” 举个例子,类似苹果的garage band,稍作改动: 首先,我分析一下大多数摇滚歌曲的和弦走向,基于统计学(隐马尔可夫什么的)做出一个模型; 然后,为用户生成一套符合规律的和弦走向; 最后,用户用这套走向继续创作歌曲。 当然,这个是非常简单的了,我还可以用同样的方法做下列的东西:和弦的具体演奏方法(节奏型),节奏,主旋律,配器(乐器种类和编配套路),歌词等等…… 最后用户做的就是,让机器先生成,听听看好听不,好听就留下,不好听再来,或者觉得凑合,自己再手动改改。 这是这个东西我是认为需要机器做一半人再做一半的,机器(或者说模型)还没有强大到可以生成一个“成品”且不需要任何人工改动就很让人满意,所以很难直接“生成+挑选”的模式,最多是计算机生成一个半成品,或者适当时候给个“启发”,然后让人去完成最后的成品工作。 从信息论的角度来考虑,从最早的不确定组合,到最后的确定的作品,这里需要用以解决不确定性的信息熵总归是那么多,就是看你从哪弄来这些信息。 |
48
cacoo OP |
49
Koradio 2015-06-04 17:09:03 +08:00
@cacoo 很多所谓的名著都不是具有高商业价值的.作为商品需要具备大众可购性,或者类似于小众奢侈品具有高度学术性,作为商品的流动性必须需要一个认同它作为商品的共同体.但是取决于人自身的判断和喜好,这一点恰恰是和作为商品的必要性所矛盾,我喜欢的,我认为是名著的东西并不一定是别人所认同的.
艺术创作并不是能被价值所衡量的,因为价值本身就是一个很主观的概念,想要通过算法得到其价值的过程恰恰便是一个"去主观化"的过程. 这样做,很可能只能得到烂俗的作品,真的是你的初衷吗? |
50
dallaslu 2015-06-05 08:53:27 +08:00
「文章本天成,妙手偶得之。」
|
52
lavande 2015-06-05 10:45:49 +08:00
其实我对这个挺感兴趣的,还是引用一下名言吧:
"Talk is cheap. Show me the code/demo" |
53
cmheia 2015-06-05 10:49:09 +08:00
曾经有过类似的脑洞……
|
54
cacoo OP @lavande 唉,要我会写code就不会在奇思妙想版区发帖了...本意是召唤大神来讨论下写code(工程实现)的问题...
比如之前有人提到存储问题就很好... |
55
ianva 2015-06-05 11:26:21 +08:00
不懂文学的人
|
56
lavande 2015-06-05 15:50:09 +08:00
@cacoo 我估计作为“个体户”,搞出3000字的小说是非常困难的,因为没有那个计算能力,除非能找到超级计算机给你用……
另外就是lz的三个步骤我觉得不是太合理,1和2其实是可以合并的,因为1生成出来的东西可以说99%甚至更多是垃圾数据,不如在每一次生成时就套用一次2中的规则,符合则储存,不符合直接丢弃,不然太浪费储存。所以说到底其实就是利用规则直接穷举文本,而这个穷举出来的每个文本都应该是人类可读的,所以这个规则(模型)要非常非常强大,这就得有很大的语料库让你来训练模型了吧……建立这个语料库估计是个苦差事 我们来做点“小”工程吧,比如缩小到“国内独立民谣音乐人歌曲的歌词”,说一下我的做法: 1、收集国内独立民谣音乐人的名单,然后收集每个人的所有作品的歌词; 2、将这些歌词处理,建成语料库; 3、分析语料,构建(找)一个合理的语言模型; 4、训练这个语言模型; 5、用这个模型穷举可能的歌词作品(最后可能发现最好给个主题限制,不要穷举比较好); 6、人工判断是否可用,或后续修改和润色,完成。 |
57
lavande 2015-06-05 15:53:28 +08:00
不过想想这个工作,给人工来做反而更高效。
一个有趣的经验就是,“读书破万卷,下笔如有神” 其实你的大脑里有个模型,在读书时候在不知觉地训练,最后当你输出时发现这个模型已经被训练得很厉害了,写出了好文章。 只是我们不太清楚大脑究竟是怎么工作的…… |