作品不再是被创作，而是被发现

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个专门讨论 idea 的地方。

每个人的时间，资源是有限的，有的时候你或许能够想到很多 idea，但是由于现实的限制，却并不是所有的 idea 都能够成为现实。

那这个时候，不妨可以把那些 idea 分享出来，启发别人。

这是一个创建于 3493 天前的主题，其中的信息可能已经有所发展或是发生改变。

最近脑洞大开，也不知道国内外有人这么做过了没。

就是我们可以认为作品已经是"存在的"，比如音乐、文学著作。相当于排列组合生成了"原矿"之类。
然后就是语义算法的找出有价值的"宝石"的问题了。

比如3000汉字+字符(逗号、句号、感叹号、问号)+段落符号。用云计算算出2万字的作品...

然后用语义算法算出可能对人类有价值的作品。再让人工挑选，这样作品是发现，而不是创作了。

音乐同理，多少分钟的音乐旋律，声调+音符+乐器风格(电子、摇滚)

然后发现者可以打上版权信息，然后进行版权小额交易。

第 1 条附言 · 2015-06-03 10:21:03 +08:00

这里主要考虑工程实现，这里限定音乐和文学作品，具体实现模式为：
1、生成层：由简单的算法生成作品，比如划定范围3000汉字/5000英语单词+符号(逗号、句号、问号、感叹号)+段落。由云端生成。然后给到筛选层。
2、筛选层：由语义算法组成，这些语义算法由程序员用户编写，可以粗略去除一些对人来说无价值的作品，比如重复性的"我我我我我我我"。然后打上版权印记。发布到网站，让大众用户投票筛选价值更高对人更有意义的。
3、价值层：网站前台界面，展示了来自筛选层的作品，由大众用户投票筛选价值意义更高的。最终由影视公司/音乐工作室/其他创作者购买此作品的版权。

当然，价值层也可以用算法来做，就是爬虫爬全网，然后比对售价，自动筛选出类似有价值的作品来。

第 2 条附言 · 2015-06-03 11:25:05 +08:00

语义算法类似http://www.qdaily.com/display/articles/9940中提到的 Geoff Hinton做的Thought Vectors

语义

版权

作品

58 条回复 • 2015-06-05 16:20:42 +08:00

sohoer

2015-06-02 10:22:28 +08:00

人工智能？

cacoo

2015-06-02 10:34:57 +08:00

@sohoer 不是人工智能

是分3个模块：
1、生成模块：按照基础的元素(文学作品就是汉字+符号+段落)产生作品，产生的作品可能对人来说是无价值的，比如5000字的文学作品，但5000字全是"我我我我我我我"或者"我,我,我,"这种。算作"原矿"
2、筛选模块：由其他用户写算法，调整一些参数，筛选出可能对人有价值的作品。算出"粗矿"
3、定价模块：再由用户阅读/听音乐，最终判断并发现对人有价值的作品。算作"宝石"

hahastudio

2015-06-02 10:39:51 +08:00

凯文凯利《失控》
第十四章在形式的图书馆中

Sylv

2015-06-02 10:39:54 +08:00 via iPhone

记得刘慈欣的《诗云》讲的就是这么一件事。在故事的最后外星人用整个太阳系的质量，穷举并存储了所有五言和七言的诗。结果他悲伤地发现，即使他已写出了诗词的巅峰之作，但却不可能把它们检索出来。

cacoo

2015-06-02 10:48:23 +08:00

恩
肯定有人有同样的想法。

我是说实际做一下。
比如现在有云计算了，生成这些作品不是难事。

主要是语义算法了。

我个人感觉从音乐作品入手容易些。因为音乐可以很短的旋律就可以。

expkzb

2015-06-02 11:05:05 +08:00

不就是天下文章一大抄的道理么

shoumu

2015-06-02 11:14:36 +08:00

以前看过的一个，没有去查是否是真的。

《宇宙巨校闪级生》
作者：紫闲峰人作品大类:魔法玄幻作品性质：公众作品本书是用VB语言编写的魔幻神侠小说，适合所有年龄段的读者阅读。本书共有111部，分为1111卷，按纯文本（txt格式）计算，本书的总字数超过340兆，如换成中文计算：总字数应该不会少于一亿七千万字。这次公开的是本书中的前二十部，后面的九十一部及未来的升级版、简化版和第一人称版《蘑菇王子传》将在找到理想的合作者之后再陆续推出。

现在查不到，据说是被起点删了。。

cacoo

2015-06-02 11:18:02 +08:00

@shoumu
你这种情况是一部作品

我说的模式，是一种生产线的形式。

em70

2015-06-02 11:21:37 +08:00 via Android

这个问题可以简化为:人到底是不是一个复杂的有限状态机？

哲学上不同流派对这个问题有分歧，但谁都无法拿出可靠的证明。

我的观点是人不是复杂的机器，人是有灵魂的，因为有两个问题我觉得必须用灵魂角度解释，一个是跨性别同性恋，另一个是多重人格。

cacoo

2015-06-02 11:24:15 +08:00

@em70
话说...这个不用这么复杂...

就是单单在文学和音乐作品上...

一种生产模式的转变，由原来必须由作家，转变为发现者

云计算生产出"原料"，高手写算法筛选出"粗料"，大众可以选出自认为有价值的"精选料"

而不是等上百八十年出一个贝多芬、肖邦

aheadlead

2015-06-02 11:30:13 +08:00 via iPhone

🐒+💻+无限的⌚️...

Sylv

2015-06-02 11:32:31 +08:00

@cacoo 你确定生成这些作品不是难事？就算用 26 个字母穷举出所有 140 字的 Twitter 信息，那就是 26^140，粗略算下需要的存储数量级是 10^180 EB，查了下全人类现在的存储力大概也就是 295 EB。更别说去检索了。

cacoo

2015-06-02 11:42:48 +08:00

@Sylv
好吧...
不过可以调整流程来改变
比如产生之后先筛选，之后再存储。

crs0910

2015-06-02 12:10:22 +08:00

按你说的，检索和筛选的过程不就是目前的创作吗？

crs0910

2015-06-02 12:13:36 +08:00

或者说目前依靠人类大脑的创作，就是一种检索和筛选"文化宝石"的最优算法。

Actrace

2015-06-02 12:16:45 +08:00

记得在艺术领域已经有这种奇怪的东西了，用软件来编曲，还编的挺好听。。忘记是哪个软件了。。全自动计算机编曲，还能选择曲风，虽然我不知道软件是否能理解曲风啦。

ligyxy

2015-06-02 12:53:50 +08:00

这大概就是我小时候对Windows系统的最初幻想——所有的画面，鼠标的每个移动和Word里的不同字的排列组合都是操作系统里早已存有的，只是当我操作下去后，这些画面才变成了连续的、有意义、有逻辑的东西

jiayao321

2015-06-02 13:03:22 +08:00

很久以前就有这样的想法，物理和数学等理论都是已经存在的东西，它是被人们发现的，而不是被创造出来的

hahastudio

2015-06-02 13:19:49 +08:00

实际去做的话，关键在于如何筛选和评分
我试过用遗传算法去尝试无限猴子，忘记突变率和选择压一类的参数了，最终结果是平均 89 代才会出现能写 "To be or not to be, that is the question" 的猴子
没记错的话，凯文凯利的《失控》里面也提到，从庞大的可能性集合里搜索一篇比直接构造一篇要复杂得多

pijingzhanji

2015-06-02 13:25:00 +08:00

恭喜你们，有这种想法说明你们离耶稣基督的道越来越近了。

loratadine

2015-06-02 13:28:37 +08:00

一亿只大猩猩乱敲打字机也能写出一部哈姆莱特吗

cacoo

2015-06-02 14:06:07 +08:00

@crs0910
可以这么理解...

@Actrace 恩，但这个只是一个程序...而不是一个可用的网站之类...

@hahastudio
@loratadine
恩，我记得国外真有人做过猴子打字的事，但数量、时间不足，导致实验失败了...

cacoo

2015-06-02 14:06:49 +08:00

@jiayao321 这些有点复杂...
话说文学和音乐相对简单一些。

finab

2015-06-02 14:55:12 +08:00

按照概率来说，出一部好作品的几率所消耗的电费，可以请的起无数个专业人士

cacoo

2015-06-02 15:27:47 +08:00

@finab 即便请得起，这些人也不一定能创作出这个作品来。

bugeye

2015-06-02 15:40:52 +08:00

首先你说的3000个汉字就是小看了文学艺术。。。。。。

第二，语义分析不代表能捡出有用的作品，比如你随手乱写句子的也可以通过语文分析。然而只是浪费评论者的时间而己。

最不可能的是这条：“再让人工挑选，这样作品是发现，而不是创作了。 ”
你以为有人懂文学？可以做出准确的评价？你太年轻了，你不知道文学圈子只是关系圈子而已。

诗的字数最少，比如五言律诗只有40字，比你的2万字的假设少多了，理论上更适合你的理论。就以律诗为例，咱们来看看人工挑选能不能挑出有用的作品来？或者说要花多久才能挑出来。

拿杜甫举例吧，作品多（1000多首），水平高（稍懂点诗的大概都能体会出杜诗的妙处）。

杜甫和李白，王维，高适，岑参，裴迪，严武，或者说他和所有盛唐诗人都相识，关系也都不错。和李白、岑参更是好的像同性之爱。但在他活的时候没有一个上述诗人认为他的诗写得好的。所有盛唐诗人在写给杜甫的信里似乎都刻意避开称赞他的诗。哪怕是礼节性的夸他两句都没有。

以至于杜甫在生命的最后一年里写下了这样两句：“百年歌自苦，未见有知音”。很明显，杜甫也不知道为什么就是没人喜欢自己的诗。到了宋朝，因为找不到盛唐诗人称赞杜甫的任何线索，叶适这样的大儒号称“杜甫强作近体……当时为律诗者不服，甚或绝口不道”

杜甫得到承认，其实也有点运气。黄山谷的诗虽然写得不咋样，但他的江西派（包括陈师道，陈与义这样的重量级诗人。南宋的大家也或多或少和江西派有关。）人多势重，在学术圈子里影响力极大。而江西派以杜甫为祖宗，在互相吹捧之余，不忘顺便吹吹祖宗，所以杜甫终于走红了。

杜甫的诗经过了差不多300年才得到广泛的承认。其实是很幸运的，只花了300年而已。

张若虚的《春江花月夜》在唐朝无名，宋朝人不屑，明朝人研究杜甫时把这诗顺便挖出来但也没说它好，清朝开始有人提到并终于有几个人说它好，最后到民国才声望鼎盛。闻一多誉之为“诗中的诗，顶峰上的顶峰，任何评论都是对它的亵渎”，花了1000年的时间才到了它应有的地位。这其间无数看上去牛B的评论家没一个认为《春江花月夜》写得好，值得一提的。

lavande

2015-06-02 16:03:17 +08:00

穷举没有意义的
如果真要分析，都是基于统计学做的，要模型，要训练，需要大量有效的语料

cacoo

2015-06-02 17:11:01 +08:00

@bugeye 你的角度确实挺好
但这是最后的价值判定，肯定会受到时代的局限。这也是没办法的事。毕竟也是对人有价值的，但价值具体是多少，很难说。

@lavande 是的，这个是算法的价值了，是可以申请专利的。

ibremn

2015-06-02 17:19:03 +08:00

地球高寿？科学的答案，46亿年。科幻的答案，1000万年。是的，地球诞生与1000万年前，或者应该说1000万年前建成。茫茫宇宙中，一个“具有“超级智慧的泛维度种族”对关于生命意义的无休止的争论感到烦厌了，他们觉得一劳永逸地解决这个问题。他们建造了宇宙一切空间和时间中第二强大的电脑”沉思“，向它寻求”关于生命宇宙、宇宙。以及一切的终极答案“。整整750万年后，”沉思“给出了答案——42.面对这个玄妙的答案，泛维度种族需要回过头先弄明白生命宇宙以及一切的终极问题，方能理解答案。但“沉思”不能胜任此项艰巨的任务。它说：“你们需要一台能够计算出这个终极答案的电脑，这台电脑具有无限和微妙的复杂性，以至于有机生命本身将会成为操作母体的一部分。你们自身也会以一种新的生命形式投入到这台电脑中，去操控为期1000万年的程序，并且我已为它取好名字。它将会称为——地球。”

地球这颗星球加上人类自身，构成一台有机电脑的母体运行着一个为期1000万年的研究程序。匪夷所思的是，那个泛维度种族在地球上新的生命形式，居然是小小的、白色的、毛茸茸的、疯狂迷恋奶酪的、在上世纪60年代早期的肥皂剧中把女人们吓得尖叫的生物——老鼠。人类在老鼠身上做实验，观察它们行为的过程，竟然是老鼠精心安排的，以此来研究人类。所以，千万别被那些虚假的幻象迷惑。地球，其实是老鼠定制的。它们不仅付了款，还负责管理。

-------摘自银河系漫游指南

ledzep2

2015-06-02 18:07:50 +08:00

@Actrace Band in a box.

bumz

2015-06-02 21:04:17 +08:00

當我們能夠篩選掉狗屁不通的句子時，我們得到的是無意義的句子堆砌；
當我們篩掉明顯的上下無關的句子組合時，我們得到的是大量無厘頭的敘事；
當我們篩掉莫釐頭尻的敘事時，我們得到的是大量不明所以的流水帳；
當我們篩掉不明所以的流水帳時，我們得到的是大量不知所云的說理；
當我們篩掉不知所云的說理時，我們得到的是各種相互矛盾的立場；
。。。
所有種類有多少呢？超出了可用無限大紙張表示的範圍。

也就是說，任何可以寫出的程序，即便無限長，其所做的事情，都不能減少負責最後「意義」部分的人的工作量。

畢竟機器篩掉的，永遠只佔「0%」。

--------------

究竟什麼是有意義的呢？
定義意義的過程本身，就是在創造。

世界上本來是沒有任何意義的。

xcatliu

2015-06-02 22:39:36 +08:00

@Sylv
宇宙中所有原子的数量是 1e70 数量级，要存储所有可能的 twitter，至少需要
10000000000000000000000000000000000000000000000000000000000000000000000
个宇宙

Hawk

2015-06-02 22:44:34 +08:00

其实现在代码不就是这样子吗

yuelang85

2015-06-02 23:01:08 +08:00

@Hawk 哈哈哈哈

概率论里有无限猴子理论，大意就是给无数个猴子配备打字机，终有一天他们能打出整套莎士比亚：

http://zh.wikipedia.org/wiki/無限猴子定理

基于此，有一种排序算法叫猴子排序，嗯，具体的，可以自己想象下 :-P

youdu

2015-06-02 23:03:21 +08:00

做到最后的可能是：否定知识产权、版权。

davidlau

2015-06-02 23:16:11 +08:00

在《失控》看到类似的观点

第第十四章在形式的图书馆中
14.1 “大千”图书馆之旅 22836
14.2 一切可能图像之空间
14.3 倘佯在生物形态王国
14.4 御变异体而行
14.5 形式库中也有性
14.6 三步轻松繁育艺术杰作
14.7 穿越随机性

davidlau

2015-06-02 23:27:30 +08:00

另，《失控》中还提到交互式的遗传进化算法生成艺术：

初始化空白的画
for 每个迭代 {
在当前画基础上随机生成5幅稍微修改的画
让用户选择一幅，用户满意则停止
}

类似这篇论文的实例图： http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.4.583&rep=rep1&type=pdf

bjhyyc

2015-06-03 00:04:20 +08:00

这是一种退化，请停止

Mutoo

2015-06-03 00:48:43 +08:00

你生命中会发生的一切，都已经记载在 PI 里了。

jiayao321

2015-06-03 09:06:39 +08:00

@cacoo 科学理论应该更加容易理解吧,毕竟音乐等艺术作品是可以根据个人喜好而千变万化的,理论则一成不变

VirgilMing

2015-06-03 09:50:02 +08:00 via iPhone

@em70 RESTful 和一台机运行多个系统实例是很难想象的吗…

mailsuhua

2015-06-03 10:07:29 +08:00

这和科技算命一个概念

em70

2015-06-03 10:08:01 +08:00

@VirgilMing 你觉得自己只是一台复杂的机器吗,每一个动作都是编好的程序,只不过足够复杂而已.

cacoo

2015-06-03 10:11:38 +08:00

这里更多想讨论在工程方面的实现的可行性，比如之前有人提到存储的问题，那么可能的解决方式是产生作品后先用算法过滤，合适的就留下来，不合适的就保存一个产生作品的算法形式而不是保存作品实体，以便以后有人可以查看这个不合适的作品...

而且我更多的是考虑一种网站服务的形式，作为一种流水线/机制，而不是单机程序

@youdu 还是考虑在现有的版权法规的框架下，如果由此带来的版权变革先不考虑。

@bjhyyc 为什么你认为这是一种退化？你是说人类创作作品是因为人能创作作品是作为自然进化、选择的结果吗？我这里考虑的是一种工业的方式，而不是从自然的的角度

@jiayao321 科学理论面向的实际用户太少了，音乐作为可以跨国界、跨种族，文学作品需要翻译所以不如音乐。

Koradio

2015-06-03 18:37:06 +08:00

这个说法看似简单易懂,但隐含了一个很有争议的条件.

即创造的价值是能被衡量的
一个创作的作品是否能被看作有"价值",是美学价值呢,社会价值还是潜在价值?

这个问题的难点不在于如何去实现它,而是编算法的人怎么去编.

roricon

2015-06-03 20:48:11 +08:00

刘慈欣 <诗云>

lavande

2015-06-03 23:35:12 +08:00

不管是把创作描述成被创造还是被发现，这都无所谓
实际上lz要做的东西很简单，就是“机器辅助创作”

举个例子，类似苹果的garage band，稍作改动：
首先，我分析一下大多数摇滚歌曲的和弦走向，基于统计学（隐马尔可夫什么的）做出一个模型;
然后，为用户生成一套符合规律的和弦走向；
最后，用户用这套走向继续创作歌曲。

当然，这个是非常简单的了，我还可以用同样的方法做下列的东西：和弦的具体演奏方法（节奏型），节奏，主旋律，配器（乐器种类和编配套路），歌词等等……
最后用户做的就是，让机器先生成，听听看好听不，好听就留下，不好听再来，或者觉得凑合，自己再手动改改。

这是这个东西我是认为需要机器做一半人再做一半的，机器（或者说模型）还没有强大到可以生成一个“成品”且不需要任何人工改动就很让人满意，所以很难直接“生成+挑选”的模式，最多是计算机生成一个半成品，或者适当时候给个“启发”，然后让人去完成最后的成品工作。

从信息论的角度来考虑，从最早的不确定组合，到最后的确定的作品，这里需要用以解决不确定性的信息熵总归是那么多，就是看你从哪弄来这些信息。

cacoo

2015-06-04 09:49:48 +08:00

@Koradio 这个价值就是商品价值、交换价值、商业价值。这个取决于人自身的判断和喜好。

@lavande 你说的意思是对的，就像《失控》里讲的，定向进化。但我这个机制和进化还是有一点差别，在于定向进化是先有个点，然后选取"优"的基因进行人工定向进化，而我这个是规则生成原材料，然后让算法去粗筛，人工细选。

根本上就是初始参数是否为一个确定值。

Koradio

2015-06-04 17:09:03 +08:00

@cacoo 很多所谓的名著都不是具有高商业价值的.作为商品需要具备大众可购性,或者类似于小众奢侈品具有高度学术性,作为商品的流动性必须需要一个认同它作为商品的共同体.但是取决于人自身的判断和喜好,这一点恰恰是和作为商品的必要性所矛盾,我喜欢的,我认为是名著的东西并不一定是别人所认同的.

艺术创作并不是能被价值所衡量的,因为价值本身就是一个很主观的概念,想要通过算法得到其价值的过程恰恰便是一个"去主观化"的过程.

这样做,很可能只能得到烂俗的作品,真的是你的初衷吗?

dallaslu

2015-06-05 08:53:27 +08:00

「文章本天成，妙手偶得之。」

cacoo

2015-06-05 09:20:29 +08:00

@Koradio 你的问题实际存在，但如果这个系统研发出来，还是要实际运行一下看看。

lavande

2015-06-05 10:45:49 +08:00

其实我对这个挺感兴趣的，还是引用一下名言吧：
"Talk is cheap. Show me the code/demo"

cmheia

2015-06-05 10:49:09 +08:00

曾经有过类似的脑洞……

cacoo

2015-06-05 10:59:19 +08:00

@lavande 唉，要我会写code就不会在奇思妙想版区发帖了...本意是召唤大神来讨论下写code(工程实现)的问题...
比如之前有人提到存储问题就很好...

ianva

2015-06-05 11:26:21 +08:00

不懂文学的人

lavande

2015-06-05 15:50:09 +08:00

@cacoo 我估计作为“个体户”，搞出3000字的小说是非常困难的，因为没有那个计算能力，除非能找到超级计算机给你用……
另外就是lz的三个步骤我觉得不是太合理，1和2其实是可以合并的，因为1生成出来的东西可以说99%甚至更多是垃圾数据，不如在每一次生成时就套用一次2中的规则，符合则储存，不符合直接丢弃，不然太浪费储存。所以说到底其实就是利用规则直接穷举文本，而这个穷举出来的每个文本都应该是人类可读的，所以这个规则（模型）要非常非常强大，这就得有很大的语料库让你来训练模型了吧……建立这个语料库估计是个苦差事

我们来做点“小”工程吧，比如缩小到“国内独立民谣音乐人歌曲的歌词”，说一下我的做法：
1、收集国内独立民谣音乐人的名单，然后收集每个人的所有作品的歌词；
2、将这些歌词处理，建成语料库；
3、分析语料，构建（找）一个合理的语言模型；
4、训练这个语言模型；
5、用这个模型穷举可能的歌词作品（最后可能发现最好给个主题限制，不要穷举比较好）；
6、人工判断是否可用，或后续修改和润色，完成。

lavande

2015-06-05 15:53:28 +08:00

不过想想这个工作，给人工来做反而更高效。
一个有趣的经验就是，“读书破万卷，下笔如有神”
其实你的大脑里有个模型，在读书时候在不知觉地训练，最后当你输出时发现这个模型已经被训练得很厉害了，写出了好文章。
只是我们不太清楚大脑究竟是怎么工作的……

cacoo

2015-06-05 16:20:42 +08:00

@lavande 恩，就实际操作来说，确实1、2合并，但从逻辑上来说还是拆开讲明白一些。至于超级计算机，现在可以用云计算，比如阿里、亚马逊，按需使用即可。
你说的例子，以一个有限的点展开，确实可以实际落地操作。但我这个可以说让大家自由发挥。两者不冲突，可以兼容。

至于你说的人工做反而更高效，我可以认为这是自然选择(进化)下的一种模式。只不过现在要用代码/工程角度复现(逆向)这个罢了。