无惧灵魂拷问,360垃圾分类小程序全军出击 | 知乎携中科院物理所发起主题圆桌 正确认识生活中的辐射 | 平安智慧城市出席第七届“科博会”,畅谈智慧城市未来发展趋势 | 解析中国人工智能写作的产业化 | 华为开发者@HC2019抢鲜看丨带上这份参会指南,“码”上玩个够! | 电小二户外电源小方,颜值与实力兼具凭什么? | 泛能网走进高校系列之“数字能源”在清华 | 全新雷蛇灵刃15标准版惊艳上市 | 别等父母离开,才后悔自己没有好好珍惜 | 服务器市场,英特尔的这些实力“完胜”7nm |
 
当前位置: 新闻>滚动>

解析中国人工智能写作的产业化

发布时间:2019-09-06 16:06:04  |  来源:北国网  |  作者: 智搜Giiso  |  责任编辑:大发排列5APP下载-大发排列5APP官方频道

文字是信息的载体,它随着人类文明发展的需要而诞生。形态因生产力的进步而不断演变。从原始社会的结绳记事到殷商甲骨文,从战国竹简到宋代雕版活字印刷,一直到如今的互联网信息技术。因为信息承载能力及传播通道的进步,文字由最简单的象形字体逐级抽象成现在的简体字。历史上每一次存储和传播手段的改进都对人类文明产生了深远影响。

古人是信息编码的高手

文字书写的首要目的是传播情感及思想。我们一起来欣赏一段文字。

“天色黄昏,一群乌鸦落在枯藤缠绕的老树上,发出凄厉的哀鸣。小桥下流水哗哗作响,小桥边庄户人家炊烟袅袅。古道上一匹瘦马,顶着西风艰难地前行。夕阳渐渐地失去了光泽,从西边落下。凄寒的夜色里,只有孤独的旅人漂泊在遥远的地方。”

上面这段97字的文字让我们仿佛经历时光穿越,看到了一世沧桑,繁华落地的景象。可是这97个字对于古人来说却太奢侈了。元代诗人马致远仅仅用28个字就表达了同样的意境。

枯藤老树昏鸦,

小桥流水人家,

古道西风瘦马。

夕阳西下,

断肠人在天涯。

马致远将文字进行了压缩,压缩率28.86%,而我们却能读出同样的意境。这个例子说明,将一些核心信息进行提取,可以保证要传递的信息不丢失。这就是信息编码的朴素原理。

古人实现信息的压缩是通过大脑完成的,每一件作品的诞生都非常不容易,他们以创作的低效来换取传播效率。现代人有古人那个编码能力的基本上高考作文都可以拿满分。

信息的贝叶斯理论

随着信息技术的发展,信息承载的瓶颈已经不是存储容量和传播介质,信道的进步让我们不必惜字如金,内容也不再需要做编码就能高效地传播出去,理论上信息需求量仅受读者碎片阅读时间的约束。

但内容的基本框架是没有变的,原理就是必须有一套内核来支撑我们的重要信息。抽象说就是一套逻辑框架,具象说就是实体的组合。比如马致远只要抓住了老树、乌鸦、小桥、人家、古道、瘦马、夕阳等核心实体,我们就能理解他想要表达的意境,这背后是以共同的历史、文化和情感作为铺垫的。

那么文字在内容中起什么作用呢?例如“文字的序顺并不能影响阅读,比如当你看完这话句时,你会发这现话句的字全是都乱的!”前面加上引号的这句话为我们传递了文字的重要作用。它表明文字只是一张皮,尽管这张皮不太好看,但我们还是能读懂这张皮后面的那个逻辑框架。这就是贝叶斯理论,其核心就是“执果求因”。在阅读中,读者通过文字这个“果”来判断逻辑这个“因”的概率。如果作者的文字表达不够精确,那么读者能获取到核心逻辑的概率就会降低。“一千个人心中有一千个哈姆雷特”说的就是这个意思。

分解模拟人的写作

所以人在阅读信息的时候是通过一种分层模型来达到阅读理解的。

人对一篇文章的理解是至上而下的过程。理解力低的人往往只能读懂文字的表面意思,高手却能抓到文章的深层价值,这是那些具备了“见微知著”能力的人才能做到的。具备更高认知思维的人往往能将多篇文章最底层的核心价值抓住,串联起来形成自己的理论体系。这样的人我们叫做具备战略思维能力的人。

回到我们要讨论的写作这件事上,如果我们以阅读者获取信息原理为引入,写作这件事本身就变得非常简单了。无论是人在写作还是机器在写作,理论上只是把阅读的过程做一个逆向工程而已。如上图所示,写作这个过程是由下而上的推进。

一个作者在写一篇文章时,他首先要搜集数据、将这些数据做分拣和提炼,并经过分析,将有用的数据组合后备用;一些基础的数据资料甚至已经以句子或短语的形式初步形成了简单语义层表达;下一步作者要做的就是构思文章的逻辑,一篇好文一定是思路清晰、逻辑严密的,而这一层就是文章想要向读者传达的核心思想。当这个逻辑层框架构建完成以后,再用文字去做语言层的表述就已经不影响信息的传递了。上面例子里面尽管文字的顺序是乱的,但并不影响读者理解,这就是信息架构的核心原理。

Giiso智书引领中国人工智能写作

有了这样一套理论体系,那么,我们在构建商业化智能写作产品时就有了坚固的理论基础。从人创作文章的过程来看,其工作量是一个金字塔结构。越是底层越处于无序状态,这个时候是需要大量的精力来做资料收集和分拣的。而这些工作成果最终能被文章所吸收采纳的可能10%都不到,有90%的前期工作必须去做却最终没法体现成果,并且在当下的生产关系下,那90%的前期工作也无法被其他写作者有效利用。这就是写作效率无法实质提升的原因。下面的图举例可以说明创作工作成果的转化率。

当下的人工智能技术应用到这个信息架构的不同层面,已经可以在产业化方面发挥巨大价值。目前能将这样的写作逻辑实现产业化落地的产品只有深圳智搜信息技术有限公司的Giiso智书。

智书通过庞大的数据处理引擎,以超过人力几十万倍的工作量进行资料搜集,再以数万倍人力的处理能力对数据加以清洗、分拣、标注。这些都是NLP和深度学习发挥其最大化提升产业效率的环节。在逻辑层则是写作者以逻辑预制的方式将常用的写作逻辑固定下来,这样在后续的写作过程中就不需要重复去构建复杂的文章逻辑框架。最后通过编辑器作为载体,将机器生成的底稿和人的创意进行有效整合,辅以机器修改、查错、查重等大数据智能检测功能。这样的内容生产逻辑完全符合信息阅读的逆向过程,产出的文章有极大的过程可控性及传播价值。因此智书的落地在推动中国人工智能写作的产业化进程中发挥了重大作用。