10月13日,中文在线集团对外公布全球首个万字大模型“中文逍遥1.0”。这同样是中文在线推出的首个AIGC(人工智能生成内容)产品,首席技术官吴疆将它的技术优势总结为“三个一”:一键生成万字小说,一张图片写一部小说,和一次读懂一百万字小说。
中文在线创始人童之磊在演讲中表示,中文逍遥不仅对现有作家赋能,还通过降低小说写作门槛让普通人拥有进入内容创作的入场券,此外还提高文学创作者的“盈收能力”。他认为,让创作者赚到应得的体面的报酬,是内容爆发,好作品层出不穷的最大密码,“在创作领域,能帮助创作者赚到钱的大模型,才是好模型。”
AI创作与海量内容时代,优质内容价值更大
童之磊提出,中文逍遥解决的第一个需求是让作家的创作更容易、高效,创作出更好的作品。“过去也许作家一天可能只能写几千字,现在可能就写上万字。过去作家可能会在某个构思上进入到卡文的状态,但是中文逍遥大模型能够帮助提供更多的构思,也许可以让作家茅塞顿开,创作出更好的作品,这对广大作家来说是一次‘AI福利’。”
他还提到,中文逍遥不仅面向作家,也面向普通人,让内容创作体现出更加繁荣的生态,这对内容创作来说是巨大的促进。发布会上,中文在线产品经理林昊也透露自己使用中文逍遥后的写作收益情况。现场图片显示,截至10月11日,林昊一共写了3万字,累计收益403.53元,截图当天的日收益是218.86元。童之磊以一天100元的副业收入推算,使用中文逍遥辅助网文写作的话,一个月至少能挣3000元。
面对AI创作带来的网文供给激增,甚至内容同质化隐忧,童之磊表示,没有读者能够阅读市面上所有的网文作品,甚至阅读十分之一、百分之一的作品都很难。以中文在线顶级编辑为例,他们一年的阅读量也只能看万部作品。童之磊认为,中国目前每年产生数以百万计的网文作品,早已进入海量内容时代,催发出一套行之有效的内容筛选机制,“无论是十万、百万,甚至更多作品,它都会通过机器和人的选择来解决。”
另外童之磊也承认,内容大爆发之际,想要脱颖而出的确更加困难,这对优质内容来说也一样。但他表示可以从反向逻辑来理解这一内容竞争现象,“如果是一个优质的、头部的内容,那么它的价值将会更大。”
中文在线2022年年度报告提出“决胜IP”的战略。今年6月28日,中文在线又以51%的股权宣布成为“寒木春华”控股股东,取得优质动漫IP《罗小黑战记》的版权。童之磊在采访中也表示,中文在线未来会加大对优质内容的投入。
版权保护,AI亦有责
在回答贝壳财经记者有关版权的提问时,童之磊透露,今年5月中文在线与中国版权协会召开座谈会讨论了AI数据的知识产权保护问题。他表示,大模型训练数据的合法性是一个前沿问题,中国乃至全球都非常关注这个问题,也因此产生了许多司法实践,但全世界都没有形成百分之百的共识。
童之磊表示,在建构中文逍遥大模型过程中,中文在线把知识产权和数据保护放在非常重要的位置。他还表示,自诞生以来,保护知识产权一直都是中文在线的惯例。
在AI内容创作的反盗版方面,童之磊表示,中文在线此前已经基于自有的区块链技术建立起版权保护的防线,未来也会将AI技术运用到自身的知识产权保护工作中。
有关大模型的训练数据,童之磊还提到,探索高质量数据是全世界所有AI公司或大模型公司的课题,目前大家真正对标的对象只有OpenAI。从公开的ChatGPT-3.5来看,ChatGPT的数据来源有三个,一是维基百科,二是图书,三是期刊。其中,维基百科属于公开的数据。
童之磊表示,中文逍遥的训练数据也主要由上述三类数据构成,即公开数据、图书和期刊。首先,中文在线创立快23年以来在图书和期刊领域积累下许多有价值的、能够满足需要的数据,包括文字和图片内容。其次,中文在线获取了开放性的公有数据,例如版权进入公有阶段的数据。最后还加上与中文在线合作的第三方数据,包括出版社、音频内容提供机构等等。
据官网,中文在线目前拥有550万种以上的数字内容资源,以及60TB的文字、音频、视频数据。童之磊在发布会和采访中进一步透露,中文在线的高质量图书出版物数据超过100万种。
吴疆也表示,从技术角度来讲,大模型需要经历一个不断训练数据,不断调试和迭代,跟好的目标、内容看齐的过程。
文章转载自”新京报“,作者 韦英姿
发评论,每天都得现金奖励!超多礼品等你来拿
登录 后,在评论区留言并审核通过后,即可获得现金奖励,奖励规则可见: 查看奖励规则