你都被ChatGPT白嫖了,还得给它数钱

2023-04-09
关注

出品|虎嗅科技组

作者|齐健

编辑|陈伊凡

头图|FlagStudio

 

“谷歌计划在旗舰搜索引擎中添加对话式人工智能功能,这将引导公司应对来自ChatGPT等聊天机器人的竞争和更广泛的业务压力。”谷歌首席执行官Sundar Pichai在近日的一次采访中表示,AI并不会对谷歌的搜索业务构成威胁,相反,人工智能的进步会增强谷歌搜索查询的能力。

 

然而,在高调推动研发的同时,谷歌的经济状况却并不乐观。自2023年1月宣布裁员12000人(占Alphabet总员工6%)之后,近日,谷歌首席财务官Ruth Porat又向员工表示,预计将从餐饮设施到公司计算基础设施等领域削减更多支出。有趣的是,谷歌称“这对开发和运行强大的人工智能算法至关重要”。

 

就在谷歌“砸锅卖铁”研发大型语言模型(LLM)的同时,ChatGPT及类似的LLM们,也开始“大杀八方”。

 

近日,美国就业服务平台Resume Builder公布的一项调查统计显示,在1000多家受访美国企业中,有48%的企业已经在用ChatGPT取代人类员工。

 

新闻出版业感受到了这场冲击波。今天的AI越来越让人深刻体到会什么叫“教会徒弟饿死师傅”。正在抢走你工作岗位,替代你的ChatGPT们,其实正是在无数遍调用你的工作数据之后,利用你的这些工作成果训练出来的。

 

而媒体行业的老板们也正在思考如何执行“打不过就加入”的策略,他们希望尝试跟微软、OpenAI、谷歌这样的AI研发公司分分ChatGPT的“钱”。

 

3月23日,美国新闻集团旗下媒体华尔街日报报道,有知情人士透露,最近几周,美国出版行业的高管们对于ChatGPT的爆火也坐不住了。他们正在研究出版集团们的内容在多大程度上被用于“培训”ChatGPT等人工智能工具。

 

一场针对版权、法规的争论正在展开。

 

每个码字工可能都被ChatGPT白嫖了

 

对此,美国新闻媒体联盟的高层们讨论的核心是人工智能公司是否有合法权利从互联网上抓取内容,并将其用于他们的AI大模型训练。而目前,美国有一项名为“合理使用”的法律条款,似乎允许AI公司在某些情况下,使用未获授权的版权材料。

 

“我们有有价值的内容,而现在,这些我们花费人力、财力创造的内容,正在不断被用于为其他人创造收入。”美国新闻媒体联盟执行副总裁兼总法律顾问Danielle Coffey认为,在这个问题上,新闻出版公司理应得到经济补偿。

 

OpenAI首席执行官Sam Altman在此前接受的采访中曾表示,“我们在合理使用数据方面投入很大,我们愿意为某些领域的高质量数据支付大量费用。”例如科学领域。在必要时,OpenAI已经就内容达成了协议。

 

事实上,“版权”的概念在互联网诞生之际就发生过一次变革,“分享”的概念随着互联网的高速传播能力打破了很多版权商对内容的垄断。此后,版权之争更是成为了内容生产者、分发渠道、广大用户以及利益链上的各个相关实体不可避免的争议话题。

 

美国新闻集团对AI主要的担忧在于,人工智能工具可能会耗尽其网站的流量和广告资金。目前,微软提供的NewBing,会在用户问题的答案中包含链接。然而美国出版商的高管表示,有多少用户实际上会点击这些链接并访问他们的网站,这是一个很难确定的问题。

 

事实上,AI可能确实会影响用户对版权内容的阅读。Bing Chat可以针对网站内容给出全面的总结分析式回答,从而大幅降低了用户点击原文链接的欲望。在对Bard的测试过程中,虎嗅发现,只要给Bard提供链接,它就可以直接为用户解读网页内容,包括一些需要付费浏览的内容。不过由于Bard目前只支持美国和英国地区用户,所以它目前只能解读这些国家的网站。

 

谷歌的Bard通过网址解读美媒The information的付费新闻

 

目前,美国出版商行业组织新闻媒体联盟已经开始与微软和谷歌的代表会面,并主张自己的权利,要求AI训练公司为数据、内容付费。如果谈判效果不理想,这些出版集团也不排除在该问题上诉诸法律。

 

ChatGPT们的学费该怎么交

 

从OpenAI目前透露的信息来看,在GPT-3的训练过程中,很多数据是来自开源数据组织Common Crawl利用爬虫抓取的数据。

 

Common Crawl是一个501非营利组织,它利用爬虫对网络进行抓取,并向公众免费提供其档案和数据集。Common Crawl的网络存档包含自2011年以来收集的PB级数据。通常每个月都会完成爬网。Common Crawl由Gil Elbaz创建。该非营利组织的顾问包括Peter Norvig和Joi Ito。

 

Common Crawl的数据使用条款中要求不可将数据用于非法用途,以及如下事项:从事辱骂、骚扰、仇恨或其他冒犯性活动;侵犯他人隐私;危害未成年人;侵犯他人的权利(IP、专有等);规避复制保护;干扰或破坏我们的网站、服务或安全;垃圾邮件的人;跟踪人;冒充他人或以其他方式伪装您的身份;伪造标题或以其他方式伪装我们的内容;收集个人身份信息;为商业招揽而沟通。

 

虽然未提及不可用于商业用途,但Common Crawl的使用协议中,也声明了要求保护版权、商标等。所以,对于版权所有方提出的付费要求,使用了版权数据的AI大模型研发公司,理应回应付费或是补偿需求。

 

不过,从长远来看,这个付费模式,对于AI大模型来说恐怕还有很大的讨论空间。毕竟AI大模型在学习了版权数据之后可能创造的价值,远大于一次性版权付费。而出版社或许更关注他们的版权内容,在AI工具中是否有侵权性的展示和露出,从而以此与AI工具的研发者建立长期分利的分利模式。

 

“生成式AI通常不会直接展示学习到的内容,他都会进行总结提炼,或是转化成自己的话叙述给你。”西湖心辰COO俞佳告诉虎嗅,AI大模型本身不存储数据,它存储的是参数。而参数代表着在算法、模型框架之下,数据之间的关系。因此AI输出的内容,通常情况下都不会是原本的数据或内容的复刻,也就很难界定是否侵权了。

 

此外,俞佳认为,深度学习的底层逻辑是“学习”,对于版权内容的一次性付费是合理的,但长期付费需要更创新的版权人收益模式。“对于知识来说,AI和人有些相似。比如说,我看了一本书,然后我用书里学到的知识赚到了钱,那么我需不需要或者应该用什么方式来回报这本书的作者?这需要创新的解法。”

 

由于国内AI大模型研发和应用相对于国外来说起步稍晚了一些,且ChatGPT官方尚不支持中国地区的应用。所以AI暂时还没有触碰到国内出版商的利益,国内相关机构也尚未对此提出大规模的公开质疑。

 

虎嗅为此询问了一些出版行业专业人士,某国内出版社资深法务专家表示,“国内版权保护意识基础较为薄弱,在很多环节还跟不上。虽然现在ChatGPT对中国出版业界还没有构成明显的威胁,但对AI的版权问题和生成式内容的权属界定问题,已经被行业广泛关注了。

 

 “新闻报道在国内的相关的法律当中,特别是著作权法,是享有著作权的。”观韬中茂律师事务所合伙人王渝伟向虎嗅介绍说,AI大模型利用享有著作权的内容去进行非营利性的科学研究问题不大,但是一旦商用,就需要为这部分内容支付相应的许可费用。

 

不过,王渝伟也表示,目前AI大模型训练对于版权内容的使用与否,用了多少,都很难界定。因此,很难在法律上对著作权人提供有效的保护。但这显然不能成为侵权,或者说不付费、不许可的前提条件。不过具体到出版商或著作权人,如何与AI研发者分成,可能还需要双方接触,谈判确定。在这方面短期来看,法律也不会直接给出规定的数额。

 

吃我饭,还砸我碗?

 

在讨论该如何向ChatGPT收学费的同时,出版商或许更加担忧ChatGPT的生成能力可能会威胁到新闻出版集团的主业。这也使得AI在出版集团面前的形象成了——“吃我饭,还砸我碗”。

 

最新发布的GPT-4众多亮点中,就包括在大量专业技能考试中取得超越人类平均水平的成绩,在很多执业资格考试中,甚至超过90%的人类考生。由此,人们自己会否被AI取代的担忧日益加深。

 

2023年1月,还处在舆论升温阶段的ChatGPT,已经被美国版今日头条Buzzfeed注意到,并第一个声称将在未来一年中把ChatGPT能力全面应用到内容生产中。此后,Buzzfeed股价连日大涨,资本对AI替代人类编辑记者的想法,可谓是非常看好。

 

此后不久,在3月初,Buzzfeed就开始利用ChatGPT进行内容生产了。用一个名为“Buzzy the Robot”的名字发布了40多份旅游指南,目的地包括斯德哥尔摩、布拉格和大阪等。

 

不过,有细心的网友在阅读之后发现,Buzzy机器人撰写的文章中,有五分之一的都采用了几乎相同的开头。这些文章通常以“Now, I know what you are thinking(现在,我知道你在想什么)”这句话开头,然后是关于该特定目的地的反问句。例如:“I know what you’re thinking: isn’t Stockholm that freezing, gloomy city up in the north that nobody cares about?”( 我知道你在想什么:斯德哥尔摩不是那个寒冷、阴暗的北部城市,没有人关心吗?)

 

对此,有人认为,AI作者在写文章方面,要比人类“懒”得多。不过,从AI目前在内容生产领域的表现来看,这项专业技能或许尚不足以直接威胁到相关从业者。

 

在ChatGPT以及类似的LLM生产内容的过程中,还有一个很难跨越的问题,那就是准确率的问题。虽然GPT-4在这方面已经有很大改进,但仍然无法摆脱GPT模型生成内容的固有模式。

 

GPT模型的内容都是根据上下文一个字一个字地生成的,因此面对人类的提问,AI模型的目的就是回答,写完这段话,而它不会对内容负责。在很多他不是很清楚的问题上,AI还不能做到对每个问题停下来,问问人类这是什么?这是怎么回事?或是质疑人类的观点。

 

除此以外,现阶段人类大脑对于AI最大的优势可能还是“廉价”。目前ChatGPT的API价格是$0.03/1000个prompt tokens,$0.06/1000个completion tokens。GPT-4的API报价是$0.03/1000个prompt tokens,$0.06/1000 个completion tokens。相比之下,人类员工坐在电脑前时,只要你够卷,他可以为你提供低价的无限token算力。

 

同时,这位人类员工还具备AI很难实现的理解和学习的能力,在面对新事物时人类拥有创造力和主观判断力。而AI在这方面的能力显然还很不够,毕竟GPT-4只是发布了一个识别梗图的功能,就已经让全世界兴奋到恐惧了。

您觉得本篇内容如何
评分

相关产品

CSMS 中科微感 人工智能+嗅觉传感器(AI-Nose) 气体传感器

中科微感逐步攻克了制约人工嗅觉传感发展的核心材料、硬件、算法等技术,开发出了以新型纳米敏感材料为基础,以微纳加工技术为支撑,以人工智能算法为核心的第一代 MEMS 基金属氧化物半导体原理的人工嗅觉传感器产这一产品将解决当前制约人工智能嗅觉技术与市场应用发展的关键问题:提供量产化的高一致、低成本、微型化的嗅觉传感器阵列硬件,以及提供标准化的人工智能+嗅觉气味感知软件平台,使客户能够快速构建和应用气味数据模型

XKCON 祥控 弹药库环境温湿度异常报警与智能监控系统 温湿度变送器

济南祥控自动化设备有限公司自主研发的XKCON祥控弹药库环境温湿度异常报警与智能监控系统采用物联网、传感器、大数据、人工智能等先进技术,能够对弹药库环境温湿度信息实现数字化、可视化管理。

山东美安 矿山电机车防追尾道岔口报警器 控制器及系统

煤矿用机车防追尾保护装置 机车防追尾保护装置是一种矿用人工智能保护装置、具有防追尾保护、无线触发沿途弯道语言保护、输出控制并记录等功能可广泛的使用在矿山井下、井上的运输机车上。

KEYENCE 基恩士 AI-1000C 图像匹配传感器

因此,人工智能系列能够在模式匹配的基础上对物体进行稳定的检测和识别,而这是基于强度或距离的传感器难以实现的。 基于强度或距离的传感器难以实现。

云传物联 水质生态浮标浮台在线测系统 多参数监测系统

电子水质监测解决方案利用信息控制与处理、人工智能、自动化、物联网及多媒体等技术,集水质参数在线采集、无线传输、智能处理、超限报警、远程管理等功能于一体的水质监测解决方案。

DINSEE 鼎信智慧科技 DX-WPS100-SP2... CMOS图像传感器

针对传统配电线路人工巡检效率低、周期长等问题,鼎信智慧结合物联网、红外热成像、人工智能等技术,研发了配电线路图像视频双光球机在线监测装置。

大立科技 DM60-W3 红外体温快速筛检

红外热成像体温快速筛检系统DM60-W3系列为384*288/640*480像素,人工智能算法,远距离、大场景测温更精准。

Maike 迈科光电 MK-PB4023PS&ALS&VC-A01E 接近传感器

EM30918、STK3311-X、STK3321、APDS-9900 ,9901、TMD2772WA、RPR0521RS、VCNL4035X01 WH4530A),广泛应用于平板电脑、工控显示类产品、智能家居、AI人工智能等场景,联想笔记本电脑,九安医疗的测温仪,微步数码的平板等都应用了我们这颗传感器,已量产批量出货。

Handsome 翰德圣 HDSELM V1.1 安全传感器和系统

设备全生命周期管理平台融合的物联网、云计算、大数据、人工智能、优化制造、再制造六项主流技术,通过云端模块化的架构可为企业灵活管理设备,不仅可以随时随地了解设备运行状态、发现故障隐患,还能够通过大数据分析指导企业维修

评论

您需要登录才可以回复|注册

提交评论

广告
提取码
复制提取码
点击跳转至百度网盘