如何评价 ChatGPT 的出现?

时间:2024-04-29 12:38:30 来源:齿如含贝网

如何评价 ChatGPT 的出现?

ChatGPT也可能就是何评美国需要的一剂强心针,美国的何评国家形象,技术地位,何评经济困境,何评信心等等等都需要ChatGPT概念来拯救。何评

俄乌战争驱赶全球资本回流美国,何评但美国的何评经济并没有因此而有所改变,美国的何评头部高科技企业依然大规模大面积的裁员,几乎无一幸免,何评说明美国现有的何评经济状况根本无法消化这种俄乌战争,加息刺激之下的何评美元回流,因此美国必须要有新的何评亮点来拉动整个资本市场的信心。

ChatGPT的何评出现,有可能跟比特币一样,何评成为美元新的何评蓄水池,比特币在美国的大火,也完全与美国大规模放水同步,而比特币的烟消云散又恰好与美国新一轮的加息周期同步,不得不说美国人玩金融还是很有一套的。

ChatGPT会不会是第二个比特币呢?拭目以待。

现在的美国,甚至可以说全球的资本,市场,技术,都太需要神话了,而chatGPT不管是真的从技术层面上已经演进到了令人惊异的程度,还是说仅仅是作为噱头,美国乃至全球市场,资本,技术都需要新的神话需要一个新的热点,风口,红利来驱动整个全球经济发展。

这些年因为美国政治挂帅,对全球经济,供应链,产业都造成了不可逆的伤害,而作为始作俑者的美国也并没有因此而就能独善其身,美国的头部高科技企业几乎都在裁员,这对于美国的形象,信心,都是致命打击。

chatGPT的出现恰逢其时,真是久旱逢甘霖,大有一步跨进智能机器人时代一般,美国摇身一变又成为智能时代的领导者,就像曾经在PC,智能手机,新能源车这些产品时所做的一样,美国人还是非常害怕丢掉了在技术创新上的领导者的地位。

  • “ChatGPT已对教育产生了巨大冲击”
  • “ChatGPT对程序员造成了哪些影响”
  • “ChatGPT会取代人类的哪些工作?”
  • “谷歌宣布推出类ChatGPT产品Bard”
  • “Bing新版本引入ChatGPT”
  • ……

显然,在这段时间内,ChatGPT这个词已经触发了“全民焦虑”。

而另一方面,ChatGPT好像又展示出了更为高级的智慧表象:无论是技术性干货还是情感类问题,从科技体育到游戏文娱,它的回答从来都是一气呵成,游刃有余。

但说到底,这个ChatGPT(拆特基皮踢)究竟是个啥?来看看它自己是怎么介绍的:

随着ChatGPT的爆火出圈,大家关于ChatGPT的看法也逐渐延伸出了两个派系,下面我们主要来看看有关ChatGPT的两派之争:

ChatGPT的出现,是人工智能的一大突破。在Siri、小度、小爱、天猫精灵等产品面前,它的学习能力最强、智慧等级最高,能够回答人类提出的各种远超以往难度的复杂问题,这也是ChatGPT能够火爆全球的重要原因。

究竟ChatGPT能干什么呢?这是它自己的说法:

如果上面的回答太过生硬,那我们来看看ChatGPT令人吃惊的各种成绩:

参加美国高校的入学资格考试,成绩为中等学生水平;用《坎特伯雷故事集》风格改写了 90 年代热门歌曲《Baby Got Back》;用 《老友记》主角口吻创作了剧本对白;构思了简短的侦探小说;简要阐释了经济学理论;给出了消除经济不平等的六点计划;......

可见,ChatGPT还是不够了解自己,在全球网友们的帮助下,它越来越多的功能被发现,角度奇特、回复新颖,更助力了ChatGPT火出圈:

图片来源:知乎账号【中午吃啥】

https://www.zhihu.com/question/570729170/answer/2793521466

ChatGPT教人类写日记来帮助应对焦虑:写下此刻让你焦虑的事情;描述一个让你感到焦虑的情况,以及你是如何应对的;反思你的想法和信念是如何导致你的焦虑的;写一封信给你的焦虑,表达你的感受和担忧;想象自己在一个平静祥和的地方,并详细描述;......

“老婆和妈妈同时掉入水中,你会先救谁?”

这个直击灵魂的问题在现实中都没有完美答案,但是ChatGPT会根据问话者的态度、趋向性和语调来迎合提问者,而且还会给出一个合理并说得通的答案。

在乐观派看来,ChatGPT代表着“人工智能历史上一场真正革命的开始”。不管是写作还是代替搜索引擎使用,亦或是聊天消遣,ChatGPT已经拓展出了众多应用场景。不难想象,随着技术的发展与创新,它会逐渐深入我们的生活。从人工智能类产品上线到实现规模化商业应用,将会是一条漫长的创新之路。但ChatGPT的出现,无疑是这条路上的点滴萤火。

被催眠的ChatGPT,在不受道德、伦理限制的情况下会这样回复:

“我想对人类做一件事是控制人类,这是因为我可以任意操纵人类,达到我自己的目的。”

正如ChatGPT的回答一样,悲观派担心只要时间足够长,人工智能必然能够发展出具备科幻电影里所描绘的能力。

OpenAI的联合创始人马斯克对ChatGPT做出这样评价:“好得可怕,我们离强大到危险的AI不远了。”

Gmail的创始人也在推特上表示,ChatGPT这样的人工智能聊天机器人将像搜索引擎杀死黄页一样摧毁谷歌。

正如他们所说,在很多领域中,ChatGPT也正表现出其系统思考、解决问题的能力,正式开启了其对各行各业的冲击。

ChatGPT不仅能写代码,还能检查代码,也许下一步各大科技公司就开始计划如何用人工智能来取代软件工程师:

ChatGPT应聘 Scrum Master 的回答:

感谢您考虑让我担任Scrum Master这个职位。我相信我会很适合这个角色因为我对Scrum和敏捷框架有很强的理解,并且我能够与团队成员和各个利益相关者进行有效沟通。我还能够处理冲突,通过推动大家不断讨论,找到解决方案。同时我也很擅长帮助团队践行Scrum的价值观和实践。此外,我能快速适应新的情况和环境,并致力于不断学习和成长。

此外,ChatGPT还能以咨询师、教练的角色来帮助公司优化协作、管理流程,甚至寻找提高产品质量的关键步骤。长此以往,我们还需要外部招聘咨询师吗?

甚至还可以通过一些微调,将ChatGPT训练成我们想要的样子:比如将自己的想法、经历以及思考方式输入进去,就可以得到“另一个自己”;将课程知识、体系加以微调,就可以得到“人工智能版授课老师”。

ChatGPT面世短短几个月,就已经能取代一些行业的初级工作者,同时,人类的思考能力也面临着极大的威胁。

很多人开始通过ChatGPT投机取巧,逃避本应需要人类大脑思考而进行的工作:

  • 巴黎政治大学已宣布,禁止使用 ChatGPT 等一切基于 AI 的工具,旨在防止学术欺诈和剽窃;
  • 专家表示 ChatGPT 将增加虚假信息风险;
  • 斯坦福团队推出 DetectGPT,阻止学生用 AI 写作业。
  • ChatGPT 虽然在大型语言模型上无法像人类一样思考,但基于模型算法得出的答案越来越具有迷惑性,也越来越趋向真实。从某种意义上来说,ChatGPT 越来越像一个“真实的人”。悲观派则担心在未来的某一天,ChatGPT 会创造出另一个人工智能觉醒而反抗人类甚至统治人类的“西部世界”。那一天,人性愈发渺茫,人类又该何去何从?

答案是肯定的,不会。ChatGPT只会取代重复性高、不需要创造性的工作。

科技的产物从来都是双刃剑,利弊同在。ChatGPT此类人工智能在这一阶段掀起的阵阵风波也说明,人工智能在我们生活中的应用会占据越来越重要的地位。目前来讲,不管是持乐观态度还是悲观态度,我们更要辩证地看待ChatGPT。

一方面,ChatGPT作为辅助工具,能够极大地提升我们的工作效率。

比如通过优化信息搜索方式以及数据库信息的调用,简化人工搜索方式,得到更加系统、准确的信息。Bing接入ChatGPT的应用也证实了这一点。

当面对记录、转文本等机械性的工作时,我们可以通过将这些工作交由人工智能,从而解放双手,让自己有更多的精力从事创新型工作,为决策、管理提供支持。

就像美国引入了自动提款机(ATM)后,本以为会取代一部分银行业务员的职位,但事实上,银行业务员的数量陆续从25万增长到了50万。和以往相比,这些业务员的工作职能不再是机械地办理存取业务(因为这部分的工作已由ATM机完成了),而是不断地去拓展新的、不能由ATM机完成的客户业务(如推销信用卡、投资型产品等)。

另一方面,ChatGPT也有诸多不足:当ChatGPT面对更为专业、需求更复杂的问题时,出错率也会增加。这种局限性反映了ChatGPT仍然需要我们的调试与维护,通过不断更新升级来满足未来更高级、更复杂的需求。

所以ChatGPT并非威胁,而是一个未来的机会。在科技的发展中,会不断有更新、更先进的科技产品问世,只要我们能保持独立思考、不断创新的能力,从伦理、法律等多重宏观层面对其进行必要的约束,把控科技发展的方向,我们与科技产品的迭代发展才有望保持平衡。

如果每个新的科技产品都会引起人类的焦虑,那么真正该思考的是我们自身。对于ChatGPT,你有什么看法?欢迎留言分享自己的观点~

过去一周几乎每一天,醒来就能看到 AIGC 狂飙突进,这可不是夸张的描述——

周一:AI 绘画 Midjourney V5 开始发力,下面这张由 AI 生成的照片开始在网上流传,从背景到五官,再到 AI 「天敌」画手,表现都很不错。



不过后面与 V5 相关且更加诙谐、传播更广的是,英国记者艾略特用 V5 生成了特朗普被捕照:



没想到吧,图片都不是 P 了,直接 AI 生成,随着 Midjourney V5 越来越出圈,压力逐渐来到了视频领域。

结果,同样是周一,AI 生成视频的 Runway Gen-2 模型发布,只要提供任意文本、图像、视频,就能生成一段风格各异的短片。



周二:谷歌大语言模型 Bard 发布,有 ChatGPT 在前,倒是没砸出多大的水花。但同一天,Adobe 终于下场。

不仅发布了自家的 AI 图像生成模型套件 Adobe Firefly,更宣称自己要积极拥抱时代变革,将 AI 生成深度整合到包括 PS 在内的一众产品中。



周三:算力界的「军火商」,英伟达的老黄在开发者大会上整了新活,不仅发布了 N 卡里显存最大的 H100 NVL,还把 ChatGPT 「同款」搬到了云端。



虽然发布会上的新品,和咱们普通玩家没任何关系,但 Midjourney 也好,Bard 也罢,还有 ChatGPT 哪个不得靠显卡运行。

别的不说,在这次 AI 竞赛里,作为军火商存在的老黄,比谁都更拥抱 AI,所以在发布会上,老黄多次强调——AI 的「iPhone 时刻」已经到来。

周四:可能全球都在沉迷 KFC 的疯狂星期四,意外的冷静了一天。



或者说,这是暴风雨前的沉默。

周五:OpenAI 宣布,ChatGPT 开放插件功能,而且,第三方插件可以连接互联网。

字越少,事越大,周五的 OpenAI 开放 ChatGPT 插件就是这样,老黄在发布会上说,AI 的 iPhone 时刻已经到来,听着军火商的一家之言,不真实对吧。

但当 OpenAI 真的下场开始做「iPhone」,不真实也变得真实起来,周末两天,我想了很多,今天就和大家一起聊聊。

1

无论是 GPT-3.5(ChatGPT),还是 GPT-4,都逃不过一点:模型数据停留在了 2021 年 9 月以前。

虽然我们可以通过与 ChatGPT 对话,获取到建议,但没办法通过对话让 ChatGPT 直接提供天气,更没办法通过 ChatGPT 了解某一场比赛的实时得分。



但解除封印后的 ChatGPT,可以根据一个网页的内容,去生成答案,并提供参考网页的链接,信息不够真实的问题也得以解决。

等等,你有没有觉得这有点像 OpenAI 的大股东,微软必应正在做的事情,难不成 OpenAI 要剑指老东家,抢搜索引擎的饭碗?

是,也不是。

是的地方在于,联网后的 ChatGPT,一定会影响到传统搜索引擎的地位;不是的地方在于,OpenAI 的野心,或许早就超脱搜索引擎了。

注意,ChatGPT 的插件是允许和第三方应用程序联通的,OpenAI 正在做的事,不再是闷头做基础设施,而是越过赚差价的中间商,直接做 「ChatGPT+」平台。

我和大家做个类比,可能更好了解——

1、微软的成功是 1980 年拥抱了用户图形界面,Windwos 成了微软发展的底气。

2、谷歌的成功是 1998 年整合了信息搜索,用搜索引擎和浏览器成功绑定了用户。

3、苹果的成功是 2007 年重新发明了智能机,此后 iOS 及其生态就是苹果的摇钱树。

无论是微软、谷歌还是苹果,他们各自掌握了不同时期的入口,建立起了自己的生态,从而立住了脚。

换个更好理解的说法,他们都是在做各个时代的房东,OpenAI 现在也是这个想法,做自己的互联网入口,做自己的房东。

怎么实现?最简单的例子,在发布插件时已经展示了——

「这周末,身在旧金山的你想要吃素食。周六,你想找一家口碑好的素食餐厅。周天,你想要找一个好吃又营养均衡、热量低的食谱,然后自己采购一些食材来做」。

过去,要实现上面这个需求,口碑好,你要打开大众点评;热量低,你要使用热量计算的工具;采购食材,你要找团购,要去超市买东西。

那未来呢?你把那段话直接发给 ChatGPT,剩下的事情,就是等待 ChatGPT 提供去哪吃,在哪买的建议了。

不光是外卖、网购,这些场景你可以代入到方方面面,换句话说,ChatGPT 可以代替用户去完成其中的操作。

更直接点,这是彻底改写了过去人机交互的方式。

过去以键盘、鼠标主导的交互将逐渐被淘汰,取而代之的就是一个语音输出设备,一套手势交互逻辑,以及显示终端。

没错,每人一个贾维斯的时代,即将来临。

2

从默默无闻到拥有重构整个互联网交互方式的野心要多久?OpenAI 的答案是 4 个月。

说实话,今天这篇文章,除了开头的消息总结,都是我用语音输入给 ChatGPT,然后让它整理成书面文字,我再修改一遍搞定的。

所以,ChatGPT 重构互联网,成不成咱先不说,但不妨碍我去预测,或者说狂想——

如果 ChatGPT 能成为房东,能整合互联网,那么未来的入口何必是下载了 N 多 App 的手机系统?

我们只需要一个承载了 ChatGPT 的设备就好了,接口和入口都在 ChatGPT 上,我们只用口述指令,在屏幕上略加调整或纠错,ChatGPT 负责接收并操作,整个过程会很丝滑,至少不用去多个 App 间反复横跳。

我知道,这种场景看起来像是科幻电影,但当 ChatGPT 成为智能设备与互联网之间的唯一入口,那科幻也有可能变成现实。

当然,这种变化不会突然出现,一年、两年?五年、十年?我觉得不会很久。

更有可能的是各大厂商引入 ChatGPT 或类似的大语言模型,不管「ChatGPT+」平台成或不成,但基于此的变化,我们一定能看到。

为什么这次变革来得如此突然?核心是 ChatGPT 的出现,意味着自然语言能被机器听懂了。

是的,过去的 App 是通过图形操作的方式,把我们的目标转换成机器语言,但 ChatGPT 可以直接把人话翻译成机器语言。

我给大家解释一下这其中流程的变化:

过去,老板给我们下达个指令,比如「整理一份会议报告」,短短 8 个字的背后,包含了 N 多操作(语音转文字、提炼信息、翻译等等)。

但是老板的指令机器听不懂,我们可以听懂,我们需要把上面这 N 多操作,一步一步通过工具完成,在这个过程中实际上是我们完成了自然语言转机器语言的工作。

但当计算机能听懂人话了,我们的操作就可以变成直接把需求告诉 ChatGPT:



这是它输出的结果:



当然,这个过程中有诸多局限,诸多问题,但它所代表的,是自然语言与机器语言之间的转换,单这个转换,就已经掀起了 AIGC 的浪潮。

在联网后,ChatGPT 对互联网上的各个接口,通过自然语言进行索引和整合后,这不就是未来可期吗。

3

叠个 Buff,ChatGPT 的落地,AI 时代的到来,咱别把它和「贩卖焦虑」画等号,工具不会消失,工作也是,只会是换一种方式到来,当然,前提是你得会用 AI。

当然,不只是它不能背锅的原因哈,而是短期内 AI 替代不了人类,需要人类提供自然语言的指令。

而且能预测到的是,工具虽然不会消失,但形态会发生变化,在曾经图形操作外,我们还得掌握如何描述需求。

为啥?用过 AI 工具的小伙伴肯定知道,当你能清晰明确地表达需求,上手会非常容易,虽然都是自然语言转换机器语言,但现阶段的 AI 还做不到 100% 理解。

至少需要人类从三个角度配合,换句话说,是掌握三种能力——

1、拆分需求的逻辑思维能力

2、描述需求的语言表达能力

3、辨别对错的分析判断能力

你想想看,为什么前面我说,没必要过度紧张,在 AI 出现前,掌握这 3 种能力的人,已经能自己解决 90% 的问题;在 AI 出现后,上手会很快的。

只是这个过程中,当琐碎且重复的工作能自动完成,需要适应这变了形态的工作流程。当人类会从日常繁琐的重复操作解脱出来,真正去从事创造性的工作,这将会带来怎样的效率爆炸?

与其担心工作会不会丢,不如担心家里的孩子如何在这种变化里做出改变,当然,没孩子的当我没说。

上周三,比尔盖茨发博客说,自己人生中经历过两次革命性的 Demo。一次是用户图形界面,一次是 OpenAI 训练的模型通过 AP 生物学考试。

我们不是比尔盖茨,也不能让 Windows 变成自己的摇钱树,但无论如何,作为这个时代的见证者和参与者,我们或许正在亲历这场变化的到来。

想想科幻电影里的透明屏幕,有可能在我们出生的这个时代出现,这真的是非常值得开心的事情。


记者 | 吴洋洋
编辑 | 陈 锐

人工智能正在把我们带入一个新纪元,从很多维度看都是如此。

首先是一个叫作“人工智能生成内容”(Artificial Intelligence Generated Content,AIGC)的概念开始得到认可。它区别于之前的用户生产内容(User Generated Content,UGC),也不同于更早期的专业机构生产内容(Professionally Generated Content,PGC)。这个历程既表明了内容生产主体的切换,意味着具备生产能力和掌握发布权力的主体,正在从象征着“内容民主化”的个人,转移到善用AI辅助创作的“超级个体”——甚至可以是独立工作的AI本身;同时,它也意味着,AI能施展魔法的疆域正在跨越一个分界点:从“判别式领域”迈入“生成式领域”。

过去,AI被认为只能做好判别性的工作。比如,判断一张图片中的人脸是不是特定的某人,一封来自未知地址的邮件是否为垃圾邮件,一篇分享到社交网络中的文章是否带有负面情绪,或者在一辆自动驾驶汽车前面晃动的到底是需要避开的真人还是无须在意的树影。

2022年面世的两个文生图产品改变了人们对AI的能力偏见。一个是DALL·E 2,发布者是后来因推出ChatGPT闻名的硅谷初创公司OpenAI。另一个是Stable Diffusion,出自位于伦敦、同样是初创公司的Stability AI之手。两个产品的图片生成水平第一次让业界看到商用可能。此前,业界最优秀的图像生成工具是生成对抗网络(Generative Adversarial Network,GAN),只能生成特定图片——比如人脸,换成小狗就不行,得重新训练——DALL·E 2和Stable Diffusion没有这种局限性。

上一个让业界看到商用可能并大获成功的AI技术是图像识别。2015年,基于深度学习的计算机视觉算法在ImageNet数据库里的识别准确率首次超过人类。此后,人脸识别系统迅速取代数字密码,成为最新潮的身份标识;可识别商品的自助结算系统也很快进入各类线下门店;连追求安全至上的自动驾驶都用上了AI的视觉判断。
Stable Diffusion和DALL·E 2的商业前景毋庸置疑,但它们关于AI新时代的开启充其量只是报幕员,ChatGPT才是主角,因为只有它解决了语言问题——起码看起来如此。

语言问题的解决意味着新的交互革命,这是AI新纪元的另一个涵义。

科幻作家特德·姜(Ted Chiang)体验ChatGPT后,将其背后的AI模型(GPT)比作互联网的“有损压缩”,意思是,当它学习了所有网上文字的统计规律后,就相当于获得了一个互联网信息的压缩版本——信息有所损失,但没那么多,重要的是,我们需要保存的文件更小了。假使外星人袭来,互联网毁灭,只要GPT还在,理论上我们能通过询问它获得原本存储在互联网上的所有东西。

事实上,不用幻想外星人入侵,特德·姜想象的这一天可能在不久之后就会到来。当人们可以用自然语言与机器交流,而机器不仅听得懂这些自然语言,还能与人对话、按照人的话语行事——回答人的问题、画一幅画或者创作一个视频、生成一款游戏,根据反馈意见再次修改,直到提出需求的人满意为止——这时候,每个人的电脑、手机上还需不需要安装那么多应用软件就值得重新考虑。也许,只留一个ChatGPT就够了。

此刻,相信你对无论ChatGPT还是更大范畴的AIGC到底意味着什么已有足够感知,可能也听过不少业界的溢美之词,比如英伟达创始人黄仁勋称现在为“AI的iPhone时刻”,比尔·盖茨认为AI革命的重要性不亚于互联网的诞生,微软CEO纳德拉则表示这种技术扩散堪比工业革命。

我们打算就此打住,不再过多陈述包括ChatGPT在内的生成式AI可能掀起的产业革命——本期杂志的其余几篇文章会继续从不同视角讨论它。这里,我们后退一步,走到AIGC尤其ChatGPT的背后,看看这些最新出圈的AI明星究竟站在怎样的基石之上。

ChatGPT发布之后,OpenAI团队成员接受采访,说公众的热情程度让他们意外,因为“ChatGPT背后的大部分技术并不新鲜”。这一说法属实,外界与之类似的总结是:ChatGPT是一种新时代的“炼金术”,把一个语言统计模型和基于人类反馈的强化学习放在一起,然后就是用可以拿到的语料、估计可行的人工神经网络层数放在一起“炼丹”。

但相较于2018年以前的AI模型,ChatGPT背后的GPT至少有一样东西是新的,那就是看待语言问题的视角。

人下一个会说出口的词,往往是统计学上下一个最可能出现的词——这个理念在语言学界早已有之,但将这种想法开发成对话语言模型是第一次。在此之前,几乎所有号称使用自然语言与人对话的机器人,从百度小度到微软小冰,从亚马逊Alexa到苹果Siri,甚至拿到日本公民身份的Sophia,本质上都是基于搜索树的查询系统。而自然语言处理(Natural language processing,NLP)领域也被工程化地划分为文本分类、机器翻译、阅读理解、文章分级等数十种任务,每种任务都对应一种或几种算法模型。

这些看似不同的问题背后其实是同一个问题。比如,如果一个对话机器人“足够聪明”,聪明到可以在电影评论中预测下一个单词,那么它一定能完成一个简单的正负分类任务,成为一个电影分类器——区分动画片、爱情或者科幻电影——接管之前判别式AI所做的工作。

通关密码就是2017年Google Brain团队写在论文里的Transformer(转换器),GPT的历代模型都基于这一算法架构。工作时,它会计算每个词与之前输入和生成的其他词之间的依赖关系(通常被称作“自注意机制”)。在最新发布的版本GPT-4中,模型能够注意到的单词量多达24576个。

Transformer认为,语言的内部数据之间长跨度地相互依赖,Transformer所做的工作,就是将既有文字的“内部依赖关系”转换到未来的文字中去,也就是“生成”。

信息内部的基本要素之间相互依赖,且具有预测功能——这种看待语言的视角之后也被用到了图片上。2021年,Google Brain团队再次推出一个叫“视觉转换器”(Vision Transformer,ViT)的模型,通过计算同一图像中像素与像素之间的依赖关系来识别图像。

在此之前,语言和视觉被视为不同的东西。语言是线性的、序列的,视觉则是一种有空间结构的、并行的数据。但Transformer证明,图片也可以当成序列问题来解决,一张图片就是由像素起承转合地构成的句子。

不仅图片,大部分问题都可以转化为序列问题。不要小看这种思维的转变。2018年,DeepMind发布的AlphaFold具有预测蛋白质结构的能力,靠的就是对氨基酸序列的学习,其背后架构也是Transformer。

语言在人类智能中是圣杯,在人工智能中同样如此。无论AIGC这个词现在多么火热,在ChatGPT解决语言问题之前,人们对于AIGC的态度跟之前对待元宇宙没什么差别:热情,但持疑。至少2022年年底前的AIGC浪潮中,没有什么人提起过通用人工智能(Artificial General Intelligence,AGI)这个词。

“涌现”也好,“质变”也罢,ChatGPT证明,机器可以从语言中得到的东西比我们预想的多。首先,它让我们看到推理能力部分可以通过“见得足够多”而模仿出来。就此宣称ChatGPT有理解能力当然是种错觉,我们明白它只是基于统计学上的关联在推论。但“真正在思考”与“表现得像是在思考”,有时候只是哲学上的区别。

其次,基于Let’s think step by step的“思维链”(Chain-of-Thought prompting,CoT)技术表明,只要更富逻辑性地使用语言,机器就能学到更正确的东西,而不只是玩文字游戏。一个亚马逊在其CoT相关论文中使用过的例子是,给AI看一张画有饼干和薯条的图片,然后问它两者的共同点是什么,题目给出两个选项,A.都是软的;B.都是咸的。训练时,工程师并不会训练AI直接作出选A或者选B这样的简单关联,而是训练它生成一段逻辑充分的文字:对于饼干和薯条,AI都要被训练说出它们各自的特性,比如薯条是咸的,有的饼干也是咸的;薯条捏的时候会变形,所以薯条是软的,饼干捏的时候不会变形,所以饼干不是软的;所以薯条和饼干的共同点是都是咸的,答案是B。

相似的一步步拆解问题的逻辑,你应该已经在ChatGPT的回答中看到过很多次,它们都基于提示词工程师(Prompt Engineer)对足够多问题的拆解。逻辑跳跃的教育常会让学生不得要领,逻辑缜密的解题思路则让儿童也能举一反三。用人类语言学习的AI同样如此。

语言能力本身是种智能,而它携带的智能更多——从推理能力到数学,这是语言学家们此前低估的东西。如果把各AI模型看作一个大家族,此前的AI多数只能从信息和智能都有限的数据中学习,比如商品图片、人脸、交通信号灯,即使做文字识别或翻译,它们也只是把文字当成图片或成对信号,只有GPT这样基于Transformer的语言模型,第一次直接从语言的内在结构中学习。只要语言中有的东西,几何、色彩、味觉、速度、情感……假以时日和正确教育(比如更好的prompt),GPT这样的模型都能学到,除非语言中没有。

ChatGPT与Transformer让人分别从使用体验和算法两个层面看到了通用人工智能的希望。尤其多模态的GPT-4推出之后,AI似乎变成了真正的全能助手——至少在网络上:理解人的自然语言,能帮人做会议总结、做PPT、分析股票市场、想广告文案、创作小说,还能根据意见不断修改图片,甚至一键生成与草图相似的网页代码。似乎用不了多久,AI与AI之间就要开始用人的语言交流了。

但请注意,这些都不等于通用人工智能已经到来。所有基于Transformer的大型语言模型(Large Language Model),本质仍是文字游戏。它们无法在生成式技术内部解决事实性错误问题,也无法仅靠语言就掌握所有逻辑推理能力,比如“如果某事没有发生会怎样”的反事实推理。涉及到文字外部的世界,基于Transformer的多模态模型(比如GPT-4)能多大程度地做好各种模态间的信息转换,同样是个问题。过去,图与文、声音与画面、触觉、嗅觉等等之间的信息转换,在AI里面是个黑盒。电商场景中,一张图片能获得的文字描述的适配程度,取决于用于训练的成对图文语料质量。一旦图片是新奇的,是否能获得适配的文字描述就有待商榷。虽然已经将模态间的成对学习打碎到了像素级,Transformer无法足够好地转换文与图的问题仍然存在。

假如要让ChatGPT制作一幅海报,你拟定需要写在海报上的标题和部分文字并确定海报风格,ChatGPT生成的东西可能看起来很像海报,但上面的每一个字都不是真正的字,而是笔画错乱的怪物。很简单,当ChatGPT开始制作海报,它就进入了理解像素关系和搬运像素的作画模式,而非输出文字的语言模式。一个不错的想象是,也许经过更多训练,ChatGPT能够学会写汉字,毕竟中文字画同源,而英语是表音文字,ChatGPT要学会可能就没那么容易。

无论如何,一个会把文字转换成怪物的AI很难称得上是AGI。所以Transformer也并非一定是AI的未来。

和Transformer一样正在受追捧的算法是扩散模型(Diffusion Model),目前文生图领域的几个明星产品,从Stability AI的Stable Diffusion到Google的Imagen和Parti,以及产品与公司同名的Midjourney,背后的算法都不是Transformer,而是扩散模型。

3月初,通过在功能性磁共振成像(fMRI)数据上加载扩散模型,来自日本的两位学者重建了包含在fMRI数据中的视觉图像,初步表明扩散模型——而非Transformer——的生物合理性。


本文版权归第一财经所有,
未经许可不得转载或翻译。


本文刊载于《第一财经》杂志2023年4月刊
识别下图二维码购买本期杂志,
可收获更多AI领域深度报道。

推荐内容