人工智能让一切成为可能。
体力劳动/挖哥
手工编辑/焦叔
出品/独角兽手表
一位时尚女性走在充满温暖霓虹灯和动画城市标牌的东京街道上。她身穿黑色皮夹克、红色长裙和黑色靴子,拎着黑色手提包,戴着墨镜和红色口红。她走起路来自信而随意。街道潮湿且反光,在彩色灯光照射下产生镜面效果。许多行人在街上行走。
今年2月,Sora首次亮相。文森特的这段60秒的单镜头视频迅速走红业界。业界惊呼AI视频的GPT时刻已经到来。
国内吃瓜群众在感叹索拉如丝般顺滑的同时,也开始拷问自己的灵魂:中国什么时候才能有自己的索拉?压力已经降临到像百度这样的中国人工智能领军企业身上。
跟随还是不跟随?
11月12日,在百度世界2024大会上,百度创始人李彦宏给出了答案:“年初,当整个中国互联网都在为Sora拍胸脯时,我们决定解决图像生成幻觉的问题。这个问题看起来比较简单,甚至比较无聊,但不解决就没有应用。”
这个选择有些出人意料。毕竟,和空相比,这位根本就不“性感”。
李彦宏放弃热门的Sora,选择无聊的iRAG,这样做正确吗?
01
权衡
年初,Sora特别火的时候,《独角兽观察》了解到当时百度内部有讨论,最后的结论是:一定不要做Sora,因为周期太长,可能需要10年。或20年。 。不管天有多热,都做不到。
年底,这个决定让李彦宏站在上海世博中心的领奖台上自信地宣称:“这个行业24个月来最大的变化就是大模型基本消除了幻想,回答问题的准确性得到了很大的提高。”
李彦宏的底气来自于百度的颠覆性技术iRAG(基于图像的RAG),这是一种增强型检索技术。
众所周知,大模型是概率模型,生成的内容具有一定的不确定性,经常会出现一些无稽之谈、哭笑不得的结果。业界将这些由人工智能产生的不真实、虚构的内容称为人工智能幻觉现象。
李彦宏在现场展示了一张由开源模型生成的北京天坛的图片。看起来很像,但他总觉得哪里不对劲。直到我对比了天坛的照片才发现,真正的天坛其实有三层,而模型生成的有四层。
在这种李鬼代替李逵的情况下,自娱自乐也还可以。如果他想成为可用的、值得信赖的、“人性化”的人,他就需要解决幻觉的问题。
与Sora相比,幻觉问题或许没有那么突出,但却是制约大型模型广泛应用的最大限制之一。幻觉问题不仅影响人工智能的实用性,也限制了大型模型在许多领域的应用。尤其是在医疗、法律等对准确度要求较高的应用场景中,一个小小的错误就可能导致严重的后果。
AI应用即将迎来百花齐放,而错觉的问题就是厚厚的墙挡住了阳光,影响了花朵的生长。
因此,就优先级而言,iRAG的优先级高于Sora。
如果把这种格局扩大到整个人工智能行业,解决幻象问题比制作Sora更重要。可以帮助更多应用落地,让更多人使用AI技术,从而惠及更多行业。
iRAG是百度的搜索增强词典技术,将自有的亿级图像数据与基础模型能力相结合,利用检索到的信息来引导文本或答案,大大提高了内容的质量和准确性,解决了以往词典模型生成的问题。问题是,这些图片有很浓的“机器味”,乍一看很假。
耳闻为假,眼见为真。 《独角兽观察》在文晓燕身上进行了测试,生成了如下一组图片。
▲安排盖茨去长城和关羽打麻将,问他害怕吗?
▲你没见过林黛玉拿着狙击枪吗?
▲年迈的苏菲·玛索拥抱年轻时的自己。
▲“移步”到沙漠中的自由女神像和埃菲尔铁塔。
▲张居正冒雪独自上朝。
▲法拉利飞越壶口瀑布。
虽然这组异想天开的图片大部分无法出现在现实中,但是iRAG生成的图片元素却非常真实,准确率非常高。如果不是内容太“违规”,根本就看不到。有一种“AI味道”。
iRAG去伪存真后,AI生成图像的可用性大大提高,应用空间被打开。例如影视作品、漫画作品、漫画书、海报制作等,iRAG可以大大降低创作成本。
例如,对于一些大品牌的宣传,拍摄一套高质量的海报需要策划人员、模特、摄影师等大量人力,消耗大量财力。一个项目往往少则二十万,多则几十万,但现在成本已经接近于0。
李彦宏将iRAG的商业价值概括为:不抱幻想,超真实,不花钱,立马拿到。
02
有用
李彦宏今年演讲的主题是“应用来了”。
符合李彦宏这一年多来对于大模型的思考,核心就是两个字:有用。
“如果没有基于基础模型构建的丰富的人工智能原生应用生态系统,大型模型就毫无价值。”在去年的百度世界大会上,李彦宏呼吁企业家创造更有可能产生价值的应用。
今年,李彦宏从有用“升级”为超级有用:“百度不会推出‘超级应用’,而是会继续帮助更多人、更多企业打造数百万‘超级有用’应用。”
正是基于有用的原则,李彦宏放弃了外表华丽的Sora,选择制作iRAG来解决幻觉问题,扫除了大型模型“有用”的最大障碍。
“基础模型能力已经准备好了,我们将迎来AI应用的闪亮时刻。每一个应用都是一颗明星,每一个应用都将成为改变世界的力量。”李彦宏认为,未来人工智能应用有两大方向:一是智能代理,二是行业应用。
会上,百度基于大模型发布了100个主要行业应用,涵盖制造、能源、交通、政务、金融、汽车、教育、互联网等众多行业。
这宣告着大模式不再是空中楼阁,已经开始重塑千行百业。
如果说iRAG让大模型变得更有用,那么则让大模型的使用门槛更低。
李彦宏演示了如何通过秒达搭建活动报名系统。
整个“开发”过程中,李彦宏只是向秒达描述需求。组长、策划、编辑、程序员、质检员五位特工,相互协作,共同完成策划、内容、开发等各项工作。他们甚至可以自动识别错误。
通过无代码编程、多主体协作、多工具调用,无需编写代码即可秒级实现任何想法,让每个人都有成为程序员的能力。
“我们将迎来一个前所未有的光靠创意就能赚钱的时代。”百度首席执行官李彦宏表示。
这个工具将于明年第一季度推出,对于大型机型来说可能就像该系统对于PC的普及一样重要。
上世纪末,计算机操作系统还是基于文本命令行界面的DOS系统,对于没有计算机知识的用户来说非常不友好。先进的图形界面大大降低了计算机的使用门槛,让计算机真正走进了寻常百姓家。
03
预见
自2022年首次亮相以来,大号车型已经流行了近两年。
全球对大型车型的热潮是新的技术革命还是新的泡沫?
李彦宏和他的百度文信大模型给出了答案:截至11月初,百度文信大模型日均调用量突破15亿次,近半年增速达到7.5倍。
30多年前,李彦宏还在北大读书时就主动选修了人工智能课程。从此,他与AI结下不解之缘,成为AI的长期信仰者。
去年,李彦宏率先发布了国内首个大比例模型。
如今,大型车型已成为“第一”。各大互联网公司“1号工程”。但像李彦宏这样仍然活跃在前台、不遗余力推广AI的“一号人物”却很少了。
2023年9月,《时代》杂志发布了首届全球人工智能人物100强。李彦宏被评为全球人工智能领导者。与他一起入选的还有马斯克、黄仁勋等。
《泰晤士报》评价:“李彦宏是中国最杰出的未来学家,长期致力于人工智能发展浪潮。”
预见未来,让李彦宏在疯狂的市场中始终保持着“世间的理智”。
去年,当各界人士蜂拥而至与大模型竞争时,李彦宏说,“不要研究模型,研究应用”。后来证明,确实不需要那么多大型模型。如今,美国仍然坚持做基础大机型,巨头仅存。
当应用开始被重视时,很多人开始追捧C端AI超级爆款。李彦宏表示:“大车型对ToB业务的影响比互联网对ToB的影响要大一个数量级。”如今,C端AI“超级APP”依然难觅,ToB应用却无处不在。
年初Sora爆火时,李彦宏选择解决图像生成幻觉问题,获得了颠覆性技术iRAG。
在最近的一次采访中,李彦宏详细解释了他放弃《Sora》工作的原因。他认为Sora本质上就是能够在任何场景下生成视频的能力。这件事本身是很有意义的,但同时也是非常困难的,需要很长时间。花了很长时间才成功。
一句话就变成了预言。
到了年底,《Sora》依然难以制作。一些尝试过《索拉》的电影人在体验后发现并不尽如人意。一些电影制作人报告说,他们必须让模型生成数百个短片,然后才能找到可用的短片。
Sora刚出来的时候,他们担心自己的工作会被AI取代,好莱坞影视从业者中爆发了一波抗议浪潮。现在,好莱坞已经很久没有抗议了。
追随别人的人大多是追随者。只有那些能耐得住孤独、坚持自己方向的人,才有可能成为追随者。
在李彦宏眼中,人工智能很像一场新工业革命,这意味着它不会在三五年内结束,也不会在一两年内出现“超级应用”。更像是未来三十年或五十年。对整个社会进行非常彻底的重建。
在这场人工智能的马拉松赛跑中,我们不能一时“快”,而要保持足够的耐心和战略定力,以免落后、误入歧途。 (超过)
以上部分内容由“文心一言”整理拓展,转载请注明出处:https://www.2sg.net.cn//61024.html