敢想科技说

GPT4o文生图模型一场视觉革命的幕后真相


Listen Later

今天咱们来聊聊一个让设计师们夜不能寐的话题GPT4o的文生图能力。这事儿得从前两天我在知乎上翻车说起。

当时我写了一篇关于ChatGPT文生图功能的测评,结果被一位2021年的年度新知答主当场打脸。人家甩出两张图,说我这测试用的根本就不是最新模型。最新版连两个人相互推对方这种抽象概念都能准确表现,而我展示的结果连文字都错得离谱。

这脸打得啪啪响啊!我赶紧按他给的验证方法试了试输入100个英文单词,结果文字全乱。得,实锤了,我用的果然是DALLE这个老古董。

为了挽回颜面,我咬牙充了个ChatGPT 4o会员。这一试不要紧,差点把下巴惊掉。你们猜怎么着?让它生成12种花摆成43阵列的俯拍照,它居然连玻璃托盘上的动物脂肪层这种细节都还原出来了!更绝的是,它还会贴心地提醒你这是由DALLE创建的好家伙,AI都学会自我鉴定了。

不过最让我头皮发麻的还在后头。你们见过AI玩物理定律吗?我让4o生成杠杆原理示意图,它直接给我整出个小孩用跷跷板撬重物的场景。更科幻的是相对论时间膨胀效应的演示地球上的Alice白发苍苍,飞船里的Bob还是小鲜肉,这视觉冲击力比教科书强了八百倍!

现在问题来了这么逆天的功能,设计师们是不是该集体转行了?我让4o把两张带手的水杯图合成电商海报,它40秒就搞定了专业设计师要抠半天的活。虽然第一次漏了个杯子,但把要求说清楚后,那成品直接让我喊出设计师下岗这种暴论。

当然也有翻车的时候。想让AI把我照片转成赛博朋克动漫风,结果出来的像被核废水泡过的二次元生物。但转念一想,这玩意儿进化速度可比人类学习快多了现在的短板,说不定下个月就变成杀手锏。

最后说点掏心窝子的国内团队得抓紧了,这非自回归模型的架构革新,就像让学生先听完整道题再作答,跟我们过去边猜边画的AI完全不是同一个物种。至于咱们普通人?赶紧把4o玩明白吧,毕竟未来已来,只是分布得不太均匀。

...more
View all episodesView all episodes
Download on the App Store

敢想科技说By 无何有老田