文 | 字母榜
谷歌终于支棱起来了,带来了今年可能是最令人惊喜的文生图模型——nano banana。
谷歌对于多模态能力的坚持和深耕,再次开花结果了。
自三天前以“Nano Banana”之名低调现身后,相关讨论便迅速发酵,原因无他,只是因为,过于出色。
这个模型前几天就在LMArena图片编辑模型排行榜上几乎断代式地领先其他模型,而昨天,谷歌终于官方宣布,nano banana正是出自 Google DeepMind 实验室推出的 Gemini-2.5-Flash-Image-Preview。
Nano banana现已经一跃居于图像编辑排行榜榜首。
不是期货,开箱即用。不论是官方发布的素材,还是网友自己测的案例,在一致性和功能性上都非常惊艳。
全球网络一致好评,纷纷盛赞其其他任何图像编辑模型都要出色。
不仅一致性强,速度还快,相比 gpt-image 能实现更精准的编辑,同时,更是具备完整 LLM 的理解能力而非普通 CLIP 规模模型的认知水平。
访问地址:ai.studio/banana
这个模型最直观的感受就是,这是一个用嘴和打字就能修改和拼接图片的模型,那种初见ChatGPT和Sora的“魔法感”又回来了。
过往AI生图常被诟病于每次编辑都像掷骰子,细节失真、角色特征易变。而谷歌对Nano Banana主要定位的就是保持主体的一致性。
谷歌表示,更换背景、视角或色调,画面中的人物与物体都能稳定保持原貌不走形。
而另一面,它还是带推理的图像模型。Nano Banana提示词精准度达到了新高度,在听懂人话,理解内容方面表现出色。
它不仅仅能够理解图像内容,还能自主理解、处理、添加文字。
这让它得以同时支持多轮次编辑与多图叙事能力,用户可以持续修改生成的图片,但人还是那个人,甚至可以保持原来的氛围感,不仅“房间布置逐步变化”、“漫画连续分镜”、“多角色合成互动”等复杂功能都能实现,绘制带文字技术插图,做几何题目也能做到。
一句话让模型把图片换视角,上图是原图,下图是俯视视角图片。
一件衣服,一个人物,一句话,衣服马上就穿到人身上。
一句话,拳王阿里秒变辛普森。
劈柴从印度老家顺移到谷歌办公室(人物还是出现了些许的变化)。
两张人物照片,就马上给你他们出演碟中谍和琼瑶剧的剧照。
只去掉小细节,局部编辑也很稳定,其他内容都没有什么变化。
人物一致性方面,网友测试表示,让人物转一圈再转回来,人看起来的变化不大,一致性确实nice。
在网友喜闻乐见的动漫领域,也是表现喜人,给出角色和手绘图示意图,就能控制多个人物的姿态。
生成角色三视图后,漫画也可以稳定生成。
而多次编辑工作更是让nano banana的成图更稳定。
网友测评后表示,连续编辑方面还没有说的那么好,会稍微变形一部分,但一致性已经相当可观了。
多种风格的消费漫画信手拈来。
网友实测反馈也很不错,除了人物五官有非常微小的变化,一致性真的非常强。如果使用的是普通人的照片,你不盯着对比,很难看出面部细节的变化。
不过对于大家都很熟悉的名人,可能还是能让人看出面部不一致的地方。
插画变手办更是近期网上一大测试热点,说到底还是因为nano banana的成图效果确实ai味儿少,看着真实。从平面到现实世界,却没有太大违和感,质感和特征都相当不错,网友们争相生成传播。
而绘制科学插图,制作用于解释的插图等包含内容生成的方面,网友也评价很高。
在几秒钟内完成科学插图的绘制,高保真文本渲染+语言理解+世界知识,nano banana确实是独一档的。
不过,也有不少网友表示,nano banana的过滤器有点敏感,有的正常请求也会会被拒绝。
除了内容本身,nano banana的运行速度也相当可观。谷歌表示,在同类模型通常需要10-15秒处理一张图片时,Gemini 2.5 Flash 基本能做到1-2秒完成。
Nano Banana配合谷歌的veo3的工作流更是能很快生成相当质量的视频,网上已经出现了不少工作流,Nano Banana出图导入veo3,几秒钟的短视频或者长视频都能够胜任。
而价格上,有网友根据谷歌放出的使用费率做了个简单的估算,生成或者修改一张图的成本在3毛钱左右。
网友表示,这是真的能替代美工的视觉工具。
谷歌这次真是盯上了视觉打工人的饭碗了。