热点新闻

文 | 字母榜

谷歌终于支棱起来了，带来了今年可能是最令人惊喜的文生图模型——nano banana。

谷歌对于多模态能力的坚持和深耕，再次开花结果了。

自三天前以“Nano Banana”之名低调现身后，相关讨论便迅速发酵，原因无他，只是因为，过于出色。

这个模型前几天就在LMArena图片编辑模型排行榜上几乎断代式地领先其他模型，而昨天，谷歌终于官方宣布，nano banana正是出自 Google DeepMind 实验室推出的 Gemini-2.5-Flash-Image-Preview。

Nano banana现已经一跃居于图像编辑排行榜榜首。

不是期货，开箱即用。不论是官方发布的素材，还是网友自己测的案例，在一致性和功能性上都非常惊艳。

全球网络一致好评，纷纷盛赞其其他任何图像编辑模型都要出色。

不仅一致性强，速度还快，相比 gpt-image 能实现更精准的编辑，同时，更是具备完整 LLM 的理解能力而非普通 CLIP 规模模型的认知水平。

访问地址：ai.studio/banana

这个模型最直观的感受就是，这是一个用嘴和打字就能修改和拼接图片的模型，那种初见ChatGPT和Sora的“魔法感”又回来了。

过往AI生图常被诟病于每次编辑都像掷骰子，细节失真、角色特征易变。而谷歌对Nano Banana主要定位的就是保持主体的一致性。

谷歌表示，更换背景、视角或色调，画面中的人物与物体都能稳定保持原貌不走形。

而另一面，它还是带推理的图像模型。Nano Banana提示词精准度达到了新高度，在听懂人话，理解内容方面表现出色。

它不仅仅能够理解图像内容，还能自主理解、处理、添加文字。

这让它得以同时支持多轮次编辑与多图叙事能力，用户可以持续修改生成的图片，但人还是那个人，甚至可以保持原来的氛围感，不仅“房间布置逐步变化”、“漫画连续分镜”、“多角色合成互动”等复杂功能都能实现，绘制带文字技术插图，做几何题目也能做到。

一句话让模型把图片换视角，上图是原图，下图是俯视视角图片。

一件衣服，一个人物，一句话，衣服马上就穿到人身上。

一句话，拳王阿里秒变辛普森。

劈柴从印度老家顺移到谷歌办公室（人物还是出现了些许的变化）。

两张人物照片，就马上给你他们出演碟中谍和琼瑶剧的剧照。

只去掉小细节，局部编辑也很稳定，其他内容都没有什么变化。

人物一致性方面，网友测试表示，让人物转一圈再转回来，人看起来的变化不大，一致性确实nice。

在网友喜闻乐见的动漫领域，也是表现喜人，给出角色和手绘图示意图，就能控制多个人物的姿态。

生成角色三视图后，漫画也可以稳定生成。

而多次编辑工作更是让nano banana的成图更稳定。

网友测评后表示，连续编辑方面还没有说的那么好，会稍微变形一部分，但一致性已经相当可观了。

多种风格的消费漫画信手拈来。

网友实测反馈也很不错，除了人物五官有非常微小的变化，一致性真的非常强。如果使用的是普通人的照片，你不盯着对比，很难看出面部细节的变化。

不过对于大家都很熟悉的名人，可能还是能让人看出面部不一致的地方。

插画变手办更是近期网上一大测试热点，说到底还是因为nano banana的成图效果确实ai味儿少，看着真实。从平面到现实世界，却没有太大违和感，质感和特征都相当不错，网友们争相生成传播。

而绘制科学插图，制作用于解释的插图等包含内容生成的方面，网友也评价很高。

不过，也有不少网友表示，nano banana的过滤器有点敏感，有的正常请求也会会被拒绝。

除了内容本身，nano banana的运行速度也相当可观。谷歌表示，在同类模型通常需要10-15秒处理一张图片时，Gemini 2.5 Flash 基本能做到1-2秒完成。

Nano Banana配合谷歌的veo3的工作流更是能很快生成相当质量的视频，网上已经出现了不少工作流，Nano Banana出图导入veo3，几秒钟的短视频或者长视频都能够胜任。

而价格上，有网友根据谷歌放出的使用费率做了个简单的估算，生成或者修改一张图的成本在3毛钱左右。

网友表示，这是真的能替代美工的视觉工具。

谷歌这次真是盯上了视觉打工人的饭碗了。