经常刷短剧,短视频的各位差友,应该对这张脸不陌生。
没看过的人可能以为这是哪个新晋网红,实际上,这是最近在各种视频里,反反复复出现的一张 AI 生成脸。
五官精致,眼睛够大,鼻子够小,皮肤永远白皙,永远柔光滤镜,嘴角弧度刚刚好。
如果是真人站在面前,估计世超都舍不得嘴一句。可就是这么一张看起来人畜无害的脸,却被狠狠地 “ 网暴 ” 了。
倒不是因为她有多难看,而是她就像 AI 界带资进组的关系户一样,看点啥都有她出演。
校园里的白月光是她,古装剧里的大小姐还是她。
五六岁的小女孩是她,七八十的老太太还是她。
再仔细一看,woc,怎么旁边系着头巾的大爷还是她???
每天打开手机看到的全是同一张脸,刷短视频愣是刷出了被伪人包围的恐惧感。
而随着发现的人越来越多,到处都是网友铺天盖地的吐槽:
“ 这张脸,我快看吐了。”
“ 现在看到这张脸就生理性厌恶。”
“ 有多少人看见她就反感?”
也有人纳闷了,这 AI 怎么生成的人全一个样,到底是偷了谁的脸?
评论区有猜某已封号女主播的,有说像演员李川的,还有说像朴灿烈他姐姐的。。。你还真别说,国内国外,男的女的看起来都能沾点边。
但问题是,猜来猜去也没个准信。因为比起具体的哪张脸被偷了,这更可能是从 AI 的审美流水线上,被反复捏出来的,一个本不存在的 “ 平均标准脸 ”。
那这张脸到底是怎么来的呢?
不信邪的世超,干脆把 Seedance、可灵、海螺、HappyHorse 这些主流视频模型挨个试了一遍,在实验的过程中,还真发现了一点规律。
我们给所有模型两次机会,相同的 “ 女生骑自行车 ” 提示词,按理说,它们每次生成的脸都会不一样,甚至有时候跳亚洲人,有时候跳外国人,这才是大模型的天性。
因为咱们只限定了性别,没有任何其它提示,不只是人脸,它应该随机生成任何国籍,任何肤色,任何发型穿着等等,完全不一样的人。
可实际上,同样的提示词,几乎所有模型两次生成的都是一样的脸,穿着打扮,背景环境,拍摄角度,全基本相同。
在 Seedance 2.0 Fast 这里,世超更是找到了和开头一模一样的 AI 脸,看来这就是万恶之源了。
如果只有一个模型犯错,也许是它的问题。但要是所有模型同时丧失了多样性。。。世超研究了一下,发现这里面可能有两层原因。
第一层,常用视频模型的差友应该都知道,视频模型对提示词是非常敏感的。有时候一个词,几个字的排序,都可能影响生成的最终效果。
而为了让大伙儿能尽量稳定地每次抽卡出金,我们的提示词往往在生成的后台会被二次优化。
以前 “ 提示词增强 ” 会作为一个单独的按钮放在一边,用户可以开挂,也可以原提示词直接冲。但世超翻了不少平台,似乎现在很少见了,提示词润色成了默认项。
比如我输入的是 “ 女生正在骑自行车,边骑边笑 ”,而被优化后实际输给模型的提示词,就可能变成了:
“ 一个年轻漂亮的亚洲女孩,在阳光明媚的林荫道上骑自行车。她皮肤白皙,五官精致,大眼睛,小鼻子,长发自然飘动,穿着白色连衣裙,脸上带着甜美微笑。镜头为中近景,柔和自然光,浅景深,电影感画面,清新唯美风格,人物表情自然,动作流畅,画面高清写实。”
一次两次看,这叫提示词优化,成千上万次都这么补,可不就成流水线了嘛。
所以,在世超修改提示词,对外貌进行一些特征描写以后,右下角的脸明显不一样了。但没有额外环境提示,女生依然骑在林荫道上。
不过,五官精致也分很多种,世界上美女那么多,为什么 AI 认的就这一个?
这就来到了第二层原因,图像、视频模型天生就有审美偏见。
去年一篇发表在《 Nature 》上的论文,就明确地讨论了这个问题。他们在研究中发现,如果你指定一个种族,模型摇出来的脸,个个都像亲兄弟。
这样的审美偏差最开始来自数据,比如大部分人喜欢网红脸,它们自然会被打上美女的标签。模型啥也不懂,反正以后提示美女,往这个方向靠就完事了。
模型在训练过程中,还会进一步放大这种偏见,导致相同的特征提示词,生成的脸越来越像。
另外,视频模型为了关注前后一致性,还可能进一步加剧审美同化。
毕竟视频模型生成的人脸,不光要好看,还要稳,要保证几十帧上百帧,前后左右都像一个人。
所以模型也会天然偏爱那些更容易维持一致性的脸,五官对称,轮廓标准,特征不极端,表情好控制,转头不易崩。
总之,平台喜欢安全漂亮的,用户喜欢短剧网红的,模型喜欢稳定标准的,三边一合计,让大伙儿看吐的脸就诞生了。
说实话,不只是最近广为流传的那张,几乎所有 AI 生成的毫无缺陷的美女,世超都不大喜欢。
来源:小红书 @Alexander
让 AI 脸进入我们的信息流,堪称一次无意促成的大型赛博异化实验。
没有现实对照的脸,在无数网红数据的洗涤蒸馏下诞生。
而当它们挤兑我们刷手机的时间,取代曾经各色各样真人美女的时候,世超感觉相当难受。因为我们对世界的感知,对审美的定义正在被 AI 压迫。
所以,大伙儿反感 AI 脸,一方面也许是那种不真实带来的恐怖谷效应,其实也有对同质化的本能抗拒。
有人说,AI 视频以后应该越来越清晰,越来越细节,越来越像真人,等大家分辨不出来真假的时候,就会喜欢了。
但世超觉得,就算技术能做到真假难辨,我们也无法爱上一张完美假脸,没有灵魂。
撰文:莫莫莫甜甜
编辑:江江 & 面线
美编:素描
图片、资料来源:
《AI-generated faces influence gender stereotypes and racial homogenization 》N AlDahoul
小红书、抖音