更新时间:2026-02-14 16:07 来源:牛马见闻
因为 AI 视频再真家长接到孩子被绑的 AI 视频成的 AI 视频在实时反馈面前露馅
<p id="4AMLSK90"> Seedance 2.0 作为[一款?高保真 AI 视频生成技术,最近火出了圈,引发广泛关注。它不仅能“以假乱真”地生成人脸、表情甚至微动作,还能通过一段语音或文字指令直接生成逼真视频,不再依赖原始素材。</p> <p id="4AMLSK91"> 这种技术虽然在影视、游戏等领域潜力巨大,但也带来了前所未有的安全风险——比如冒充亲人视频诈骗、伪造企业高管指令转账,甚至干扰司法取证。</p> <p id="4AMLSK92"> 一位观察者网用户的新闻评论获得高赞:“我今天了解过Seedance 2.0的能力后,已经决定趁过年给家里长辈科普一下,重点提醒以后涉及资产的都必须直接通话确认,还得考虑额外的安全措施。”</p> <p id="4AMLSK93"> 面对这样的“真假难辨”时代,普通人该如何防范?安防系统又该如何升级?观察者网心智观察所日前对话了视觉数据安全技术与应用浙江省工程研究中心主任、杭州电子科技大学周迪教授,请这位业内专家聊聊这场正在发生的“AI攻防战”。</p> <p class="f_center"> <br></p> <p id="4AMLSK95"> <strong>问:您怎么看待像 Seedance 2.0 这种高保真 AI 视频生成技术?它跟以前的 Deepfake 比,到底突破了什么?</strong></p> <p id="4AMLSK96"> <strong>周迪:</strong>我觉得 Seedance 2.0 这类技术的出现,标志着视觉生成从“能生成”迈进了“高度逼真且可控”的新阶段。在我看来,这绝不只是分辨率从 1080P 升到 4K、帧率更高那么简单,更关键的是,它开始真正理解物理世界了——能模拟光线在皮肤上的反射、肌肉随表情的微动、头发丝的飘动,而不仅仅是像素的位移。</p> <p id="4AMLSK97"> 它跟传统 Deepfake 的突破,我认为主要体现在三个方面。一是从“外观模仿”升级到“语义与物理理解”。以前的换脸就是把 A 的脸贴到 B 脸上,一转头、一遮挡立刻穿模;现在它能处理复杂光影、遮挡和长视频一致性,不会闪烁抖动。二是分辨率达到电影级,细节真实到皮肤纹理、血管瑕疵都能还原,直接可以拿去专业影视制作。三是实现了从“被动依赖驱动视频”到“可控生成”的跨越——用文字或音频就能生成人物的表情动作,身份与场景可以自由分离。总而言之,它把 Deepfake 在物理一致性、清晰度和创作自由度上的天花板全捅破了。</p> <p id="4AMLSK98"> <strong>问:当前主流的视频监控和身份认证系统,是否已具备识别此类 AI 生成内容的能力?</strong></p> <p id="4AMLSK99"> <strong>周迪:</strong>坦率地说,主流系统根本没跟上。身份认证这边,我认为带 3D 结构光或红外摄像头的系统目前还能守住防线,因为 AI 视频再真也是平面的,过不了深度检测,红外下也模拟不出真人的眼球反射。但纯软件的 2D 认证,比如笔记本摄像头、部分 App 的活体检测,面对 Seedance 2.0 生成的高保真动态视频,基本一骗一个准——传统依赖眨眼、转头、摩尔纹的防御手段已经形同虚设。</p> <p id="4AMLSK9A"> 视频监控就更被动了。在我看来,监控系统连算力都不够,成千上万路视频流里实时跑深度伪造检测大模型,目前根本不现实。而且它本来就是为抓拍真实人脸设计的,看到太真的假脸反而会当真人去追踪。更麻烦的是生成技术迭代太快,今天训练好的检测器,明天新模型一出来就可能直接失效,而安防硬件更新周期长达数年,代差非常明显。所以我的判断是:带硬件的身份认证还能扛,纯软件已岌岌可危,监控系统基本是裸奔状态。</p> <p id="4AMLSK9B"> <strong>问:在您看来,AI 视频“以假乱真”对公共安全、金融交易、门禁系统等场景构成了哪些具体风险?</strong></p> <p id="4AMLSK9C"> <strong>周迪:</strong>在我看来,风险已经从数字世界渗透到物理世界了,而且非常具体。公共安全层面,犯罪分子可以用 Seedance 2.0 伪造不在场证明、篡改监控录像,司法取证成本会暴增;还能伪造公众人物发表煽动性言论,一条假视频就足以引发股市震荡、社会骚乱。金融领域,黑产用 AI 生成点头、眨眼的动态视频骗过银行远程开户的活体检测,批量开幽灵账户洗钱;还有假冒 CEO 视频指令让财务紧急转账,这类案件已经有数百万美元的真实损失。</p> <p id="4AMLSK9D"> 门禁系统的风险我更担心。那些依赖 2D 摄像头的闸机和智能门锁,用平板播一段高仿真 AI 动态视频就能轻松骗开。最可怕的是虚拟绑架——犯罪分子从社交媒体扒几张孩子的照片和视频,用 AI 生成被绑的画面,家长在极度恐慌中根本来不及核实就直接付赎金。还有一个隐晦但致命的后果:当所有人都知道视频可以随意伪造,哪怕面对真实的监控证据,第一反应也是怀疑。这种系统性信任的瘫痪,会让社会运转效率整体下降,我觉得这才是最棘手的。</p> <p id="4AMLSK9E"> <strong>问:是否已有真实案例表明这类技术被用于欺诈、冒充或社会工程攻击?</strong></p> <p id="4AMLSK9F"> <strong>周迪:</strong>不仅有,而且案例数量、攻击复杂程度和经济损失都在指数级上升。目前金额最大、也最能说明问题的是 2024 年香港那起案件——一家跨国公司员工参加了“首席财务官”发起的视频会议,屏幕上所有参会者都是 AI 生成的,声音、表情、闲聊互动跟真人一模一样,结果员工被骗转出 2 亿港元。这在我看就是典型的“超级社会工程学”攻击,视觉听觉双重确认反而成了心理陷阱。</p> <p id="4AMLSK9G"> 北美华人社区频发的虚拟绑架案也是铁证。家长接到孩子被绑的 AI 视频,实际上孩子根本没被绑,只是社交媒体的素材被换脸换声。黑产论坛上,用 AI 生成动态视频绕过加密货币交易所 KYC 认证已经是一条成熟产业链。商业间谍冒充猎头发伪造视频会议,套取公司机密;政治层面,五角大楼爆炸假图一度让美股跳水,美国大选也出现了伪造候选人号召不投票的广告。这些案例足以证明,类似 Seedance 2.0 的技术早就从实验室进入了犯罪工具箱。</p> <p id="4AMLSK9H"> <strong>问:当前基于人脸识别、活体检测的安防系统,在面对高仿真 AI 视频时存在哪些技术盲区?</strong></p> <p id="4AMLSK9I"> <strong>周迪:</strong>我认为盲区主要集中在六个方面。</p> <p id="4AMLSK9J"> 第一,传统检测依赖的摩尔纹、屏幕边框这些“屏幕回放”特征,在数字信号直接注入或高分辨率播放下完全消失,系统连屏幕边缘都找不着。</p> <p id="4AMLSK9K"> 第二,AI 已经学会模拟人眼光学反射和皮肤透光感,以前靠角膜反光点形状、皮肤质感判断真假,现在这条路基本堵死了。</p> <p id="4AMLSK9L"> 第三,生成视频的帧率、运动模糊可以和真实摄像头完全一致,频域、时域特征趋同,老方法直接失效。</p> <p id="4AMLSK9M"> 第四,2D 算法靠阴影、遮挡估算深度,AI 能完美渲染这些视觉线索,让系统误以为平面有立体深度——它骗的不是硬件,是算法。</p> <p id="4AMLSK9N"> 第五,最新的生成模型甚至能模拟心跳引起的肤色微变,虽然还做不到完美,但骗过商用 rPPG 检测已经足够了。</p> <p id="4AMLSK9O"> 第六,绝大多数摄像头是被动的,只会录像不会交互,而 AI 视频是单向生成的,只要系统不发随机指令、不主动打光,它就永远没有破绽。所以我的结论是:用图像算法去解决物理真实性问题,硬件不升级,盲区就永远堵不上。</p> <p id="4AMLSK9P"> <strong>问:单一模态(如仅靠视觉)的身份验证是否已不再可靠?多模态融合(如声纹+人脸+行为)是否是必然方向?</strong></p> <p id="4AMLSK9Q"> <strong>周迪:</strong>是的,单一视觉模态在我看已经靠不住了。本质上是“模式匹配”被“像素伪造”正面硬刚——生成器可以通过对抗训练,让假脸的像素特征无限逼近真脸,直到骗过验证器。而且造假成本越来越低,防御成本却指数级上升,这场仗防御方天然被动。</p> <p id="4AMLSK9R"> 多模态融合我认为是必然出路,也是唯一的生存之道。核心逻辑就是增加攻击难度:视觉加声纹可以做唇语同步校验,口型和声音对不上立刻露馅;生理信号如 rPPG 检测心跳,这是真实生理过程,AI 很难实时模拟出混沌特征;硬件模态如 3D 结构光、红外是物理降维打击,2D 屏幕伪造过不了深度和光谱检测。多模态验证的本质,是从“你长得像”变成“一系列逻辑链条同时成立”——长得像他、声音像他、心跳对得上、瞳孔有反应、唇形和声音同步。这些条件同时成立的概率,在数学上排除了伪造的可能。所以未来高安全场景,单一视觉就等于没有安全,这不是选择,是生存问题。</p> <p id="4AMLSK9S"> <strong>问:传统活体检测(眨眼、转头等)是否还能有效抵御新一代 AI 视频?是否有更鲁棒的动态行为或生理信号可作为判别依据?</strong></p> <p id="4AMLSK9T"> <strong>周迪:</strong>传统眨眼、转头这类配合式动作,面对 Seedance 2.0 我认为基本失效了——生成成本极低,效果足以骗过绝大多数基于图像特征的检测系统。攻击者要的只是一段符合指令的动态视频,而这类视频现在可以批量生产。</p> <p id="4AMLSK9U"> 更鲁棒的判据,我认为必须往“非受控信号”走。比如 rPPG 检测心跳引起的肤色微变,这是真实的生理节律,AI 很难实时模拟出那种不规则的混沌特征。还有无意识的微表情、注视点的自然漂移,以及系统主动发起的环境挑战——突然变光看瞳孔是否收缩、突然发声看视线是否转移。这些观察的不是“用户做了什么”,而是“用户控制不了不做什么”。这才是新一代活体检测的真正方向。</p> <p id="4AMLSK9V"> <strong>问:目前有哪些前沿技术可用于检测 AI 生成视频?它们在实时监控场景中的可行性如何?</strong></p> <p id="4AMLSKA0"> <strong>周迪:</strong>前沿技术主要有几类:频域时序分析,找生成模型遗留的物理规律破绽;rPPG 生理信号检测;数字水印与元数据验证;以及训练专用的对抗检测网络。但说实话,放到实时监控场景,落地难度非常大。</p> <p id="4AMLSKA1"> 核心瓶颈我认为有三条:一是算力,边缘设备跑不起大模型;二是延迟,云端来回几百毫秒,攻击已经完成;三是泛化,生成模型一迭代,旧检测器立刻失灵。目前实时监控基本不具备大规模部署条件,这些技术更多还是用在事后取证和司法鉴定。我自己的判断是,未来很长一段时间,实时场景还得靠硬件升级和交互挑战来顶,纯算法的被动检测很难追得上生成技术的迭代速度。</p> <p id="4AMLSKA2"> <strong>问:能否通过视频元数据、设备指纹或网络传输特征辅助判断视频真实性?</strong></p> <p id="4AMLSKA3"> <strong>周迪:</strong>可以,这些维度是我认为很重要的辅助手段。元数据分析可以发现设备信息缺失、编辑历史矛盾;设备指纹——传感器模式噪声——像相机的独有指纹,能验证视频是否来自声称的设备;网络传输特征——实时流的包间隔、码率波动——和预制文件推送有明显差异。这些方法在司法鉴定、内部审计场景非常有价值。</p> <p id="4AMLSKA4"> 但问题在于,攻击者也可以伪造元数据、抹掉设备指纹、模拟传输特征。所以我认为它们只能作为辅助判据,在实时验证场景还难以成为独立防线。未来更可行的路径是多维度交叉验证——元数据、设备指纹、内容特征、生理信号一起看,单一维度的破绽容易被补上,多个维度同时伪造难度就大多了。</p> <p id="4AMLSKA5"> <strong>问:安防系统应如何重构以应对 AI 欺骗?是否需要引入“零信任”架构或持续身份验证机制?</strong></p> <p id="4AMLSKA6"> <strong>周迪:</strong>必须重构,我认为核心就是“零信任”和“持续身份验证”。零信任意味着不再默认“通过门禁就可信”,每一次资源访问都要实时验证;权限极度碎片化——即使攻击者伪造了 CEO 的脸骗过门禁,没有硬件令牌也进不了服务器机房。持续身份验证要求系统在用户操作全程,无感采集行为特征、微表情、环境信息,不断比对,而不是进门刷一次脸就完事。</p> <p id="4AMLSKA7"> 技术栈上,我认为必须引入硬件级多因素认证,比如 U 盾、NFC 卡、手机 TEE,让 AI 无法模拟物理凭证。交互上要增加随机挑战-应答——突然打光、随机指令,让单向生成的 AI 视频在实时反馈面前露馅。一句话,抛弃“照片即身份”的旧思维,建立“数据+行为+硬件”三位一体的动态防线。这不是升级,是推倒重来。</p> <p id="4AMLSKA8"> <strong>问:边缘计算与端侧 AI 在提升响应速度与隐私保护方面能发挥什么作用?</strong></p> <p id="4AMLSKA9"> <strong>周迪:</strong>我认为边缘计算和端侧 AI 是应对 AI 欺骗的“守门员”。响应速度上,本地跑轻量模型可以做到毫秒级阻断攻击,云端来回几百毫秒,攻击者已经得手了。隐私保护上,原始人脸数据不出设备,只上传加密特征向量,黑客截获了也还原不出原图;还能在本地打马赛克,合规又安全。</p> <p id="4AMLSKAA"> 离线韧性也是我看重的优势——断网也能独立运行活体检测,不会因为网络攻击整个防线瘫痪。当然,端侧算力有限,模型必须压缩,精度可能略逊云端大模型。所以我认为未来的架构一定是端云协同:端侧粗筛掉 90% 的低级攻击,可疑样本再加密上传云端做深度分析。把智能下沉到边缘,是保护隐私、提升响应速度的必经之路。</p> <p class="f_center"> <br></p> <p id="4AMLSKAC"> 即梦运营发布通知称Seedance2.0暂停真人素材作为主体参考</p> <p id="4AMLSKAD"> <strong>问:您认为是否需要建立 AI 生成内容的强制标识制度?谁应负责制定相关技术标准?</strong></p> <p id="4AMLSKAE"> <strong>周迪:</strong>我认为非常必要,这是维持数字社会信任的最后一道防线。强制标识能从源头改变博弈格局——没有水印默认是真,极大降低验证成本,避免社会滑进“什么都不信”的虚无主义。这不是技术问题,是制度生存问题。</p> <p id="4AMLSKAF"> 标准制定我主张多元共治。政府定法律底线,明确什么必须标识、不标识的后果;国际标准化组织如 IEEE、ISO 牵头统一协议,避免不同平台水印互不识别;技术公司负责在模型底层强制嵌入符合 C2PA 标准的不可见水印,硬件厂商在芯片级支持水印生成。挑战是水印必须足够“顽固”——截图、压缩、录屏都不掉,还要人眼看不见。这就像食品配料表,AI 时代,“生成方式”是数字内容的必要属性,不能让步。</p> <p id="4AMLSKAG"> <strong>问:现有法律法规是否足以应对深度伪造带来的新型安全问题?</strong></p> <p id="4AMLSKAH"> <strong>周迪:</strong>坦率说,现有法律在全球范围内都明显滞后。我认为问题集中在五个方面。</p> <p id="4AMLSKAI"> 一是定义难——混合人格侵犯了谁的肖像权?已故人物“AI 复活”权利归属?现行法没覆盖。</p> <p id="4AMLSKAJ"> 二是取证难——鉴定高保真伪造成本极高,普通受害者维权成本远超赔偿;证伪比证真难,举证责任倒置尚无先例。</p> <p id="4AMLSKAK"> 三是量刑难——套用诈骗、传播淫秽物品罪量刑偏轻,缺乏“滥用深度合成”独立罪名,震慑力不够。</p> <p id="4AMLSKAL"> 四是管辖难——服务器设在监管薄弱国家,匿名币支付,国内法律鞭长莫及。</p> <p id="4AMLSKAM"> 五是平台责任——避风港原则面对实时生成内容形同虚设,加重审查义务又涉隐私。中国虽然已有《深度合成规定》《生成式 AI 办法》等先行规章,但层级较低,刑法层面仍需补课。</p> <p id="4AMLSKAN"> 我自己的判断是,未来必须“生成即标识”入法、增设专门罪名、加强国际协作,才能与技术攻防形成合力,否则法律永远追着技术跑。</p> <p id="4AMLSKAO"> <strong>问:安防厂商、AI模型开发者、云服务商、终端用户之间应如何协作构建“防伪生态”?</strong></p> <p id="4AMLSKAP"> <strong>周迪:</strong>防伪生态是典型的木桶效应,我认为哪块板短都漏水。AI 开发者是源头管控者,必须在模型输出端强制嵌入符合 C2PA 标准的不可见水印,并开放鉴别接口给安防厂商。这不是可选项,是责任。安防厂商是智能守门人,要升级算法读取水印,融合多模态信号,部署主动挑战-应答,不能只靠被动检测。</p> <p id="4AMLSKAQ"> 云服务商是信任传递者,提供加密传输、区块链溯源、大模型深度鉴定服务,并实时同步威胁情报。终端用户是最终把关人,主动启用多因素认证、响应随机指令,并反馈异常样本。只有四方数据流动、标准统一——从源头打标、门禁验货、云端背书到用户核准形成闭环,技术对抗才能升级为生态对抗。单点防御的时代已经过去了。</p> <p id="4AMLSKAR"> <strong>问:您预计未来 3--5 年,AI 伪造与检测技术将呈现怎样的“军备竞赛”态势?是否存在“终极解决方案”,还是我们必须接受一定程度的风险共存?</strong></p> <p id="4AMLSKAS"> <strong>周迪:</strong>我认为未来 3 到 5 年是高强度动态僵持期,而且不存在终极解决方案,我们必须学会与风险共存。军备竞赛会呈现三大态势:一是从视觉欺骗升级为全感官欺骗,3D 深度、生理信号、触觉反馈都可能被伪造;二是从对抗生成升级为对抗蒸馏,生成器会消除所有已知检测特征,并转向“真假参半”的编辑型攻击——改个车牌号、删掉一个人,比凭空造假更难防;三是从技术对抗演变为算力消耗战——造假几美分,鉴真几美元,防御方成本倒挂。</p> <p id="4AMLSKAT"> 为什么不存终极方案?在我看来,哲学上完美模拟即真实,真假定义本身会模糊;硬件可被模拟或篡改;攻防不对称性注定防御永远被动。所以我们只能转向概率信任,给内容打可信度评分,高风险操作强制链下多重验证。就像我们学会与病毒共存、与网络黑客共存一样,这不是妥协,是成熟。</p> <p id="4AMLSKAU"> <strong>问:普通用户和企业应如何提高警惕?在关键身份验证环节应采取哪些额外防护措施?</strong></p> <p id="4AMLSKAV"> <strong>周迪:</strong>普通用户,我认为必须建立“数字怀疑论”——打破眼见为实。警惕紧急情绪逼迫转账的场景;观察口型同步、眨眼频率、边缘细节这些 AI 硬伤;反向搜图验明正身。社交媒体少发高分辨率正脸照片,关闭定位,切断数据原料。这不是过度紧张,是防身。</p> <p id="4AMLSKB0"> 企业要靠流程防火墙。财务指令必须双重确认——视频指令再真,也得挂断打已知号码核实;大额转账双人复核。硬件上升级 3D 结构光、红外终端,网络走专线。关键验证环节,我特别强调三件套:一是非受控交互,比如随机指令“用手遮嘴”“快速转头”,AI 实时生成难度极高;二是多因子叠加,U 盾、硬件令牌、手机 OTP 加语音回访,物理硬件 AI 伪造不了;三是环境挑战,系统主动频闪补光,真人瞳孔会缩,屏幕视频没反应。最后,全程录像存证。慢下来——多一分钟电话确认,99% 的 AI 攻击当场失效。</p> <p class="f_center"> <br></p> <p id="4AMLSKB2"> <strong>本文系观察者网独家稿件,文章内容纯属作者个人观点,不代表平台观点,未经授权,不得转载,否则将追究法律责任。关注观察者网微信guanchacn,每日阅读趣味文章。</strong></p>
Copyright ® 版权 所有:吉林日报
违法和不良信息举报邮箱:dajilinwang@163.com 违法和不良信息举报: 0431-88600010
ICP备案号:吉ICP备18006035号 网络经营许可证号:吉B-2-4-20100020
地址:长春市高新技术产业开发区火炬路1518号 爆料电话:0431-88601901