10月15日,火山引擎在视频云本领大会上发布了大模子考试视频预处理有琢磨,助力处分视频大模子考试的资本、质料和性能等方面的本领挑战。现在,该本领有琢磨已应用于豆包视频生成模子。
火山引擎总裁谭待在举止致辞暗示,在AIGC、等本领的共同鼓励下,用户体验在多个维度上资格着长远鼎新,“基于抖音业求实施和与行业客户共创,火山引擎视频云正积极探索AI大模子与视频本领的深度交融,在本领底座、处理链路和业务增长层面为企业寻找解法。”谭待说。
自研多媒体处理框架BMF ,助力豆包视频生成模子冲突业界艰巨
据先容,对考试视频进行预处理是保险大模子考试恶果的蹙迫前提。预处理经过不错长入视频的数据形状、提高数据质料、结束数据圭臬化、减少数据量以及处理标注信息,从而使模子能更高效地学习视频中的特征和学问,普及考试恶果和效力。
抖音集团视频架构负责东说念主王悦暗示,对大模子厂商而言,上述经过中面对着诸多挑战。
“率先,超大范围视频考试数据集导致策划和处理资本激增,”王悦说,“其次是视频样本数据狼藉不皆,然后是处理链路设施多、工程复杂,终末还面对着对GPU、CPU、ARM等多种异构算力资源的疏通部署。”
图说: 抖音集团视频架构负责东说念主王悦先容火山引擎大模子考试视频预处理有琢磨。
借助Intel的CPU、GPU等不同资源,火山引擎这次发布的大模子考试视频预处理有琢磨依托于自研的多媒体处理框架BMF,能灵验嘱咐模子考试的算力资本挑战。此外,该有琢磨还在算法和工程方面进行了调优,不错对海量视频数据高质料预处理,短时刻内结束处理链路的高效协同,提高模子考试效力。值得一提的是,火山引擎本次还发布并开源了移动端后处理会决有琢磨BMF lite版块。BMF lite支捏端侧大模子接入和算子加快,愈加轻量、通用。
Bytedance Research 负责东说念主李航先容,豆包视频生成模子PixelDance在考试经过中选拔了火山引擎的大模子考试视频预处理有琢磨,充分诳骗了多数潮汐资源,为模子考试提供了有劲辅助。火山引擎视频云团队提供的点播处分有琢磨还为PixelDance分娩的视频提供了从剪辑、上传、转码、分发、播放的全人命周期一站式做事,让模子的贸易化应用有了保险。
据了解,豆包视频生成模子PixelDance于9月24日发布,该模子选拔 DiT 架构,通过高效的DiT交融策划单位和全新设想的扩散模子考试措施,冲突了多主体涌现的复杂交互、多镜头切换的推行一致性艰巨,在业界引起平凡关怀。现在,豆包视频生成模子已通偏执山引擎面向企业开启邀测。
多项“音视频+AI”本领有琢磨,助力企业全链路适配AIGC期间
这次举止中,火山引擎还发布了跨话语同声复刻直播有琢磨、多模态视频理会与生成有琢磨、对话式AI及时交互有琢磨和AIG3D&大场景重建有琢磨,从视频的分娩端、交互端到耗尽端,全链路融入了AI的才智。
火山引擎视频云负责东说念主Yongyuan 指出,在AI视频期间,东说念主和AI交互变得愈加动态和活泼,这条件处理链路愈加智能和交互。
以对话式AI及时交互有琢磨为例,依托豆包大模子和火山引擎视频云自研的多项算法,火山引擎为用户提供了智能对话和的浩大才智,可结束毫秒级东说念主声检测和打断反馈,以及丝滑踏实的端到端反馈体验。
在千里浸式耗尽体验方面,火山引擎通过AI生成3D推行和大场景重建有琢磨,为山西高平二郎庙金代戏台和北京正乙祠两座特等的历史开辟生成了3D数字财富,并以编造直播间的花样应用于抖音的戏吵嘴播场景。
大会上,王悦还浮现了字节自研视频编解码芯片的最新发达,经过抖音集团里面的实施考据,该芯片在同等视频压缩效力下,资本节俭了95%以上,还在2024MSU宇宙编码器大赛中一举夺得最好ASIC编码器。
王悦暗示,该芯片将于近期追究对外洞开测试,招募首批种子用户,共同探索贸易价值的可复制性。
火山引擎视频云团队为字节高出提供音视频本领,并通偏执山引擎做事外部客户。
文/张德帅