美图视觉大模型怎么做 美图视觉大模型再更新 广告、电商等五行业成重点落地方向
美图视觉大模型再次迭代。
10月9日,美图发布了其自研AI视觉大模型MiracleVision3.0版,与现有工作流的结合、在应用场景的实际落地仍是美图发力AI的重点方向。
“目前市面上的大部分视觉大模型都在卷数据量和参数量,但我们认为,衡量能力的标准并非在追求参数指标,而是要抓住应用场景的核心需求,并在商业模式上得到验证。”美图公司创始人、董事长兼首席执行官吴欣鸿表示。
美图视觉大模型至今已迭代了三个版本,据美图公司技术副总裁、美图影像研究院负责人刘洛麒介绍,1.0的目标在于搭建大模型架构,2.0是构建高质量数据集提升美学能力,3.0则更强调模型的可控性,使大模型可以满足用户在细节把控、局部编辑等方面的需求。
从视觉大模型的落地现状来看,在生成效果、结果可控性以及适用范围方面都亟待完善。大中型企业需要考虑AI创作的不可控性所带来的风险;中小微企业对于效果精度要求相对较低,缺少部署的技术能力;个体用户方面也面临着写好提示词等具体的使用门槛。
吴欣鸿将AI视觉大模型在生产端落地方面的待解问题归结为:垂直领域的极致效果、工作流整合、变现能力。三者分别对应模型能力的提升、多人协作中的上下游协同以及模型对商业场景的理解。
3.0版可以视作美图针对上述问题进行的探索。据吴欣鸿所述,MiracleVision的核心能力具备“奇思妙想”和“智能创作”两种特性。
所谓“奇思妙想”,是指大模型可通过“提示词智能联想”功能降低用户使用门槛。当用户输入关键词后,大模型可自动补充相关表述,如光影效果、质感、风格、图片质量等;此外,大模型可通过“提示词精准控制”功能来满足更加专业的设计要求,如使用“近景”、“远景”、“顺光”、“逆光”等描述控制最终生成效果。
在“智能创作”层面,MiracleVision通过“深化创作”功能,可以进一步丰富作品细节和提升表现力;“AI画面扩展”功能则让作品尺寸更大、细节更丰富;“局部修改”功能可对部分画面进行精准修改与调整。此外,“分辨率提升”功能支持生成高清大图,细节表现、色彩展示、物体辨识会更加精准和生动。
积极推动视觉大模型与生产端结合已成为美图的发力重点,电商、广告、游戏、动漫、影视则是其希望先期落地的五大行业。
美图公司集团高级副总裁、影像与设计产品事业群总裁陈剑毅在接受界面新闻等媒体采访时表示,选择行业时会更多地考虑与互联网的相关性,如电商就是互联网的原生行业;其次会观察行业内长尾效应是否明显,长尾性强的会有更多中小玩家,这类客户对生成效果相对不敏感,更利于快速跑通模式,产生商业价值。
在AIGC方面,美图并不回避对商业回报的追求。吴欣鸿此前接受36氪采访时曾表示,对于影像生产力工具而言,月活数据与付费用户数据都重要,但非要二选一的话,付费用户数据更重要,“我们非常需要有造血能力。”
自研大模型的研发投入、算力成本都需要收入的支撑。但以大模型为基础的应用与传统移动互联网应用不同,用户每用一次,厂商都要承担算力成本,用的人越多,需要承担的边际成本也更高。
截至目前,视觉大模型的研发及相关应用的开放并未影响到美图的利润表现。2023年上半年,美图研发投入占总营收比重为23.31%,低于2022年同期的27.34%,毛利率则由去年同期的51.8%增至59.8%。
这与VIP订阅及SaaS相关业务的增长不无关系,此外美图也在尝试以“美豆”为代表的单购模式。与VIP订阅模式相比,按次数付费的单购模式消费门槛更低。
吴欣鸿将单购视作对订阅模式的补充,称未来会以两种模式为基础反复进行策略验证。“订阅方面,未来不排除针对特定行业的专业需求增加更高级别会员的可能,”他强调,“单购模式下的一些生产力场景也可能会有更高的服务价格。”
至于目前美图视觉大模型所处的阶段,吴欣鸿坦言仍在探索期,2024年至2025年会是高速发展期,2026年至2030年为成熟期。“探索期是验证视觉大模型在工作流里支持单任务提效的可行性,明后年效果会逐步精进,有明确的场景、为工作流带来升级。”他相信,进入成熟期时,视觉大模型在生产端的应用会更加完善。
(文章来源:界面新闻)
内容来源:界面新闻