2025年12月9日AI前沿情报速递
今日AI领域呈现多模态技术全面突破、开源生态持续繁荣与商业应用加速落地的态势。从多模态大模型开源到AI助手功能升级,从图像生成技术突破到数字人能力提升,各类创新成果不断涌现,同时资本市场对AI企业的认可度持续提升,预示着人工智能产业正迈向更广阔的应用前景。
蚂蚁集团推出灵光网页版AI助手
蚂蚁集团于12月9日正式发布灵光网页版AI助手,该助手基于自研大语言模型开发,具备智能问答、信息检索和内容创作等功能。用户无需下载应用,通过网页即可直接使用,支持多场景交互体验。这一产品标志着蚂蚁集团在AI助手领域的战略布局进一步深化,从移动端向全平台拓展。
灵光网页版的推出将降低用户使用门槛,扩大AI助手覆盖面。业内分析认为,这可能是蚂蚁集团为应对AI助手市场竞争的重要举措,未来或将与支付宝、蚂蚁财富等业务场景深度整合,为用户提供更智能的金融服务体验,同时也将推动AI技术在普惠金融领域的应用落地。
智谱AI开源GLM-4.6V系列多模态大模型
智谱AI于12月9日正式上线并开源GLM-4.6V系列多模态大模型,该模型在图像理解、视觉问答和多模态融合方面表现卓越,参数规模达到业界领先水平。开发者可通过开源社区获取模型权重和训练代码,快速构建基于GLM-4.6V的应用场景。这一举措将进一步丰富国内开源大模型生态。
GLM-4.6V的开源将加速多模态AI技术的普及和创新,降低企业研发门槛。业内专家指出,智谱AI通过开源策略扩大技术影响力,同时吸引更多开发者贡献代码,形成良性循环。未来,该模型有望在智能客服、自动驾驶、医疗影像分析等领域获得广泛应用,推动多模态AI技术在垂直行业的深度落地。
谷歌Mixboard平台重磅升级
谷歌于12月9日对其Mixboard多模态创作平台进行重大升级,新增AI辅助视频剪辑、智能素材推荐和跨平台协作功能。此次升级基于最新的Gemini 3模型,大幅提升了内容创作的效率和质量。Mixboard现已成为全球创作者的首选AI辅助创作工具之一,月活跃用户已突破500万。
此次升级反映了谷歌在AI内容创作领域的战略布局,通过技术优势巩固市场地位。分析师认为,随着AIGC技术的成熟,Mixboard的升级将进一步推动内容创作行业的变革,降低专业内容制作门槛,同时为谷歌在广告和云服务业务带来新的增长点。未来,谷歌或将整合更多AI能力,打造全方位的内容创作生态系统。
阿里云发布Qwen3-TTS语音合成系统
阿里云于12月9日正式上线Qwen3-TTS语音合成系统,该系统在自然度、情感表达和音色多样性方面取得突破,支持多语言和多种场景应用。Qwen3-TTS采用最新的自回归声学模型技术,能够生成接近真人水平的语音,已在阿里云智能语音服务中上线,企业客户可直接调用API。
Qwen3-TTS的推出将提升阿里云在语音服务领域的竞争力,同时为智能客服、有声内容创作、虚拟数字人等应用场景提供更优质的语音解决方案。业内观察人士指出,随着语音合成技术的进步,未来AI语音将更加注重个性化表达和情感交互,阿里云此次升级正是顺应这一趋势,有望在B端市场获得更大份额。
可灵AI推出Avatar 2.0数字人系统
可灵AI于12月9日正式上线Avatar 2.0数字人系统,该系统在表情自然度、动作流畅性和交互能力方面实现重大突破。Avatar 2.0支持实时渲染和云端部署,企业用户可快速创建定制化数字人,应用于直播、客服、教育等多个场景。系统已开放API接口,开发者可轻松集成到现有应用中。
Avatar 2.0的推出标志着数字人技术向更自然、更实用的方向发展。行业分析师认为,随着元宇宙概念的兴起,数字人将成为连接虚拟与现实的重要桥梁,可灵AI此次升级抓住了市场机遇,有望在数字人服务领域占据领先地位。未来,数字人技术将进一步与AR/VR技术融合,创造更沉浸式的用户体验。
谷歌发布Gemini 3 Deep Think模式
谷歌于12月9日发布Gemini 3大模型的Deep Think模式,该模式专为复杂推理任务设计,能够进行深度分析和多步推理,在数学、科学研究和逻辑推理等任务上表现卓越。Deep Think模式采用创新的注意力机制和推理链技术,大幅提升了模型处理复杂问题的能力。
Deep Think模式的推出将推动AI在科研和专业领域的应用,有望加速科学发现和技术创新。技术专家指出,随着AI模型推理能力的提升,未来AI将在药物研发、材料科学、气候变化等复杂问题上发挥更大作用。谷歌此次升级进一步巩固了其在AI基础模型领域的领先地位,同时也为AI与科学研究的深度融合开辟了新路径。
阿里云析言XiYan-SQL夺冠国际评测
阿里云于12月9日宣布,其自然语言转SQL系统XiYan-SQL在最新的国际基准测试中夺冠,准确率超过90%,领先第二名近15个百分点。XiYan-SQL采用创新的预训练-微调范式,支持多种数据库和复杂查询,能够将自然语言精准转换为SQL语句,大幅降低数据分析门槛。
XiYan-SQL的夺冠标志着阿里云在数据库智能领域的技术实力获得国际认可。行业分析师认为,随着企业数字化转型加速,自然语言交互将成为数据分析的主流方式,阿里云此次成果有望在商业智能、金融风控等领域获得广泛应用。未来,该技术或将进一步与云数据库服务深度整合,为企业提供更智能的数据分析解决方案。
Kling 2.6视频生成模型即将发布
国内AI视频生成团队Kling于12月9日宣布,将于下周正式发布Kling 2.6视频生成模型。新版本在动作连贯性、场景一致性和视频质量方面实现显著提升,支持更长时程的视频生成和更复杂的场景理解。Kling 2.6采用创新的时空注意力机制,解决了视频生成中的关键挑战。
Kling 2.6的发布将进一步推动AI视频生成技术的发展,降低视频内容创作的门槛。业内观察人士指出,随着视频生成技术的进步,未来AIGC将在影视制作、广告创意、短视频等领域产生深远影响。Kling团队持续的技术创新,有望帮助中国在AI视频生成领域保持国际竞争力,同时也将为内容创作者提供更强大的工具。
千问APP推出学习大模型并接入万相Wan2.5
阿里巴巴旗下千问APP于12月9日宣布推出专为学习场景设计的大模型,并正式接入万相Wan2.5图像生成模型。学习大模型针对知识问答、解题辅导和学习规划等场景优化,能够提供个性化的学习建议和知识讲解。与万相Wan2.5的整合则增强了千问在图文创作和视觉表达方面的能力。
千问APP此次升级反映了阿里在教育AI领域的战略布局,通过技术创新提升学习体验。教育科技专家认为,AI大模型与教育的深度融合将重塑个性化学习模式,千问学习大模型有望在K12教育和职业培训领域发挥重要作用。未来,该技术或将进一步与钉钉、淘宝教育等阿里生态产品整合,构建全方位的AI教育服务体系。
美团发布LongCat-Image图像生成模型
美团于12月9日发布LongCat-Image图像生成模型,该模型在图像编辑和局部修改能力上登顶开源SOTA榜单。LongCat-Image采用创新的扩散模型架构,支持高分辨率图像生成和精细编辑,已在美团外卖、美团点评等业务场景中应用,提升商品图片展示效果和用户体验。
LongCat-Image的发布展示了美团在AI视觉技术领域的实力,同时也反映了互联网巨头通过技术创新提升核心竞争力的战略。电商分析师指出,高质量的视觉内容对在线平台至关重要,美团此次技术升级有望在餐饮、旅游等垂直领域形成差异化优势。未来,图像生成技术或将进一步与AR、VR技术结合,创造更沉浸式的线上消费体验。
北京发布人工智能产业白皮书
北京市经信局于12月9日正式发布《北京市人工智能产业发展白皮书(2025)》,提出到2027年全市人工智能核心产业规模突破3000亿元的目标。白皮书明确了北京在AI基础研究、产业应用和生态建设方面的重点任务,包括支持大模型研发、推动AI+行业融合、完善算力基础设施等。
该白皮书的发布体现了北京作为全国科技创新中心的战略定位,将为首都AI产业发展提供政策指引。产业观察人士认为,北京在人才、科研和产业基础方面的优势,使其有望成为全国AI创新高地。随着政策的落地实施,北京将进一步吸引AI企业和人才集聚,形成更加完善的产业链和创新生态,同时也将为全国AI产业发展提供可借鉴的经验。
字节跳动发布视频编辑模型Vidi
字节跳动于12月9日发布视频编辑模型Vidi,该模型在自动剪辑、场景识别和内容理解方面表现卓越。Vidi采用多模态融合技术,能够根据视频内容自动生成剪辑方案,大幅提升视频编辑效率。目前,Vidi已在抖音、剪映等产品中应用,帮助创作者快速生成高质量视频内容。
Vidi的发布反映了字节跳动在AIGC领域的技术积累和战略布局,将进一步巩固其在短视频和内容创作领域的优势。行业分析师认为,随着AI视频编辑技术的成熟,内容创作门槛将持续降低,推动全民创作时代的到来。字节跳动通过技术创新提升用户体验,同时也在构建更强大的内容生态,为其广告和电商业务提供支持。
豆包语音识别模型2.0正式上线
字节跳动旗下AI助手豆包于12月9日正式上线语音识别模型2.0,该模型在噪声环境下的识别准确率达到98%,支持多语种和方言识别,响应速度提升40%。豆包语音识别模型2.0采用端到端的训练方法,大幅提升了复杂场景下的语音识别效果,已在豆包APP和抖音等产品中应用。
豆包语音识别模型2.0的上线将提升AI助手在语音交互方面的体验,推动语音交互成为主流的人机交互方式。语音技术专家指出,随着端侧AI能力的提升,未来语音交互将更加注重隐私保护和个性化体验,豆包此次升级正是顺应这一趋势。字节跳动通过技术创新增强产品竞争力,同时也为元宇宙和虚拟现实等新兴场景提供更自然的交互方式。
AutoGLM开源:让每台手机成为AI手机
AutoGLM团队于12月9日宣布开源AutoGLM大模型,该模型专为移动端优化,能够在普通智能手机上高效运行。AutoGLM采用模型压缩和量化技术,参数规模仅为原模型的1/10,但性能保持稳定。开发者可基于AutoGLM快速开发移动端AI应用,无需云端支持即可实现智能交互。
AutoGLM的开源将推动AI技术在移动端的普及,实现"每台手机都是AI手机"的愿景。业内专家认为,随着端侧AI能力的提升,未来AI应用将更加注重隐私保护和离线体验,AutoGLM的开源顺应了这一趋势。该技术的普及将降低AI应用的开发门槛,加速移动端AI生态的繁荣,同时也将为用户带来更智能、更便捷的移动体验。
AI法律科技公司Harvey完成F轮融资
AI法律科技公司



