全球AI动态精选(2025年12月16日)
今日AI领域呈现多线并进发展态势,大模型持续迭代升级,多模态技术突破不断,应用场景持续拓展。从OpenAI发布GPT-5.2到智谱AI开源GLM-4.6V系列,从谷歌Mixboard升级到蚂蚁推出"阿福"健康助手,AI技术正加速向实用化、专业化方向发展。同时,AI在创意内容生成、语音交互、图像处理等领域的应用日益成熟,为各行业数字化转型注入新动能。
蚂蚁发布"阿福"健康助手App
蚂蚁集团正式推出AI健康助手App"阿福",该应用基于蚂蚁自研的大语言模型技术,提供个性化健康咨询、疾病预防建议、用药提醒等服务。用户可通过自然对话方式获取专业医疗建议,同时支持健康数据追踪与分析。"阿福"App已接入多家三甲医院资源,可提供初步症状分析和就医指导。
"阿福"的推出标志着AI在医疗健康领域的应用进一步深化,有望缓解医疗资源分配不均的问题。蚂蚁计划在未来一年内扩展"阿福"的服务范围,增加慢病管理功能,并与更多医疗机构合作,打造覆盖全生命周期的AI健康管理平台。
OpenAI正式发布GPT-5.2
OpenAI正式发布GPT-5.2模型,相比前代版本,新模型在推理能力、多任务处理和代码生成方面有显著提升。官方数据显示,GPT-5.2在复杂问题解决上的准确率提高了23%,代码生成速度提升了40%,同时支持更长的上下文窗口,最高可达200K tokens。
GPT-5.2的发布将进一步推动AI在专业领域的应用,特别是软件开发、科研分析等复杂任务场景。OpenAI表示,该模型已通过多项安全测试,将逐步向企业用户开放API接口,预计将为各行业带来效率提升,有报告称可帮助职场人士每周减少约10小时工作时间。
谷歌Mixboard重磅升级
谷歌宣布对AI助手Mixboard进行重大升级,新版本增强了多模态交互能力,支持语音、文本、图像等多种输入方式。升级后的Mixboard整合了谷歌最新的Gemini TTS技术,语音交互更加自然流畅,同时新增了跨设备无缝协作功能,可在手机、平板、电脑间同步用户偏好和任务进度。
此次升级反映了谷歌在AI助手领域的战略调整,从单一功能向综合性智能平台转变。谷歌计划在未来半年内,将Mixboard与更多第三方服务集成,打造一站式智能生活助手,进一步巩固其在消费级AI市场的竞争优势。
智谱AI开源GLM-4.6V系列模型
智谱AI正式开源GLM-4.6V系列多模态大模型,该系列包含四个不同规模的模型,参数从7B到110B不等。GLM-4.6V在图像理解、视频生成和跨模态推理方面表现优异,特别是在长视频理解和复杂场景描述任务上达到业界领先水平。
此次开源标志着智谱AI在推动AI技术民主化方面的决心,GLM-4.6V系列的开源将加速AI技术在各行业的创新应用。智谱AI表示,将持续优化模型性能,并计划在未来推出更多针对特定领域的微调版本,以满足不同行业的需求。
阿里Qwen3-TTS语音模型上线
阿里巴巴正式发布Qwen3-TTS语音合成模型,该模型采用最新的自回归架构,支持多语言、多风格的自然语音生成。Qwen3-TTS在中文语音合成质量上达到行业领先水平,情感表达更加丰富自然,同时支持实时语音转换,延迟低至50毫秒。
Qwen3-TTS的推出将提升阿里云语音服务的竞争力,为智能客服、有声内容创作等领域提供更优质的语音解决方案。阿里计划在未来一年内,将该技术整合到更多产品中,包括钉钉、天猫精灵等,打造全方位的语音交互体验。
商汤Seko2.0动画创作工具发布
商汤科技发布AI动画创作工具Seko 2.0,新版本在角色设计、场景生成和动画流畅度方面有显著提升。Seko 2.0支持一键生成高质量动画片段,并新增与专业动画软件的无缝对接功能,大幅降低了动画制作门槛。目前,使用Seko 2.0创作的短剧已登顶抖音AI短剧排行榜首位。
Seko 2.0的发布标志着AI在创意内容生产领域的又一突破,有望改变传统动画制作流程。商汤表示,将持续优化Seko的创意能力和技术表现,计划在2026年推出支持3D动画生成的版本,进一步拓展AI在影视制作中的应用边界。
谷歌深度研究Agent开源获SOTA
谷歌宣布开源其最新研发的深度研究Agent模型,该模型在多项学术基准测试中取得了最先进(SOTA)成绩。该Agent具备自主研究能力,能够理解复杂问题、设计实验方案、分析结果并得出结论,已在材料科学、生物医学等领域展现出强大潜力。
此次开源将加速AI在科研领域的应用,有望改变传统科研模式。谷歌计划与多所顶尖科研机构合作,将该Agent应用于前沿科学问题研究,并将在未来版本中增强其跨学科整合能力,推动科学发现进入智能化新阶段。
可灵AI上线主体库功能
可灵AI平台正式上线主体库功能,允许用户创建、管理和复用AI角色模型。新功能支持个性化角色定制,包括外观设计、性格设定和专业知识配置,用户可一键调用不同角色完成特定任务,极大提升了AI交互的个性化和专业性。
主体库功能的推出反映了AI助手向专业化、场景化发展的趋势。可灵AI表示,未来将开放API接口,允许第三方开发者创建和分享专业角色模型,构建丰富的AI角色生态,满足不同行业和场景的定制化需求。
智谱AI输入法全新发布
智谱AI推出全新智能输入法,该输入法基于自研大语言模型,提供更精准的文本预测、智能纠错和个性化表达建议。新输入法支持多模态输入,包括语音、手写和图像识别,并能根据用户习惯持续优化输入体验,准确率达到行业领先水平。
智谱AI输入法的发布标志着AI技术在日常工具领域的深度应用,有望改变用户与数字设备的交互方式。智谱计划在未来版本中增加跨语言翻译、文档智能摘要等功能,打造全方位的智能输入解决方案,提升用户工作效率。
灵光推科普动画生成功能
灵光平台上线科普动画生成功能,用户只需输入科普文本或概念,AI即可自动生成生动有趣的动画视频。该功能整合了先进的文本理解、视觉生成和动画技术,支持多种风格选择,已在教育、科普领域获得广泛应用。
科普动画生成功能的推出降低了知识创作的门槛,有助于优质科普内容的快速传播。灵光表示,将持续优化动画质量和生成速度,计划在未来增加互动式动画生成能力,进一步提升科普内容的吸引力和教育效果。
蚂蚁推灵光网页版AI助手
蚂蚁集团推出灵光网页版AI助手,该助手基于蚂蚁自研大语言模型,提供智能问答、信息检索和任务协助等功能。网页版灵光支持多场景应用,包括购物决策、旅行规划、学习辅助等,并能与支付宝生态无缝集成,提供一站式智能服务体验。
灵光网页版助手的推出扩展了AI在生活服务领域的应用场景,体现了蚂蚁集团"All in AI"的战略布局。蚂蚁计划在未来进一步整合生态资源,增强灵光的个性化推荐能力,打造更懂用户的智能生活助手。
谷歌Gemini TTS升级支持24种语言
谷歌宣布对Gemini TTS(文本转语音)系统进行重大升级,新版本支持24种语言的语音合成,包括多种小语种。升级后的Gemini TTS在语音自然度、情感表达和口音多样性方面有显著提升,可生成接近人类水平的语音输出。
Gemini TTS的升级反映了谷歌在多语言AI技术上的投入,将进一步消除语言障碍,促进全球信息交流。谷歌计划在未来一年内,将TTS技术整合到更多产品和服务中,包括YouTube、Google Translate等,打造无缝的多语言语音体验。



