阿里开源千问3,参数量为DeepSeek-R1三分之一

4月29日凌晨,阿里巴巴开源新一代通义千问模型Qwen3(千问3),参数量为DeepSeek-R1的三分之一,成本大幅下降。据称,该模型性能全面超越R1、OpenAI-o1等领先模型,登顶全球最强开源模型。

千问3是国内首个“混合推理模型”,将“快思考”与“慢思考”集成进同一个模型,对简单需求可低算力“秒回”答案,对复杂问题可多步骤“深度思考”,节省算力消耗。

阿里巴巴表示,千问3系列支持119种语言,并基于近36万亿个token(标记)进行训练,使用的数据量是千问2.5的两倍。

千问3系列包括两个专家混合(MoE)模型和另外六个模型。阿里巴巴开源了两个MoE模型的权重:拥有2350多亿总参数和220多亿激活参数的Qwen3-235B-A22B,以及拥有约300亿总参数和30亿激活参数的小型MoE 模型Qwen3-30B-A3B。

阿里巴巴表示,Qwen3-235B-A22B在代码、数学、通用能力等基准测试中,可媲美DeepSeek-R1、o1、o3-mini、Grok-3和Gemini-2.5-Pro等顶级模型

此外,六个Dense模型也已开源,包括Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B和Qwen3-0.6B,均在Apache 2.0许可下开源。

阿里巴巴表示,千问3代表了该公司在通往通用人工智能(AGI)和超级人工智能(ASI)旅程中的一个重要里程碑。未来,阿里计划从多个维度提升模型,包括优化模型架构和训练方法,以实现扩展数据规模、增加模型大小、延长上下文长度、拓宽模态范围等关键指标

阿里巴巴集团CEO吴泳铭在今年2月的业绩会上表示,阿里集团在AI战略里面的首要目标是AGI(通用人工智能)的实现,可能远远超过现在可见的任何一个应用场景。

阿里巴巴预判如果实现AGI,人工智能相关产业大概率将会是全球最大的产业,有可能影响或者替代现在50%左右的GDP构成。

目前,包括谷歌在内的多家科技巨头推出了开源模型。今年3月,谷歌开源多模态大模型Gemma 3正式发布。这款仅需单块H100 GPU即可运行的27B参数模型,不仅性能对标谷歌闭源大模型Gemini 1.5 Pro,更以“低成本、高性能”的标签重新定义了行业标准。这一举措被业界视为谷歌在开源AI领域的一次重大战略升级。

今年3月底,OpenAI 宣布计划在今年发布自GPT-2以来的首个“开源”语言模型。据媒体报道,OpenAI的开源模型将采用“输入文本,输出文本”的模式,并可能允许开发者自由开启或关闭其“推理”功能。

 

卡尼领导的加拿大自由党在联邦众议院选举中获胜外交部回应

中吉乌铁路重点控制性工程开工建设,包括三座隧道

沪指窄幅震荡 多只银行股创历史新高

特斯拉可能痛失关键市场!纽约州议员提议关闭其所有当地门店

特斯拉美国内华达州Semi工厂预计年内投产首批电动卡车

李在明涉嫌违反《公职选举法》案将于5月1日宣判

“ChatGPT严选”横空出世了,“DeepSeek严选”还要等多久?

涉嫌性侵日本女性,两名驻日美军士兵面临刑事指控!日本民众集会抗议,美驻日大使:将配合调查

为了反制特朗普,欧洲祭出了“豪猪”战略

复星国际:豫园股份一季度归母净利润约5182.74万元 同比减少71.24%

亚马逊将在产品标价旁显示美国关税产生的额外成本

澳大利亚一季度通胀率持稳于四年低点2.4%

美国2月FHFA房价指数环比上涨0.1% 低于预期

这就是上海!

数字中国建设峰会启幕 奇富科技费浩峻详解智能体时代三大要素升级

乌总理:俄方袭击致乌天然气产量损失近50%

特斯拉宣布Semi工厂建成,有望明年量产,价格或大幅上涨

通用汽车拉响警报:尽管Q1盈利超预期,仍撤回业绩指引、冻结股票回购

企业取消“大小周”引热议,半月谈:不能将显性加班变为隐性加班

东方电气公布一季度业绩 归母净利润约11.54亿元同比增长27.39%

<< 上一篇

创业集团控股拟委任久安为新任核数师

下一篇 >>

外交部发布重磅视频:《不跪!》

版权声明

除非注明,文章均由 24小时全国售后服务客服热线-全国官方售后服务点热线号码 整理发布,欢迎转载。

转载请注明本文地址:http://www.qlzijzu.com/post/58045.html

相关文章