全网免费中文无码字幕,国产99久9在线视频 ,亚洲成av片在线播放,欧美日韩国产成人一区二区

国内首个对标o1的推理模型发布:DeepSeek-R1-Lite初体验!

国内首个对标o1的推理模型发布:DeepSeek-R1-Lite初体验!

cairenqiu 2025-02-16 热点新闻 6 次浏览 0个评论

大家好,我是木易,一个持续关注AI领域的互联网技术产品经理,国内Top2本科,美国Top10 CS研究生,MBA。我坚信AI是普通人变强的“外挂”,专注于分享AI全维度知识,包括但不限于AI科普AI工具测评AI效率提升AI行业洞察。关注我,AI之路不迷路,2024我们一起变强。

2024年9月12日,OpenAI的首个推理模型重磅发布。从该模型的命名也可以看出,走的路和GPT系列模型不是同一条,否则它就应该被命名为了。

推理模型的推理二字,是指模型在回答问题前会主动思考,将一个复杂问题拆解为多个子问题,逐个击破,再生成最终答案。这种方式和我们人类解决难题的过程是一样的,回想如果我们面对一道数学难题,是不是也是同样的思路,先思考,然后一步步解答。这个思考过程被称为内部思维链(internal chain of thought)。关于思维链更详细的介绍,可以看我这篇文章:《》。

模型经过了思维链的加持后,在物理、化学和生物学等复杂学科的高难度基准任务上,表现几乎与博士生相当。在数学编码领域则更加出色。在国际数学奥林匹克(IMO)资格考试中,模型的正确率达到了惊人的83%,作为对比,的正确率为13%。在Codeforces编程竞赛中,的表现达到了第89百分位(即表现超过了89%的评估对象,排名前11%)。

在接下来的几个月里,国内的不少AI公司也在纷纷尝试,但更多的是在应用方面,如Kimi、智谱、天工和360的推理型AI搜索。单就推理模型而言,除了上周月之暗面(Kimi)官宣的数学推理模型,并没有太多的更新。但由于还处于PPT阶段,并未真正开放使用,真实体验如何还未可知。

然而,今天文章的主角并不是月之暗面的,而是DeepSeek(中文名:深度求索)的。和的宣传预热阶段不同,是已经切切实实发布了的对标的国产推理模型。

DeepSeek由知名量化私募幻方量化于2023年成立的AI初创公司,专注于开发通用人工智能(AGI)底层模型和技术。DeepSeek的产品和技术以开源为主,包括多个百亿级参数的模型,如、,以及混合专家模型(MoE)和。值得一提的是,该公司以高性价比和性能著称,被称为“AI界的拼多多”。比如,的API定价为每百万Tokens输入1元、输出2元。

在LMSYS聊天机器人竞技场排名榜中,目前模型综合排名为22名。

是DeepSeek于2024年11月20日发布的推理模型,目前已经发布的为预览版(和OpenAI的一样)。根据DeepSeek官方介绍,R1系列模型使用强化学习训练,推理过程包含大量反思和验证,思维链长度可达数万字。该系列模型在数学、代码以及各种复杂逻辑推理任务上,取得了媲美的推理效果,并为用户展现了没有公开的完整思考过程。

下面是DeepSeek官方放出的基准测试对比图。

目前在DeepSeek官网上免费可用,每用户每天使用数量限制为50次。在这里不得不吐槽Kimi探索版,每人每天只能用5次,我做个测试还得分几天才能测试完。

DeepSeek官网:https://chat.deepseek.com/

国内首个对标o1的推理模型发布:DeepSeek-R1-Lite初体验!另外需要指出的是,和一样,也是个纯文本模型,目前不支持解析文件。

1. 几何推理

一个圆的半径为10,在其内部随机选择两点,计算这两点之间的平均距离。

先上结果。这道需要用到积分的题目结果完全正确。

附上长达61秒的思考过程。

2. 组合数学

一个班有12名男生和10名女生,要从中选出6人组成一个小组,要求至少有2名女生,问有多少种不同的选法?

19秒就得到了答案65769,完全正确。并且还附上了一个反向思考的验证过程,有点厉害。

3. 逻辑推理

观察以下数列,推断规律并预测下一个数字:2,6,15,31,56

这道题目,相邻数字的差值为递增的平方数4,9,16,25。所以下一个数字应该是56加36,92。回答正确。

4. 真假话推理

三个囚犯 A、B 和 C,分别戴着红帽或蓝帽(但无法看到自己的帽子)。守卫说:“至少有一个囚犯戴着红帽?!?A 说:“我不知道我的帽子颜色?!?B 说:“我也不知道?!?C 说:“我知道了?!?问 C 的帽子是什么颜色?

总算有一道题难倒了,回答错误。这道题其实可以简单思考,只有A蓝B蓝的情况下,C才能根据“至少有一个红帽”来断定自己的帽子颜色。所以C应该是红色。

经过检查的思维链,我发现它把自己绕进去了,直到最后也没能绕出来,属于“过度思考”了。

作为对比,附上的答案。

在测试过程中,我还遇到了中英文思考、输出混乱的问题。但综合来看,已经展现出了一个推理模型应有的推理能力,并且还是免费使用,值得尝试。



都读到这里了,点个赞鼓励一下吧,小手一赞,年薪百万!😊👍👍👍。关注我,AI之路不迷路,原创技术文章第一时间推送🤖。

转载请注明来自石家庄天鲲化工设备有限公司 ,本文标题:《国内首个对标o1的推理模型发布:DeepSeek-R1-Lite初体验!》

百度分享代码,如果开启HTTPS请参考李洋个人博客
每一天,每一秒,你所做的决定都会改变你的人生!

发表评论

快捷回复:

验证码

评论列表 (暂无评论,6人围观)参与讨论

还没有评论,来说两句吧...

Top
 最新麻雀机  情场最新套路  最新江阴发布  最新疫情溯源  买房政策最新  病情最新通知  盾娘最新  绍兴最新通知  最新清明放假  罗马最新战况  开创国际最新  妞儿解说最新  最新病菌症状  最新封路通路  天津瘸子最新  原油最新价钱  阿骨朵最新  宋 最新来  幻影分身最新  各国最新灾情  明星最新图库  最新各部部  最新复工规定  最新荣耀新机  苍溪最新公告  政府最新广告  早晨最新图片  最新同名库  疫情最新重庆  头发造型最新 
武城县| 依兰县| 沛县| 阿拉善右旗| 都江堰市| 稻城县| 扶绥县| 常宁市| 日照市| 枣强县| 城固县| 平武县| 勃利县| 克拉玛依市| 中西区| 贺州市| 河曲县| 聂荣县| 林州市| 甘德县| 济阳县| 屏边| 永丰县| 环江| 凌云县| 英吉沙县| 常宁市| 古交市| 将乐县| 德钦县| 马山县| 曲水县| 太原市| 齐河县| 湄潭县| 北京市| 靖江市| 鄱阳县| 潮安县| 温泉县| 翼城县|