DeepSeek (深度求索)

DeepSeek（深度求索）是由杭州深度求索人工智能基础技术研究有限公司开发的一系列人工智能模型及相关技术。该公司致力于打造通用人工智能，并在自然语言处理、代码生成、多模态理解等领域取得了显著进展。DeepSeek以其强大的模型性能和开源贡献，在人工智能行业受到了广泛关注。

DeepSeek 最新动态

2025年5月28日，DeepSeek官方宣布其DeepSeek R1模型已完成小版本升级至DeepSeek-R1-0528。

DeepSeek-R1-0528 仍然使用 2024 年 12 月所发布的 DeepSeek V3 Base 模型作为基座，但在后训练过程中投入了更多算力，显著提升了模型的思维深度与推理能力。

更新后的 R1 模型在数学、编程与通用逻辑等多个基准测评中取得了当前国内所有模型中首屈一指的优异成绩，并且在整体表现上已接近其他国际顶尖模型，如 o3 与 Gemini-2.5-Pro。

此次更新显著提升了模型的思考深度和推理能力，在数学、编程及通用逻辑等多个基准测评中表现优异，整体性能已接近国际顶尖模型。新版本在减少“幻觉”、提升创意写作能力以及支持工具调用方面也进行了优化。用户可通过官方网站、App或小程序体验最新版本的“深度思考”功能，API也已同步更新。

DeepSeek 概述

DeepSeek是一家成立于2023年7月的中国人工智能公司，总部位于浙江杭州，创始人为量化对冲基金幻方量化（High-Flyer）的联合创始人梁文锋。DeepSeek专注于大规模语言模型的研发，并推出了一系列模型，包括专注于代码生成的DeepSeek Coder、通用语言模型DeepSeek-LLM系列、多模态模型以及具备强大推理能力的DeepSeek-R1聊天机器人等。其产品和服务广泛应用于自然语言理解、文本创作、编程辅助、学术研究等多个领域。DeepSeek以其技术实力和部分模型的开源策略，迅速在人工智能领域崭露头角。

DeepSeek 历史

2023年7月： 杭州深度求索人工智能基础技术研究有限公司正式成立。
2023年11月2日： DeepSeek发布首个模型DeepSeek Coder，专注于代码生成领域。
2023年11月29日： DeepSeek发布DeepSeek-LLM系列模型，包含不同参数规模的版本，以满足不同应用场景的需求。
2024年9月： DeepSeek发布DeepSeek-V3模型。
2025年1月： DeepSeek推出基于DeepSeek-R1模型的聊天机器人，其强大的对话和推理能力使其迅速获得市场关注，一度在美国等地区的App Store下载量排行榜上名列前茅。
2025年3月25日： DeepSeek宣布对V3模型进行小版本升级（DeepSeek-V3-0324），优化了推理、前端开发、中文写作和中文搜索等能力。
2025年5月28日： DeepSeek宣布DeepSeek R1模型完成小版本升级至DeepSeek-R1-0528，进一步提升了推理能力、减少了幻觉并增强了其他多项功能。

DeepSeek起源

DeepSeek 得到了 High-Flyer Capital Management 的支持，这是一家使用人工智能来指导其交易决策的中国量化对冲基金。

人工智能爱好者梁文峰于 2015 年与他人共同创立了 High-Flyer。据报道，梁文峰在浙江大学读书期间就开始涉足交易，并于 2019 年创立了 High-Flyer Capital Management，这是一家专注于开发和部署人工智能算法的对冲基金。

2023年，High-Flyer 成立了 DeepSeek，作为一家独立于金融业务、致力于研究人工智能工具的实验室。在 High-Flyer 的投资者之一的支持下，该实验室分拆成立了一家名为 DeepSeek 的独立公司。

DeepSeek 版本与模型

DeepSeek推出了一系列不同规模和用途的模型，以适应多样化的需求：

DeepSeek Coder系列： 专注于代码生成和理解的模型，旨在为开发者提供强大的编程辅助。
DeepSeek-LLM系列： 通用大规模语言模型系列，提供了从数十亿到数百亿参数不等的多个版本，平衡了性能和资源消耗。
DeepSeek-V3模型： 一个持续迭代的通用模型，在推理、写作和特定领域知识方面进行了优化。
DeepSeek-R1系列： 强调深度推理能力的模型系列，其聊天机器人版本因出色的逻辑推理和问题解决能力而受到好评。最新版本为DeepSeek-R1-0528。
开源模型： DeepSeek积极拥抱开源，将其部分模型（如DeepSeek Coder和部分DeepSeek-LLM版本，以及DeepSeek-R1-0528）在MIT许可证下开源，允许学术研究和商业应用，极大地促进了AI社区的发展。部分开源模型支持高达128K的上下文长度。
蒸馏模型（如DeepSeek-R1-Distill系列）： 为了满足对资源消耗和响应速度有更高要求的场景，DeepSeek也推出了参数量更小的蒸馏模型。