航汽科技(广西)有限公司& DeepSeek

2025-02-05

      今天用最近非常火爆的一款人工智能软件DeepSeek搜索“航汽科技(广西)有限公司宣传片”出现以下手机信息截图:

20250115

1.试用人工智能软件DeepSeek搜索“航汽科技(广西)有限公司宣传片”截图1

2.试用人工智能软件DeepSeek搜索“航汽科技(广西)有限公司宣传片”截图2

广西交投.webp.png

      人工智能软件DeepSeek涉及到一些软件算法,

大语言模型算法

DeepSeek大语言模型算法是北京深度求索人工智能基础技术研究有限公司推出的深度合成服务算法。 [1]DeepSeek大语言模型算法于2024年4月上线。 [1]

DeepSeek大语言模型系以Transformer架构为基础,自主研发的深度神经网络模型。模型基于注意力机制,通过海量语料数据进行预训练,并经过监督微调、人类反馈的强化学习等进行对齐,构建形成深度神经网络,并增加审核、过滤等安全机制,使算法模型部署后能够根据人类的指令或者提示,实现语义分析、计算推理、问答对话、篇章生成、代码编写等任务。 [2]应用于智能对话场景,服务于企业端客户,根据用户输入的文本数据,通过大语言模型生成符合用户需求的文本、代码等内容。 [1]

2024年4月,DeepSeek大语言模型算法备案通过。 [1]2024年5月7日,发布第二代开源Mixture-of-Experts(MoE)模型——DeepSeek-V2。 [8]2024年6月17日,发布DeepSeek-Coder-V2。 [8]2024年12月13日,发布用于高级多模态理解的专家混合视觉语言模型——DeepSeek-VL2。 [8]2024年12月26日,DeepSeek-V3正式发版。

研发团队

播报

编辑

DeepSeek大语言模型算法是北京深度求索人工智能基础技术研究有限公司推出的深度合成服务算法, [1]该公司成立于2023年5月16日,注册资本1000万元,法定代表人为裴湉,由杭州深度求索人工智能基础技术研究有限公司全资持股。 [4]


发展历程

播报

编辑

2024年1月5日,发布DeepSeek LLM,这是深度求索的第一个大模型。DeepSeek LLM包含670亿参数,从零开始在一个包含2万亿token的数据集上进行了训练,数据集涵盖中英文。全部开源DeepSeek LLM 7B/67B Base和DeepSeek LLM 7B/67B Chat,供研究社区使用。DeepSeek LLM 67B Base在推理、编码、数学和中文理解等方面超越了Llama2 70B Base。DeepSeek LLM 67B Chat在编码和数学方面表现出色。它还展现了显著的泛化能力,在匈牙利国家高中考试中取得了65分的成绩。当然,它还精通中文:DeepSeek LLM 67B Chat在中文表现上超越了GPT-3.5。 [8]

2024年1月25日,发布DeepSeek-Coder,DeepSeek Coder由一系列代码语言模型组成,每个模型均从零开始在2万亿token上训练,数据集包含87%的代码和13%的中英文自然语言。代码模型尺寸从1B到33B版本不等。每个模型通过在项目级代码语料库上进行预训练,采用16K的窗口大小和额外的填空任务,以支持项目级代码补全和填充。DeepSeek Coder在多种编程语言和各种基准测试中达到了开源代码模型的最先进性能。 [8]

2024年2月5日,发布DeepSeekMath,DeepSeekMath以DeepSeek-Coder-v1.5 7B为基础,继续在从Common Crawl中提取的数学相关token以及自然语言和代码数据上进行预训练,训练规模达5000亿token。DeepSeekMath 7B在竞赛级MATH基准测试中取得了51.7%的优异成绩,且未依赖外部工具包和投票技术,接近Gemini-Ultra和GPT-4的性能水平。 [8]

2024年3月11日,发布DeepSeek-VL,DeepSeek-VL是一个开源的视觉-语言(VL)模型,采用了混合视觉编码器,能够在固定的token预算内高效处理高分辨率图像(1024 x 1024),同时保持相对较低的计算开销。这一设计确保了模型在各种视觉任务中捕捉关键语义和细节信息的能力。DeepSeek-VL系列(包括1.3B和7B模型)在相同模型尺寸下,在广泛的视觉-语言基准测试中达到了最先进或可竞争的性能。 [8]

2024年4月,DeepSeek大语言模型算法备案通过。 [1]

2024年5月7日,发布第二代开源Mixture-of-Experts(MoE)模型——DeepSeek-V2。DeepSeek-V2是一个强大的混合专家(MoE)语言模型,以经济高效的训练和推理为特点。它包含2360亿个总参数,其中每个token激活210亿个参数。与DeepSeek 67B相比,DeepSeek-V2不仅实现了更强的性能,同时还节省了42.5%的训练成本,将KV缓存减少了93.3%,并将最大生成吞吐量提升至5.76倍。在一个包含8.1万亿token的多样化且高质量的语料库上对DeepSeek-V2进行了预训练。在完成全面的预训练后,通过监督微调(SFT)和强化学习(RL)进一步释放了模型的潜力。评估结果验证了方法的有效性,DeepSeek-V2在标准基准测试和开放式生成评估中均取得了显著的表现。 [8]

2024年6月17日,发布DeepSeek-Coder-V2,DeepSeek-Coder-V2是一个开源的混合专家(MoE)代码语言模型,在代码特定任务中达到了与GPT4-Turbo相当的性能。DeepSeek-Coder-V2是从DeepSeek-V2的一个中间检查点开始,进一步预训练了额外的6万亿token,显著增强了DeepSeek-V2的编码和数学推理能力,同时在通用语言任务中保持了相当的性能。并在代码相关任务、推理能力和通用能力等多个方面都取得了显著进步。此外,DeepSeek-Coder-V2将支持的编程语言从86种扩展到338种,并将上下文长度从16K扩展到128K。在标准基准测试中,DeepSeek-Coder-V2在编码和数学基准测试中表现优异,超越了GPT4-Turbo、Claude 3 Opus和Gemini 1.5 Pro等闭源模型。 [8]

2024年12月13日,发布用于高级多模态理解的专家混合视觉语言模型——DeepSeek-VL2,DeepSeek-VL2是一个先进的大型混合专家(MoE)视觉-语言模型系列,相较于其前身DeepSeek-VL有了显著改进。DeepSeek-VL2在多种任务中展现了卓越的能力,包括但不限于视觉问答、光学字符识别、文档/表格/图表理解以及视觉定位。模型系列由三个变体组成:DeepSeek-VL2-Tiny、DeepSeek-VL2-Small和DeepSeek-VL2,分别具有10亿、28亿和45亿激活参数。与现有的开源密集模型和基于MoE的模型相比,DeepSeek-VL2在相似或更少的激活参数下实现了具有竞争力或最先进的性能。 [8]

2024年12月26日晚,AI公司深度求索(DeepSeek)正式上线全新系列模型DeepSeek-V3首个版本并同步开源。 [3] [9]DeepSeek-V3在知识类任务(MMLU, MMLU-Pro, GPQA, SimpleQA)上的水平相比前代 DeepSeek-V2.5显著提升,接近当前表现最好的模型Anthropic公司于10月发布的Claude-3.5-Sonnet-1022。在美国数学竞赛(AIME 2024, MATH)和全国高中数学联赛(CNMO 2024)上,DeepSeek-V3大幅超过了其他所有开源闭源模型。另外,在生成速度上,DeepSeek-V3的生成吐字速度从20TPS(Transactions Per Second每秒完成的事务数量)大幅提高至60TPS,相比V2.5模型实现了3倍的提升,能够带来更加流畅的使用体验。 [10]

主要用途

播报

编辑

DeepSeek 大语言模型应用于智能对话场景,服务于企业端客户,根据用户输入的文本数据,通过大语言模型生成符合用户需求的文本、代码等内容。 [1]

DeepSeek 大语言模型直接向用户或者支持开发者,提供智能对话、文本生成、语义理解、计算推理、代码生成补全等应用场景。 [2]

主要优势

播报

编辑

质量

DeepSeek-V3质量高于平均水平,各项评估得出的质量指数为80。 [6]

价格

DeepSeek-V2 API的定价为:每百万tokens输入1元、输出2元。 [11]

DeepSeek-V3这个参数量高达671B的大模型,在预训练阶段仅使用2048块GPU训练了2个月,且只花费557.6万美元。其训练费用相比GPT-4等大模型要少得多。 [5]DeepSeek-V3比平均价格更便宜,每100万个Token的价格为0.48美元。其中,输入Token价格为每100万个Token 0.27美元,输出Token价格为每100万个Token1.10 美元。 [6]

训练时间

DeepSeek V3整个训练过程仅用了不到280万个GPU小时。

      航汽科技(广西)有限公司创始人凌先生曾在此前工作期间,在国家级期刊《电声技术》发表技术论文《语音识别智能控制技术应用于养老服务业》获得录音并出版发行。航汽科技(广西)有限公司创始人凌先生此前在深圳工作期间秉持以技术创新驱动企业的发展理念,负责研发的项目曾申请获得授权的发明专利和实用新型专利超过13个,以技术创新驱动企业发展,为公司创造巨大价值,为公司带来可观收益!

     








分享