转载本文请注明出处:https://yudonglee.me/deepseek-llm-explained/ | 作者:yudonglee 本文是 DeepSeek 论文专题系列的第 1 篇,详解 DeepSeek 公司 2024 年 1 月发表的开山之作 DeepSeek LLM: Scaling Open-Source Language Models with Longtermism (arXiv:2401.02954)。这篇论文本身的架构创新有限——它沿用了 LLaMA 的 pre-norm Transformer 设计——但其真正价值在于:(1) 是 DeepSeek 公司”长期主义”工程哲学的第一份公开声明;(2) 在 Kaplan (2020) 与 Chinchilla (2022) 已有的 Scaling Law… Continue Reading →
![]()
转载本文请注明出处:https://yudonglee.me/deepseek-roadmap/ | 作者:yudonglee 本文是 DeepSeek 论文专题系列的序章。我把 DeepSeek 从 2024 年 1 月到 2026 年 4 月发表的 30+ 篇 paper 按四条主线和五大技术创新串成一个完整脉络。读完这一篇,你应该可以——把 DeepSeek LLM、MoE、Math、V2、V3、R1、V3.2、V4 这些名字之间的关系全部理清;说出 MLA、GRPO、Auxiliary-Loss-Free、FP8 训练、mHC 这些技术分别诞生在哪一篇论文、解决了什么问题;理解为什么 V4 不只是 V3 的规模升级,而是在底层范式上与之存在本质差异的新一代模型。 引言:DeepSeek 现象到底是什么 在过去两年半最具影响力的中国 AI 公司中,DeepSeek 是一个无法绕开的名字。 先把基本数据摆出来: 论文产出:2024-01 到 2026-04,30+… Continue Reading →
本文是一篇详细的 voice agent 工程实战指南:经典 VAD+ASR+LLM+TTS 五件套架构的延迟拆解、turn detection 与 barge-in 的工程难点、GPT-4o Realtime / Moshi 端到端方案、LiveKit/Pipecat/Vapi/Retell 框架对比、2026 路线选型决策树。语音技术深度系列第 15 篇——真正的收官篇。
![]()
本文是「语音技术深度系列」的顶层综述:Speech LLM 三大范式(Speech-In / Speech-Out / End-to-End Speech-to-Speech)分类法、Qwen2-Audio / VALL-E / Moshi / GPT-4o 等核心模型对比、开源 vs 闭源生态、2022-2026 完整时间线、收敛趋势与未来预测。语音技术深度系列第 14 篇(阶段性收官篇)。
![]()
本文是一篇详细的 Neural Audio Codec 技术拆解:从 RVQ-VAE 数学骨架、SoundStream 开山之作、Encodec 工业化标准、DAC 高保真、Mimi 流式 + 12.5 Hz 革命,到与 TTS / 语音 LLM 的集成、PyTorch 代码与 2024 单 codebook 趋势。TTS 系列第 5 篇。
![]()
本文是一篇详细的 F5-TTS / E2-TTS 技术拆解:从 Conditional Flow Matching 数学基础、E2-TTS 音频填空训练范式、F5-TTS 的 ConvNeXt 文本编码器与 Sway Sampling 推理技巧,到完整 PyTorch 调用、性能对比表与 VALL-E / CosyVoice 2 三路线终极比较。TTS 系列第 4 篇,Bitter Lesson 在 TTS 的胜利。
![]()
本文是一篇详细的 CosyVoice 2 技术拆解:从监督式语义 token 替代 Encodec 的设计哲学、Qwen2.5-0.5B AR LM、Conditional Flow Matching decoder、HiFi-GAN vocoder、chunk-aware 流式合成(150ms FTL),到 SEED-TTS 性能对比、与 VALL-E/F5-TTS 工程化取舍、CosyVoice 3 一瞥与工程化伦理。中文 TTS 工业部署事实标准的深度文。
![]()
本文是一篇详细的 VALL-E 技术拆解:从 Encodec 的 RVQ-VAE 离散化、AR + NAR 双 Transformer 架构、3 秒音色克隆推理流程,到 VALL-E X / VALL-E 2 / NaturalSpeech 3 演进,以及与 CosyVoice 2 / F5-TTS 的工程化对比。ASR Whisper 的姊妹篇,TTS 系列第 2 篇。
![]()
本文是一篇详细的 TTS 30 年技术演进史:从 1990 年代的拼接合成 / HTS,经 WaveNet 与 Tacotron 的端到端革命,到 FastSpeech 并行化、VITS 端到端、VALL-E codec LM 范式革命、F5-TTS Flow Matching、CosyVoice 2 中文 SOTA。ASR 系列的姊妹篇,TTS 系列开篇。
![]()
本文从工程视角彻底拆透流式 ASR:算法延迟 vs 计算延迟、流式三大天敌、Chunked Attention 与 Dynamic Chunk Training、KV Cache、Causal Conv、Whisper 流式化、RNN-T 天然流式、VAD + Endpoint 工业架构、Moshi/GPT-4o Realtime 端到端语音 LLM。CTC、Whisper、RNN-T、Conformer、SSL 系列的姊妹篇。
![]()
© 2026 Yudong‘s Blog — Powered by WordPress
Theme by Anders Noren — Up ↑