模型考古学(七):Qwen2.5-Omni技术报告解读
阿里小开了一款大模型,叫Qwen2.5-Omni,本篇将看下Qwen2.5-Omni的技术报告,讨论一下其中的创新点和Omni类模型的工程优势。
3638 字
|
18 分钟

模型考古学(六):DeepSeek V3和R1技术报告浅析
本文深入解析 DeepSeek V3 和 R1 两大模型的创新点,涵盖架构、训练策略与推理能力,展现中国开源模型的强劲进展与高性价比潜力。
13040 字
|
65 分钟

模型考古学(五):Minimax-01 模型技术报告简读
本篇博客简要解析了 Minimax-01 模型的架构设计,聚焦其在超长上下文处理中的性能表现与混合注意力机制的技术实现。
4320 字
|
22 分钟

暗涌系列:Ark Invest《Big Ideas 2025》报告浅析 Part 2
The BigIdeas 2025的分析报告Part2,主要内容为Robotaxi、自动物流和可重复利用火箭三个领域的解析
4991 字
|
25 分钟
