模型考古学(六):DeepSeek V3和R1技术报告浅析
本文深入解析 DeepSeek V3 和 R1 两大模型的创新点,涵盖架构、训练策略与推理能力,展现中国开源模型的强劲进展与高性价比潜力。
13040 字
|
65 分钟

模型考古学(五):Minimax-01 模型技术报告简读
本篇博客简要解析了 Minimax-01 模型的架构设计,聚焦其在超长上下文处理中的性能表现与混合注意力机制的技术实现。
4320 字
|
22 分钟

暗涌系列:Ark Invest《Big Ideas 2025》报告浅析 Part 2
The BigIdeas 2025的分析报告Part2,主要内容为Robotaxi、自动物流和可重复利用火箭三个领域的解析
4991 字
|
25 分钟

模型考古学(三):Agent 系统概述
本文探讨了Agent系统的发展历程、核心概念和技术架构,分析了从基于规则到LLM驱动的Agent演变,以及其在感知、决策、执行等方面的能力与挑战,展望了多智能体协作等未来发展方向。
10516 字
|
53 分钟
