项目 技术项目
模型考古学
模型考古学系列文章
模型考古学
15
标签文章
标签文章
模型考古学(八):Llama4发布——并非领先
2025-04-06
Meta发布Llama 4系列,采用MoE、原生多模态与千万级上下文。虽性能宣称领先,但社区质疑实际效果与宣传不符,发布显仓促,更像追赶而非引领。
5761 字
|
29 分钟
模型考古学(七):Qwen2.5-Omni技术报告解读
2025-03-27
阿里小开了一款大模型,叫Qwen2.5-Omni,本篇将看下Qwen2.5-Omni的技术报告,讨论一下其中的创新点和Omni类模型的工程优势。
3638 字
|
18 分钟
模型考古学(六):DeepSeek V3和R1技术报告浅析
2025-03-23
本文深入解析 DeepSeek V3 和 R1 两大模型的创新点,涵盖架构、训练策略与推理能力,展现中国开源模型的强劲进展与高性价比潜力。
13040 字
|
65 分钟
模型考古学(一):大模型原理探赜
2025-01-13
这篇博客探讨了大模型(如GPT系列)背后的神经网络基础,从神经网络的基本结构、反向传播算法、梯度下降法,到Transformer架构及其在大语言模型中的应用。文章详细解析了大模型的训练过程、参数优化以及如何通过海量数据提升模型性能。最后,回顾了大语言模型架构的发展历程,比较了不同模型(如BERT和GPT)的特点和应用场景。
7751 字
|
39 分钟
模型考古学(二):视觉大模型发展梳理与Qwen2-VL论文解读
2025-01-22
如果说「模型考古学」第一篇主要聚焦于大语言模型(LLM)的内部机制与演进脉络,那么本篇博客将拓宽视野,探求视觉大模型(Vision Large Language Model,VLLM)的技术原理和发展历程。在单纯的文本世界之外,视觉大模型融合了图像理解能力,赋予了AI“看”世界的眼睛,让模型理解世界的方式从一维的文字扩展到了二维的图像。
7068 字
|
35 分钟
模型考古学(三):Agent 系统概述
2025-03-04
本文探讨了Agent系统的发展历程、核心概念和技术架构,分析了从基于规则到LLM驱动的Agent演变,以及其在感知、决策、执行等方面的能力与挑战,展望了多智能体协作等未来发展方向。
10516 字
|
53 分钟
模型考古学(五):Minimax-01 模型技术报告简读
2025-03-22
本篇博客简要解析了 Minimax-01 模型的架构设计,聚焦其在超长上下文处理中的性能表现与混合注意力机制的技术实现。
4320 字
|
22 分钟
评OpenAI发布o3&o4mini:喧嚣落幕,长路开启
2025-04-20
从GPT-4的奇点时刻到o3&o4mini的现实发布,本篇回顾AI两年间的格局重构,解析OpenAI的相对衰落、国产模型的跃升,以及技术竞赛如何转向慢变量的下半场。
7316 字
|
37 分钟
浅谈ChatGPT的记忆实现机制 兼论工程端记忆设计
2025-05-25
本文系统梳理了 ChatGPT 的记忆系统实现机制,并探讨了工程实践中不同层次的“记忆”设计思路与权衡方法,兼具技术性与现实可操作性。
6815 字
|
34 分钟