项目 技术项目

模型考古学

模型考古学系列文章

模型考古学
15
标签文章

标签文章

DeepSeek 模型25年下半年更新前瞻
本文内容基于公开信息与个人推理,仅供参考,非 DeepSeek 官方声明。
4468 字
|
22 分钟
模型考古学(八):Llama4发布——并非领先
Meta发布Llama 4系列,采用MoE、原生多模态与千万级上下文。虽性能宣称领先,但社区质疑实际效果与宣传不符,发布显仓促,更像追赶而非引领。
5761 字
|
29 分钟
Cover Image of the Post
闪电注意力的又一次胜利:Minimax-M1 技术报告浅读
工程上的又一次胜利,商业实践中难言满意。
4251 字
|
21 分钟
模型考古学(七):Qwen2.5-Omni技术报告解读
阿里小开了一款大模型,叫Qwen2.5-Omni,本篇将看下Qwen2.5-Omni的技术报告,讨论一下其中的创新点和Omni类模型的工程优势。
3638 字
|
18 分钟
Cover Image of the Post
关于酒馆SillyTavern所代表的伴侣模型系统的一些小思考
关于上下文,与AI伴侣系统设计的一些小思考,小想法
5283 字
|
26 分钟
模型考古学(六):DeepSeek V3和R1技术报告浅析
本文深入解析 DeepSeek V3 和 R1 两大模型的创新点,涵盖架构、训练策略与推理能力,展现中国开源模型的强劲进展与高性价比潜力。
13040 字
|
65 分钟
Cover Image of the Post
模型考古学(一):大模型原理探赜
这篇博客探讨了大模型(如GPT系列)背后的神经网络基础,从神经网络的基本结构、反向传播算法、梯度下降法,到Transformer架构及其在大语言模型中的应用。文章详细解析了大模型的训练过程、参数优化以及如何通过海量数据提升模型性能。最后,回顾了大语言模型架构的发展历程,比较了不同模型(如BERT和GPT)的特点和应用场景。
7751 字
|
39 分钟
Cover Image of the Post
模型考古学(二):视觉大模型发展梳理与Qwen2-VL论文解读
如果说「模型考古学」第一篇主要聚焦于大语言模型(LLM)的内部机制与演进脉络,那么本篇博客将拓宽视野,探求视觉大模型(Vision Large Language Model,VLLM)的技术原理和发展历程。在单纯的文本世界之外,视觉大模型融合了图像理解能力,赋予了AI“看”世界的眼睛,让模型理解世界的方式从一维的文字扩展到了二维的图像。
7068 字
|
35 分钟
Cover Image of the Post
模型考古学(三):Agent 系统概述
本文探讨了Agent系统的发展历程、核心概念和技术架构,分析了从基于规则到LLM驱动的Agent演变,以及其在感知、决策、执行等方面的能力与挑战,展望了多智能体协作等未来发展方向。
10516 字
|
53 分钟
Cover Image of the Post
模型考古学(四):RAG技术解析
本文将深入探讨RAG技术的原理、实现方式及其在实际应用中的优势与局限。
3428 字
|
17 分钟
Cover Image of the Post
未齐之齐:DeepSeek在年初的爆火似乎佐证了大家喜欢来点狠的
日月出矣,而爝火不息;其于光也,不亦难乎?
2433 字
|
12 分钟
齐之未齐:浅谈gpt-oss-20b-base与对齐税
基础模型 = 既糊弄又高效的灵光一现 + AI良助
2681 字
|
13 分钟
模型考古学(五):Minimax-01 模型技术报告简读
本篇博客简要解析了 Minimax-01 模型的架构设计,聚焦其在超长上下文处理中的性能表现与混合注意力机制的技术实现。
4320 字
|
22 分钟
Cover Image of the Post
评OpenAI发布o3&o4mini:喧嚣落幕,长路开启
从GPT-4的奇点时刻到o3&o4mini的现实发布,本篇回顾AI两年间的格局重构,解析OpenAI的相对衰落、国产模型的跃升,以及技术竞赛如何转向慢变量的下半场。
7316 字
|
37 分钟
浅谈ChatGPT的记忆实现机制 兼论工程端记忆设计
本文系统梳理了 ChatGPT 的记忆系统实现机制,并探讨了工程实践中不同层次的“记忆”设计思路与权衡方法,兼具技术性与现实可操作性。
6815 字
|
34 分钟