All Posts

全部文章

模型考古学(二):视觉大模型发展梳理与Qwen2-VL论文解读

如果说「模型考古学」第一篇主要聚焦于大语言模型(LLM)的内部机制与演进脉络,那么本篇博客将拓宽视野,探求视觉大模型(Vision Large Language Model,VLLM)的技术原理和发展历程。在单纯的文本世界之外,视觉大模型融合了图像理解能力,赋予了AI“看”世界的眼睛,让模型理解世界的方式从一维的文字扩展到了二维的图像。

7119 字|36 分钟

模型考古学(一):大模型原理探赜

这篇博客探讨了大模型(如GPT系列)背后的神经网络基础,从神经网络的基本结构、反向传播算法、梯度下降法,到Transformer架构及其在大语言模型中的应用。文章详细解析了大模型的训练过程、参数优化以及如何通过海量数据提升模型性能。最后,回顾了大语言模型架构的发展历程,比较了不同模型(如BERT和GPT)的特点和应用场景。

7798 字|39 分钟

使用 Qwen VL 系列模型实现图片分类和OCR任务

2025-01-10深度学习未标签

阿里云的通义千问(Qwen)大模型在2024年末大幅降价,尤其是Qwen-VL系列模型,为开发者提供了低成本的多模态视觉-语言处理能力。通过零样本学习,开发者无需训练即可实现图片分类和OCR任务,极大提升了工作效率。本文详细介绍了如何利用Qwen-VL进行图片分类和笔记归档整理,展示了其强大的性能和易用性。

4118 字|21 分钟