AIGC（MLLM、VLM、LLM、SD）系列——论文解读目录

游客

神秘用户已躺平...

您未登录！
愿美好瞬间与您不期而遇

登录注册

AIGC（MLLM、VLM、LLM、SD）系列——论文解读目录

WAP站长网

AIGC（MLLM、VLM、LLM、SD）系列——论文解读目录

AIGC（MLLM、VLM、LLM、SD）系列——论文解读目录

2025年6月24日

字数：3027，阅读约11分钟

全屏显示

AIGC（MLLM、VLM、LLM、SD）系列——论文解读目录

40

0

正在检查是否收录...

涉及面广：多模态生成模型——MLLM （目前集中在视觉语言模型——VLM）、大语言模型——LLM、生成模型（SD系列）、对比学习的经典模型（CLIP系列）。

持续更新：对于已经完成解读的会附上链接（有的会在一些场景做尝试，也会附上链接供大家快速参考结果），准备写的会备注筹备中。

适宜人群：节省大把时间，快速定位需要的部分，适合学生、入门AIGC者和从业者作为笔记检索使用。

———————————————————————————————————————————

RAM

论文题目：Recognize Anything: A Strong Image Tagging Model

关键词：RAM、属性识别、多标签分类、解读

论文解读：RAM（recognize anything）—— 论文详解-CSDN博客

应用测试：RAM（recognize anything）—— 项目使用——调整阈值（获得置信度）_from ram.models import ram-CSDN博客

RAM++

论文题目：Open-Set Image Tagging with Multi-Grained Text Supervision

关键词：RAM++、RAM plus plus、属性识别、多标签分类、open set、解读

论文解读：RAM++（recognize anything++）—— 论文详解-CSDN博客

应用测试：暂同 RAM（recognize anything）—— 项目使用——调整阈值（获得置信度）_from ram.models import ram-CSDN博客

OR as Next Token Prediction

论文题目：Object Recognition as Next Token Prediction

关键词：属性识别、多标签分类、open set、解读

论文解读：VLM 系列——Object Recognition as Next Token Prediction——论文解读-CSDN博客

应用测试：暂无

———————————————————————————————————————————

CLIP

论文题目：Learning Transferable Visual Models From Natural Language Supervision

关键词：CLIP、解读、对比学习、open set、VLM、图文大模型、AIGC

论文解读：VLM 系列——CLIP——论文解读-CSDN博客

应用测试：暂无

Chinese CLIP

论文题目：Chinese CLIP: Contrastive Vision-Language Pretraining in Chinese

关键词：中文CLIP、解读、对比学习、open set、VLM、图文大模型、AIGC

论文解读：VLM 系列——中文CLIP——论文解读-CSDN博客

应用测试：暂无

———————————————————————————————————————————

BLIP

论文题目：BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation

关键词：BLIP、解读、VLM、图文大模型、AIGC

论文解读：VLM 系列——BLIP——论文解读-CSDN博客

BLIP 2

论文题目：BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models

关键词：BLIP-2、解读、VLM、图文大模型、AIGC

论文解读：VLM 系列——BLIP2——论文解读-CSDN博客

Instruct BLIP

论文题目：InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning

关键词：Instruct BLIP、解读、VLM、图文大模型、AIGC

论文解读：VLM 系列——CLIP——论文解读-CSDN博客

应用测试：暂无

Llava

论文题目：Visual Instruction Tuning

关键词：Llava、解读、VLM、图文大模型、AIGC

论文解读：VLM 系列——Llava——论文解读-CSDN博客

应用测试：暂无

Llava 1.5

论文题目：Visual Instruction Tuning

关键词：Llava 1.5、解读、VLM、图文大模型、AIGC

论文解读：VLM 系列——Llava1.5——论文解读-CSDN博客

应用测试：暂无

MoE-LLaVa

论文题目：MoE-LLaVA: Mixture of Experts for Large Vision-Language Models

关键词：MoE-LLaVA、解读、VLM、图文大模型、AIGC

论文解读：VLM 系列——MoE-LLaVa——论文解读-CSDN博客

应用测试：暂无

LLaVA-MoLE

论文题目：LLaVA-MoLE: Sparse Mixture of LoRA Experts for Mitigating Data Conflicts in Instruction Finetuning MLLMs

关键词：LLaVA-MoLE、解读、VLM、图文大模型、AIGC

论文解读：VLM 系列——LLaVA-MoLE——论文解读-CSDN博客

应用测试：暂无

Llava 1.6

论文题目：Llava 1.6

关键词：Llava 1.6、解读、VLM、图文大模型、AIGC

论文解读：VLM 系列——Llava1.6——论文解读-CSDN博客

应用测试：暂无

Qwen-VL

论文题目：Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond

关键词：Qwen-VL、千问-VL、解读、VLM、图文大模型、AIGC

论文解读：VLM 系列——Qwen-VL 千问—— 论文解读-CSDN博客

应用测试：暂无

COGVLM

论文题目：VISUAL EXPERT FOR LARGE LANGUAGE

关键词：COGVLM、解读、VLM、图文大模型、AIGC

论文解读：VLM 系列——COGVLM—— 论文解读-CSDN博客

应用测试：暂无

Monkey

论文题目：Monkey : Image Resolution and Text Label Are Important Things for Large Multi-modal Models

关键词：Monkey、解读、VLM、图文大模型、AIGC

论文解读：VLM 系列——Monkey——论文解读-CSDN博客

应用测试：暂无

———————————————————————————————————————————

DALL·E 3

论文题目：Improving Image Generation with Better Captions

关键词：DALL·E 3、文生图、Open AI

论文解读：文生图——DALL-E 3 —论文解读——第一版_dall- e文献-CSDN博客

应用测试：暂无

关键词aigc大模型clipclitokenllm对比学习多标签分类apprapdall·e 3dall·eandi文生图生成模型语言模型llmsurlopen aicodeparse多模态视觉语言模型dall-e 3视觉语言mllmslmsdall-e大语言模型sat

本文作者：WAP站长网
本文链接： https://wapzz.net/post-7803.html
版权声明：本博客所有文章除特别声明外，均默认采用 CC BY-NC-SA 4.0 许可协议。

本站部分内容来源于网络转载，仅供学习交流使用。如涉及版权问题，请及时联系我们，我们将第一时间处理。

文章很赞！支持一下吧还没有人为TA充电

为TA充电

还没有人为TA充电

0

0

支付宝扫一扫
微信扫一扫

感谢支持

文章很赞！支持一下吧

关于作者

WAP站长网

2.8W+

9

1

2

WAP站长官方

最近签到
签到排行

WAP站长网
1个月前
+20
kbx991
1个月前
+30
vPNpL7l4
1个月前
+10

WAP站长网
WAP站长官方
57
kbx991
内卷太严重，已躺平...
6
Cr8M6e32
内卷太严重，已躺平...
5

热门文章

TOP1

TOP2

微博上线“在线状态”功能：支持用户自主选择开启或关闭

TOP3

日均播放量超过25亿，为什么“最流行”的美妆趋势诞生于抖音？

TOP4

TOP5

雷军说要敢于对标世界第一：只有对标第一才能最终赶超第一

标签云

麒麟9020A性能 1

华为Mate70优享版 1

性能提升 1

麒麟9020A 1

Mate70优享版 1

K90 1

Gen5芯片 1

K90系列 1

X9系列 1

荣耀Magic8系列 1

X300系列 1

小米员工处分 1

王腾被辞退 1

泄露公司机密 1

小米员工违规 1

王腾账号注销 1

YU7防护措施 1

小米YU7电池安全 1

防护措施 1

上市咨询 1

电池安全 1

合约机 1

中国联通 1

小米汽车技术解释 1

小米超强钢项目 1

东北大学 1

项目名称 1

超强钢 1

淘宝团购 1

阿里流量入口 1

团购业务 1

跨界月饼 1

月饼邪修 1

创意月饼 1

年轻人消费 1

中秋礼盒 1

月饼测评 1

抖音鸡排哥 1

鸡排哥语录 1

抖音爆火 1

幽默互动 1

网络走红 1

鸡排哥 1

AI稀疏注意力 1

V3.2 1

API成本 1

稀疏注意力 1

照片在线下载 1

10G文件传输 1

在线预览 1

复制图片
复制图片地址

深色模式
轉為繁體
前往顶部
前往底部

按住ctrl可打开默认菜单