Encoder LLM - 搜索 News

腾讯纯文本LLM训视觉encoder，拿捏图表长视频，达到开源小模型SOTA！

打破多模态视觉+语言拼接套路！腾讯开源Penguin-VL，直接用纯文本LLM训视觉编码器。这项研究跳出了先有传统视觉 backbone，再接语言模型的常规路径，直接从text-only LLM初始化vision encoder。并在2B/8B紧凑参数规模下的文档理解、长视频时序定位等复杂任务中表现出 ...

5 天

Google's new open source Gemma 4 12B analyzes audio, video — and runs entirely locally on ...

For enterprise leaders aiming to decentralize their AI workloads, Gemma 4 12B offers a rare combination of edge-friendly ...

新浪网

ACL 2026 | 不训练LLM也能支持未见语言问答？中科院计算所团队让多 ...

一个直观的解释是训练数据不足，但更本质的问题在于表示空间不匹配。已有研究表明，LLM 已经在统一的语义空间中编码了丰富的跨语言知识，并且在处理多语言文本时会专门「经过」这个统一语义空间（如英语表示空间）。这意味着，LLM 的多语言瓶颈不在 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果

腾讯纯文本LLM训视觉encoder，拿捏图表长视频，达到开源小模型SOTA！

Google's new open source Gemma 4 12B analyzes audio, video — and runs entirely locally on ...

ACL 2026 | 不训练LLM也能支持未见语言问答？中科院计算所团队让多 ...

今日热点