打破多模态视觉+语言拼接套路! 腾讯开源Penguin-VL,直接用纯文本LLM训视觉编码器。 这项研究跳出了先有传统视觉 backbone,再接语言模型的常规路径,直接从text-only LLM初始化vision encoder。 并在2B/8B紧凑参数规模下的文档理解、长视频时序定位等复杂任务中表现出 ...
For enterprise leaders aiming to decentralize their AI workloads, Gemma 4 12B offers a rare combination of edge-friendly ...
一个直观的解释是训练数据不足,但更本质的问题在于表示空间不匹配。已有研究表明,LLM 已经在统一的语义空间中编码了丰富的跨语言知识,并且在处理多语言文本时会专门「经过」这个统一语义空间(如英语表示空间)。这意味着,LLM 的多语言瓶颈不在 ...