摘要: AI行业越来越多地朝着具有更长背景的生成AI模型迈进。但是带有较大上下文窗口的模型往往是
AI21 Labs发布全新文本生成模型Jamba
AI21 Labs最新发布了一款名为Jamba的文本生成和分析模型。Jamba可以处理英语、法语、西班牙语和葡萄牙语,并能在单个GPU上运行,处理长达140,000个tokens的文本。
Jamba采用了transformers和state space models (SSMs)两种模型架构的组合。transformers是用于复杂推理任务的首选架构,而SSMs结合了循环神经网络和卷积神经网络等旧型AI模型的特点,创造出更高效处理长序列数据的架构。
Jamba使用了SSM模型Mamba作为核心模型的一部分,据称在处理长上下文时比同等大小的基于transformers的模型的吞吐量提高了三倍。
虽然Jamba是根据Apache 2.0许可发布的开源模型,但AI21 Labs强调这是一个研究版本,不适合商业用途。未来将提供一个经过调整的“更安全”版本。
AI21 Labs的产品负责人Dagan表示,Jamba展示了SSM架构的潜力,尤其是在这个早期阶段。
“这个模型的附加价值在于它的规模和创新架构,可以轻松适配到单个GPU上,我们相信随着Mamba的进一步调整,性能将进一步提高。”
© 版权声明
文章版权归作者所有,未经允许请勿转载。
THE END
暂无评论内容