TwelveLabs(Twelve Labs Inc.)是一家专注于多模态视频理解技术的创新型人工智能公司,总部位于美国旧金山,创立于2021年。其核心目标是通过自研的AI模型,使机器能够像人类一样深度理解视频内容,实现“让视频的处理和搜索变得和文本一样容易”:
🧠 一、核心定位与技术优势
- 视频优先(Video-First)策略
TwelveLabs 并非将视频视为图像或音频的简单延伸,而是开发专门针对视频多模态特性(视觉、音频、文本、上下文)的模型,解决传统视频理解依赖人工标注、元数据搜索的局限性。 - 自研大模型
- Pegasus-1(800亿参数):
- 视频语言模型(Video-to-Text),专注视频语义理解,支持长视频处理和多模态对齐。
- 在MSR-VTT数据集上性能提升61%,视频转文本效率比ASR+LLM方案高188%。
- Marengo-2.6:
- 多模态基础模型,擅长跨模态检索(文本→视频/音频/图像)。
- 在MSR-VTT数据集上超越Google VideoPrism-G 10%,支持零样本分类和精准时间定位。
- Pegasus-1(800亿参数):
⚙️ 二、核心产品功能
通过API提供以下能力,主要服务于开发者与企业客户:
- 语义视频搜索
- 用自然语言定位特定场景(如“寻找跑步机上行走且背景有Air Jordans的视频”),结合视觉、音频、文本等多模态分析实现精准检索。
- 视频智能分析
- 分类:自动归类视频到预定义类别(如体育/新闻),无需标签数据。
- 问答(QA):基于视频内容回答复杂问题(如“视频中人物讨论了哪些关键点?”)。
- 视频转文本生成
- 生成摘要、亮点片段、字幕,甚至定制化报告(如会议记录、自媒体文章)。
- 定制化与扩展性
- 支持模型微调(如调整行业术语)、云原生架构可处理PB级数据,适配企业私有化部署。
💰 三、融资情况
- 融资总额超1.07亿美元,投资方包括NVIDIA、Intel、Samsung、NEA等。
- 被CB Insights和Fast Company评为“最具创新力的AI搜索公司”。
- 竞品对比:
- 相比Google VideoPrism等通用模型,TwelveLabs专注视频多模态理解,在长视频处理和语义搜索上优势显著。
- 不同于OpenAI等文本优先模型,其“视频优先”架构更适配动态内容分析。
🌐 六、应用场景示例
- 媒体行业:自动生成体育赛事集锦,精准定位明星镜头。
- 企业知识库:搜索内部会议视频中的关键决策片段。
- 公共安全:分析监控视频,快速定位异常事件(如“穿红色外套者进入大楼”)。