阶跃AI是由上海阶跃星辰智能科技有限公司开发的多模态AI助手,前身为“跃问”,定位于个人效率助手,集智能问答、多模态创作、文档处理等功能于一体。自2023年推出以来,已迭代至5.2.0版本(截至2025年4月),凭借开源策略与多模态技术成为国产AI标杆。
一、**核心功能与技术架构**
1. 多模态交互能力
• 智能问答:支持文字、图片、语音、文档、拍照等多种输入方式,可解答生活问题、提供情感陪伴,并具备金融数据分析(如财跃星辰大模型)、热点图片解析等专业能力。
• 创作生成:集成AI写作(文案润色、代码生成)、智能生图(支持中国风、赛博朋克等风格迁移)、视频生成(最长10秒)功能,用户输入描述或上传素材即可一键生成内容。
• 文档与数据处理:自动解析文档摘要、提取关键信息,支持表格数据分析与可视化建议,提升办公效率。
2. 技术突破
• Step系列模型:
◦ Step-Video-T2V:开源视频生成模型(300亿参数),基于DiT架构和Video-VAE编码器,实现16×16空间压缩和8倍时间压缩,生成204帧高清视频,支持中英文双语输入。
◦ Step-Audio:产品级开源语音模型,支持中英日多语言交互,具备情感语气(如说唱、方言)和实时流式响应能力,在HSK-6评测中得分86分。
• 推理优化:采用DPO(直接偏好优化)强化学习技术提升生成质量,结合3D全注意力机制处理复杂动态场景。
—
二、**应用场景与竞争优势**
1. 典型应用领域
• 教育:将古诗《钱塘湖春行》转化为动态教学动画,辅助知识可视化。
• 电商与广告:5分钟生成商品展示视频(如可乐罐爆开特效),成本仅为传统制作的1/10。
• 影视与游戏:快速制作开放世界动态场景、宇航员月球探索等概念动画,开发周期缩短70%。
• 智能终端:与OPPO合作开发“一键问屏”功能,实现拍照识物、跨应用搜索;与吉利汽车共建智能座舱Agent,支持多模态语音+视觉交互。
2. 独特优势
• 免费开源:基础功能完全免费,Step-Video-T2V等模型遵循MIT协议开源,允许商业二次开发。
• 中文友好:基于1.9TB中文多模态数据集优化,擅长生成“赛博敦煌”等中国风内容。
• 端云协同架构:支持Mac等设备本地化部署,数据“不出终端”,满足政务、医疗等高安全需求。
—
三、**生态布局与行业影响**
1. 开发者生态
• 开源社区提供Step-Video-T2V-Eval评测数据集、全链路工具包,适配ComfyUI、昇腾等平台,吸引开发者构建个性化工具链。
• 与清华大学联合研发Open-Reasoner-Zero推理模型,效率较DeepSeek-R1提升25倍。
2. 行业合作
• 汽车领域:与吉利合作开发智能座舱,实现“可见即可说”的多模态交互。
• 内容生产:收购二次元平台鹿影科技,整合LCM视觉模型优化长视频生成。
3. 技术标杆地位
阶跃AI的Step系列模型在多项评测中领先,如Step-Audio在逻辑推理、语言能力等维度超越GLM4-Voice等竞品。Hugging Face评价其为“下一个DeepSeek”,尤其在多模态开源领域填补市场空白。
—
四、**访问与使用**
• 官方入口:
• 网页端:https://yuewen.cn
• 安卓APP:v5.2.0版本(82.97M),支持临时会话与数据同步。
• 开源资源:GitHub提供Step-Video-T2V模型与Step-Audio语音交互框架。
> 阶跃AI通过“多模态+开源”双引擎,正推动AI从专业工具向全民创意伙伴转型。其技术普惠理念与场景化落地能力,重新定义了人机协作的边界,印证了“智能阶跃,十倍每一个人的可能”的企业愿景。