阶跃AI

阶跃AI是由上海阶跃星辰智能科技有限公司开发的多模态AI助手，前身为“跃问”，定位于个人效率助手，集智能问答、多模态创作、文档处理等功能于一体。自2023年推出以来，已迭代至5.2.0版本（截至2025年4月），凭借开源策略与多模态技术成为国产AI标杆。

一、**核心功能与技术架构**
1. 多模态交互能力
• 智能问答：支持文字、图片、语音、文档、拍照等多种输入方式，可解答生活问题、提供情感陪伴，并具备金融数据分析（如财跃星辰大模型）、热点图片解析等专业能力。

• 创作生成：集成AI写作（文案润色、代码生成）、智能生图（支持中国风、赛博朋克等风格迁移）、视频生成（最长10秒）功能，用户输入描述或上传素材即可一键生成内容。

• 文档与数据处理：自动解析文档摘要、提取关键信息，支持表格数据分析与可视化建议，提升办公效率。

2. 技术突破
• Step系列模型：

◦ Step-Video-T2V：开源视频生成模型（300亿参数），基于DiT架构和Video-VAE编码器，实现16×16空间压缩和8倍时间压缩，生成204帧高清视频，支持中英文双语输入。

◦ Step-Audio：产品级开源语音模型，支持中英日多语言交互，具备情感语气（如说唱、方言）和实时流式响应能力，在HSK-6评测中得分86分。

• 推理优化：采用DPO（直接偏好优化）强化学习技术提升生成质量，结合3D全注意力机制处理复杂动态场景。

—

二、**应用场景与竞争优势**
1. 典型应用领域
• 教育：将古诗《钱塘湖春行》转化为动态教学动画，辅助知识可视化。

• 电商与广告：5分钟生成商品展示视频（如可乐罐爆开特效），成本仅为传统制作的1/10。

• 影视与游戏：快速制作开放世界动态场景、宇航员月球探索等概念动画，开发周期缩短70%。

• 智能终端：与OPPO合作开发“一键问屏”功能，实现拍照识物、跨应用搜索；与吉利汽车共建智能座舱Agent，支持多模态语音+视觉交互。

2. 独特优势
• 免费开源：基础功能完全免费，Step-Video-T2V等模型遵循MIT协议开源，允许商业二次开发。

• 中文友好：基于1.9TB中文多模态数据集优化，擅长生成“赛博敦煌”等中国风内容。

• 端云协同架构：支持Mac等设备本地化部署，数据“不出终端”，满足政务、医疗等高安全需求。

—

三、**生态布局与行业影响**
1. 开发者生态
• 开源社区提供Step-Video-T2V-Eval评测数据集、全链路工具包，适配ComfyUI、昇腾等平台，吸引开发者构建个性化工具链。

• 与清华大学联合研发Open-Reasoner-Zero推理模型，效率较DeepSeek-R1提升25倍。

2. 行业合作
• 汽车领域：与吉利合作开发智能座舱，实现“可见即可说”的多模态交互。

• 内容生产：收购二次元平台鹿影科技，整合LCM视觉模型优化长视频生成。

3. 技术标杆地位
阶跃AI的Step系列模型在多项评测中领先，如Step-Audio在逻辑推理、语言能力等维度超越GLM4-Voice等竞品。Hugging Face评价其为“下一个DeepSeek”，尤其在多模态开源领域填补市场空白。

—

四、**访问与使用**
• 官方入口：

• 网页端：https://yuewen.cn

• 安卓APP：v5.2.0版本（82.97M），支持临时会话与数据同步。

• 开源资源：GitHub提供Step-Video-T2V模型与Step-Audio语音交互框架。

> 阶跃AI通过“多模态+开源”双引擎，正推动AI从专业工具向全民创意伙伴转型。其技术普惠理念与场景化落地能力，重新定义了人机协作的边界，印证了“智能阶跃，十倍每一个人的可能”的企业愿景。

相关导航