新闻中心

2024年服贸会：当大语言模型解锁“看见”和“说话”的能力

2024-09-19 09:50:20 来源：中国贸易报

9月12日至9月16日，2024年中国国际服务贸易交易会（服贸会）在国家会议中心和首钢园区盛大举办，本届服贸会的主题是“全球服务，互惠共享”。在北京首钢会展中心2号馆，智谱展示了多款最新产品，包括旗下清言App近期重磅推出的“视频通话”功能、清影AI生成视频功能，以及大模型开放平台bigmodel.cn等，诸多AI黑科技亮相引发广泛关注。

清言作为首批上线的C端大模型产品，过去一年中以文字和语音形式与用户互动。如今，清言迎来重大升级，解锁了“眼睛”，这是全球首个面向大众用户开放的视频通话功能，让用户体验到目前最前沿的AI/大模型技术，正式进入视频通话时代。

清言视频通话功能跨越文本、音频和视频三大模态，具备实时推理能力。用户可以打开摄像头，通过视频通话窗口与清言交流，清言不仅能“看”到用户画面，还能听懂指令并准确执行。即使用户频繁打断，清言也能迅速反应，带来如同真人视频通话的流畅体验。另外可以用右下角小画笔在画面上划重点，清言可以知道你着重让它看的地方是哪。

当大语言模型解锁了“看见”和“说话”的能力，AI在学习和生活中的应用更广泛了，英语翻译、教学，导游，为视障人士提供识别环境的帮助等等。

最近一段时间以来，智谱动作频频：在 KDD 上发布了升级版基座大模型GLM-4-Plus，以及CogView-3-Plus 和 CogVLM 在内的多模态模型，展示智谱对图像、视频等更多模态方面的研究进展。同时，类 GPT-4o 的视频通话功能在 C 端产品智谱清言上线。7 月，智谱生视频功能清影 Ying 上线智谱清言，并很快将其背后的生视频模型 CogVideoX 开源。

分享到微信