2024年服贸会:当大语言模型解锁“看见”和“说话”的能力
2024-09-19 09:50:20
来源:
中国贸易报
9月12日至9月16日,2024年中国国际服务贸易交易会(服贸会)在国家会议中心和首钢园区盛大举办,本届服贸会的主题是“全球服务,互惠共享”。在北京首钢会展中心2号馆,智谱展示了多款最新产品,包括旗下清言App近期重磅推出的“视频通话”功能、清影AI生成视频功能,以及大模型开放平台bigmodel.cn等,诸多AI黑科技亮相引发广泛关注。
清言作为首批上线的C端大模型产品,过去一年中以文字和语音形式与用户互动。如今,清言迎来重大升级,解锁了“眼睛”, 这是全球首个面向大众用户开放的视频通话功能,让用户体验到目前最前沿的AI/大模型技术,正式进入视频通话时代。
清言视频通话功能跨越文本、音频和视频三大模态,具备实时推理能力。用户可以打开摄像头,通过视频通话窗口与清言交流,清言不仅能“看”到用户画面,还能听懂指令并准确执行。即使用户频繁打断,清言也能迅速反应,带来如同真人视频通话的流畅体验。另外可以用右下角小画笔在画面上划重点,清言可以知道你着重让它看的地方是哪。
当大语言模型解锁了“看见”和“说话”的能力,AI在学习和生活中的应用更广泛了,英语翻译、教学,导游,为视障人士提供识别环境的帮助等等。
最近一段时间以来,智谱动作频频:在 KDD 上发布了升级版基座大模型GLM-4-Plus,以及CogView-3-Plus 和 CogVLM 在内的多模态模型,展示智谱对图像、视频等更多模态方面的研究进展。同时,类 GPT-4o 的视频通话功能在 C 端产品智谱清言上线。7 月,智谱生视频功能清影 Ying 上线智谱清言,并很快将其背后的生视频模型 CogVideoX 开源。