使用GPT4Vision Whisper和文本转语音重建RealGemini演示

2023-12-21 09:06:22科技专一的悟空

如果您像我一样对本月早些时候发布的GoogleGemini演示更多的是关于巧妙编辑而不是技术进步感到有点失望。您会很高兴地知道，也许我们不需要等待太久就可以使用类似的东西。

在看到GoogleGemini的演示以及博客文章的揭秘之后。JulienDeLuca问自己：“Google展示的‘gemini’体验是否不仅仅是一个脚本演示?”然后，他开始创建一个有趣的实验，以探索类似于Gemini演示中描绘的实时人工智能交互的可行性。以下是他对该项目施加的一些限制，以使其与谷歌最初的演示保持一致。

它必须实时发生

用户必须能够流式传输视频

用户必须能够在不与UI交互的情况下与助手交谈

助理必须使用视频输入来推理用户的问题

助理必须通过说话来回应

由于ChatGPTVision目前只能接受单个图像，DeLuca需要定期上传一系列图像和从视频中截取的屏幕截图，以便GPT了解发生的情况。

“咔嚓!我们现在有一个代表视频流的单个图像。现在我们正在说话。我需要对系统提示进行大量微调，以使其“理解”这是来自视频。否则它会一直提到“图案”、“条带”或“网格”。我还坚持图像的时间性，所以它会使用图像的顺序进行推理。它绝对可以改进，但对于这个实验来说它已经足够好了”德卢卡解释道。要了解有关此过程的更多信息，请访问Crafters.ai网站或GitHub了解更多详细信息。

创建真实的GoogleGemini演示

AIJason还创建了一个结合GPT-4、Whisper和文本转语音(TTS)技术的示例。请观看下面的视频进行演示，并了解如何使用不同的人工智能技术组合来自己创建一个。

为了创建一个集成GPT-4V、Whisper和TTS来模拟原始Gemini的演示，开发人员踏上了复杂的技术之旅。此过程首先设置一个Next.js项目，该项目作为合并视频录制、音频转录和图像网格生成等功能的基础。对OpenAI的API调用的实现至关重要，因为它允许AI与用户对话、回答他们的询问并提供实时响应。

用户体验的设计是演示的核心，重点是创建一个直观的界面，促进与人工智能的自然交互，类似于与另一个人进行对话。这包括人工智能以适当的方式理解和响应视觉提示的能力。

使用GPT-4V、Whisper和文本转语音技术重建Gemini演示清楚地表明人工智能可以通过多种感官理解我们并与我们互动的未来正在取得进展。这一发展有望提供更加自然和身临其境的体验。人工智能社区的持续贡献和想法对于塑造多模式应用的未来至关重要。