“O”:视频输出。2023年,我们看到了文字到视频合成的浪潮:WALT(谷歌)、EmuVideo(Meta)、Align Your Latents(英伟达)、Pika等等,数不胜数。然而,大多数生成的片段仍然很短。我将它们视为AI视频的“系统1”——“无意识”的局部像素运动。
在快手,食品品牌大嘴鳄长期合作了超2万名快手达人,这让大嘴鳄入驻快手仅一年就做到了年GMV过亿。
论文地址:https://aclanthology.org/2023.findings-emnlp.157.pdf
专利的大型语言模型如 GPT-4被用来生成包括多语言指令在内的各种合成数据。通过利用 Mistral 模型强大的语言理解能力,该方法在几乎所有工作类别上在激烈竞争的 MTEB 基准测试中取得了出色的性能。
项目地址:https://github.com/wenquanlu/HandRefiner/