FOREWORD 前言

开发Sora的团队核心成员只有13人，他们均来自顶尖大学的计算机科学专业。该团队希望创建一个能理解和响应人类自然语言的智能系统，利用多模态语言模型提高人工智能系统的交互性和智能化程度。该团队的目标不仅是使机器能理解和生成语言，还希望机器能理解和生成各种形式的媒体内容，如对话、图形、图像、视频、音频等，从而实现真正的多模态交互。

本书共分为四部分。

第一部分详细介绍通信技术的演进，以及文字生成、图像生成、视频生成、多模态大模型、语音生成等技术，并深度剖析Sora的视频案例，展示Sora广泛的应用范围及在视频生成中的优势和效果。

第二部分深入探讨Sora在娱乐与影视制作、教育与培训、游戏与虚拟现实、医疗与健康等多个行业的潜力，展示其商业价值和社会价值，并对案例进行详细解析。

第三部分详细讲解Sora在生成视频时用到的各种技术。

第四部分首先介绍Sora面临的技术挑战，客观分析了Sora在物理交互模式、对象状态变化的准确性、长视频连贯性、算力、能源等方面面临的挑战。这些挑战是Sora未来发展的关键，需要得到充分的重视。接着从伦理、法律与社会影响方面介绍Sora可能面临的挑战。最后从技术创新、跨领域合作与产业融合等方向，为Sora的未来发展提供了思路和建议，并介绍Sora未来发展战略规划。

本书内容丰富、结构清晰、逻辑严密，既包含Sora的应用实践和挑战，也涉及其技术基础和未来发展方向，对读者有一定的参考价值和指导意义。

在本书的写作过程中，我遇到了一些挑战，可能会导致书中有一些不足，希望读者批评指正。同时感谢电子工业出版社的白雪纯编辑和相关工作人员的支持。

林富荣

2024年6月