热门

Gen-2

1年前发布 1,496 0 0

Runway最新推出的AI视频生成模型

收录时间：

2024-01-21

打开网站手机查看

Gen-2

Gen-2

Runway最新推出的AI视频生成模型

数据统计

相关导航

新GPT-4o

OpenAI最新发布的多模态AI大...

新Gemma

Gemma是什么 Gemma是由谷歌DeepMind和谷歌的其他团队开发的一系列轻量级、先进的开放AI模型，基于与Gemini模型相同的技术，旨在帮助开发者和研究人员构建负责任的AI应用。Gemma模型系列包括两种权重规模的模型：Gemma 2B 和 Gemma 7B，提供预训练和指令微调版本，支持多种框架，如JAX、PyTorch和TensorFlow，以在不同设备上高效运行。 Gemma的官方入口 Gemma的官网主页：https://ai.google.dev/gemma?hl=zh-cn Gemma的Hugging Face模型：https://huggingface.co/models?search=google/gemma Gemma的Kaggle模型地址：https://www.kaggle.com/models/google/gemma/code/ Gemma的技术报告：https://storage.googleapis.com/deepmind-media/gemma/gemma-report.pdf 官方PyTorch实现GitHub代码库：https://github.com/google/gemma_pytorch Gemma的Google Colab运行地址：https://colab.research.google.com/github/google/generative-ai-docs/blob/main/site/en/gemma/docs/lora_tuning.ipynb Gemma的主要特性轻量级架构：Gemma模型设计为轻量级，便于在多种计算环境中运行，包括个人电脑和工作站。开放模型：Gemma模型的权重是开放的，允许用户在遵守许可协议的情况下进行商业使用和分发。预训练与指令微调：提供预训练模型和经过指令微调的版本，后者通过人类反馈强化学习（RLHF）来确保模型行为的负责任性。多框架支持：Gemma支持JAX、PyTorch和TensorFlow等主要AI框架，通过Keras 3.0提供工具链，简化了推理和监督微调（SFT）过程。安全性与可靠性：在设计时，Gemma遵循Google的AI原则，使用自动化技术过滤训练数据中的敏感信息，并进行了一系列安全评估，包括红队测试和对抗性测试。性能优化：Gemma模型针对NVIDIA GPU和Google Cloud TPUs等硬件平台进行了优化，确保在不同设备上都能实现高性能。社区支持：Google提供了Kaggle、Colab等平台的免费资源，以及Google Cloud的积分，鼓励开发者和研究人员利用Gemma进行创新和研究。跨平台兼容性：Gemma模型可以在多种设备上运行，包括笔记本电脑、台式机、物联网设备和云端，支持广泛的AI功能。负责任的AI工具包：Google还发布了Responsible Generative AI Toolkit，帮助开发者构建安全和负责任的AI应用，包括安全分类器、调试工具和应用指南。 Gemma的技术要点模型架构：Gemma基于Transformer解码器构建，这是当前自然语言处理（NLP）领域最先进的模型架构之一。采用了多头注意力机制，允许模型在处理文本时同时关注多个部分。此外，Gemma还使用了旋转位置嵌入（RoPE）来代替绝对位置嵌入，以减少模型大小并提高效率。GeGLU激活函数取代了标准的ReLU非线性激活，以及在每个Transformer子层的输入和输出都进行了归一化处理。训练基础设施：Gemma模型在Google的TPUv5e上进行训练，这是一种专为机器学习设计的高性能计算平台。通过在多个Pod（芯片集群）上进行模型分片和数据复制，Gemma能够高效地利用分布式计算资源。预训练数据：Gemma模型在大量英语数据上进行预训练（2B模型大约2万亿个token的数据上预训练，而7B模型则基于6万亿个token），这些数据主要来自网络文档、数学和代码。预训练数据经过过滤，以减少不想要或不安全的内容，同时确保数据的多样性和质量。微调策略：Gemma模型通过监督式微调（SFT）和基于人类反馈的强化学习（RLHF）进行微调。这包括使用合成的文本对和人类生成的提示响应对，以及基于人类偏好数据训练的奖励模型。安全性和责任：Gemma在设计时考虑了模型的安全性和责任，包括在预训练阶段对数据进行过滤，以减少敏感信息和有害内容的风险。此外，Gemma还通过了一系列的安全性评估，包括自动化基准测试和人类评估，以确保模型在实际应用中的安全性。性能评估：Gemma在多个领域进行了广泛的性能评估，包括问答、常识推理、数学和科学问题解答以及编码任务。Gemma模型与同样规模或更大规模的开放模型进行了性能对比，在MMLU、MBPP等18个基准测试中，有11个测试结果超越了Llama-13B或Mistral-7B等模型。开放性和可访问性：Gemma模型以开源的形式发布，提供了预训练和微调后的检查点，以及推理和部署的开源代码库。这使得研究人员和开发者能够访问和利用这些先进的语言模型，推动AI领域的创新。常见问题 Gemma一词的含义是什么？ Gemma在拉丁语中的意思是“宝石”。 Gemma是开源的吗？ Gemma是开源开放的大模型，用户可在Hugging Face查看和下载其模型。 Gemma模型的参数量是多少？ Gemma目前提供20亿和70亿参数量的模型，后续还会推出新的变体。

DeepSpeed

微软开源的低成本实现类似ChatGPT的模型训练

商量SenseChat

商量SenseChat是由商汤科技研发的一款基于自然语言处理技术的人工智能大语言模型，具备超凡的语言理解、生成能力，将科技与人文相互交融。类似于ChatGPT，作为高效聊天助手，它能秒解复杂问题，提供定制化建议，还能辅助创作一流文本，具备不断学习进化的特性。

HuggingFace

AI模型开发社区

Codex

OpenAI旗下AI代码生成训练模型

StableLM

StableLM是由Stable Diffusion背后的团队Stability AI最新推出的开源的类ChatGPT大语言模型，该模型目前处于Alpha版本，拥有的参数量分别为30亿和70亿，后续还将推出150亿到650亿参数模型。

新Sora

Sora是什么 Sora是由OpenAI研发的AI视频生成模型，具备将文本描述转化为视频的能力，能够创造出既逼真又富有想象力的视频场景。该模型专注于模拟物理世界的运动，旨在帮助人们解决需要现实世界互动的问题。相较于Pika、Runway、PixVerse、Morph Studio、Genmo等只能生成四五秒的AI视频工具，Sora能够生成长达一分钟的视频，同时保持视觉质量和对用户输入的高度还原。除从零开始创建视频，Sora还能基于现有静态图像生成动画，或者扩展和补全现有视频。需要注意的是，尽管Sora的功能看起来非常强大，但目前还没有正式对外开放，OpenAI正在对其进行红队测试、安全检查和优化。OpenAI的官网上目前只有对Sora的介绍、视频Demo和技术讲解，暂未提供可直接使用的视频生成工具或API。madewithsora.com网站上收集了Sora生成的视频，感兴趣的朋友可以前往观看。 Sora的主要功能文本驱动的视频生成：Sora 能够根据用户提供的详细文本描述，生成与之相符的视频内容。这些描述可以涉及场景、角色、动作、情感等多个方面。视频质量与忠实度：生成的视频保持高质量的视觉效果，并且紧密遵循用户的文本提示，确保视频内容与描述相符。模拟物理世界：Sora旨在模拟现实世界的运动和物理规律，使得生成的视频在视觉上更加逼真，能够处理复杂的场景和角色动作。多角色与复杂场景处理：模型能够处理包含多个角色和复杂背景的视频生成任务，尽管在某些情况下可能存在局限性。视频扩展与补全：Sora不仅能从头开始生成视频，还能基于现有的静态图像或视频片段进行动画制作，或者延长现有视频的长度。 Sora的技术原理 OpenAI Sora的技术架构猜想文本条件生成：Sora模型能够根据文本提示生成视频，这是通过将文本信息与视频内容相结合实现的。这种能力使得模型能够理解用户的描述，并生成与之相符的视频片段。视觉块（Visual Patches）：Sora将视频和图像分解为小块的视觉块，作为视频和图像的低维表示。这种方法允许模型处理和理解复杂的视觉信息，同时保持计算效率。视频压缩网络：在生成视频之前，Sora使用一个视频压缩网络将原始视频数据压缩到一个低维的潜在空间。这个压缩过程减少了数据的复杂性，使得模型更容易学习和生成视频内容。空间时间块（Spacetime Patches）：在视频压缩后，Sora进一步将视频表示分解为一系列空间时间块，作为模型的输入，使得模型能够处理和理解视频的时空特性。扩散模型（Diffusion Model）：Sora采用扩散模型（基于Transformer架构的DiT模型）作为其核心生成机制。扩散模型通过逐步去除噪声并预测原始数据的方式来生成内容。在视频生成中，这意味着模型会从一系列噪声补丁开始，逐步恢复出清晰的视频帧。 Transformer架构：Sora利用Transformer架构来处理空间时间块。Transformer是一种强大的神经网络模型，在处理序列数据（如文本和时间序列）方面表现出色。在Sora中，Transformer用于理解和生成视频帧序列。大规模训练：Sora在大规模的视频数据集上进行训练，这使得模型能够学习到丰富的视觉模式和动态变化。大规模训练有助于提高模型的泛化能力，使其能够生成多样化和高质量的视频内容。文本到视频的生成：Sora通过训练一个描述性字幕生成器，将文本提示转换为详细的视频描述。然后，这些描述被用来指导视频生成过程，确保生成的视频内容与文本描述相匹配。零样本学习：Sora能够通过零样本学习来执行特定的任务，如模拟特定风格的视频或游戏。即模型能够在没有直接训练数据的情况下，根据文本提示生成相应的视频内容。模拟物理世界：Sora在训练过程中展现出了模拟物理世界的能力，如3D一致性和物体持久性，表明该模型能够在一定程度上理解并模拟现实世界中的物理规律。 OpenAI官方Sora技术报告：https://openai.com/research/video-generation-models-as-world-simulators 机器之心解读的Sora技术细节：https://www.jiqizhixin.com/articles/2024-02-16-7 赛博禅心 - 中学生能看懂：Sora 原理解读：https://mp.weixin.qq.com/s/KUnXlDlg-Rs_6D5RFpQbnQ Sora的应用场景社交媒体短片制作：内容创作者快速制作出吸引人的短片，用于在社交媒体平台上分享。创作者可以轻松地将他们的想法转化为视频，而无需投入大量的时间和资源去学习视频编辑软件。Sora还可以根据社交媒体平台的特点（如短视频、直播等）生成适合特定格式和风格的视频内容。广告营销：快速生成广告视频，帮助品牌在短时间内传达核心信息。Sora可以生成具有强烈视觉冲击力的动画，或者模拟真实场景来展示产品特性。此外，Sora还可以帮助企业测试不同的广告创意，通过快速迭代找到最有效的营销策略。原型设计和概念可视化：对于设计师和工程师来说，Sora可以作为一个强大的工具来可视化他们的设计和概念。例如，建筑师可以使用Sora生成建筑项目的三维动画，让客户更直观地理解设计意图。产品设计师可以利用 Sora 展示新产品的工作原理或用户体验流程。影视制作：辅助导演和制片人在前期制作中快速构建故事板，或者生成初步的视觉效果。这可以帮助团队在实际拍摄前更好地规划场景和镜头。此外，Sora还可以用于生成特效预览，让制作团队在预算有限的情况下，探索不同的视觉效果。教育和培训：Sora 可以用来创建教育视频，帮助学生更好地理解复杂的概念。例如，它可以生成科学实验的模拟视频，或者历史事件的重现，使得学习过程更加生动和直观。如何使用Sora OpenAI Sora目前暂未提供公开访问使用的入口，该模型正在接受红队（安全专家）的评估，只向少数视觉艺术家、设计师和电影制作人进行测试评估。OpenAI没有指定更广泛的公众可用性的具体时间表，不过可能是2024年的某个时间。若想现在获得访问权限，个人需要根据OpenAI定义的专家标准获得资格，其中包括属于参与评估模型有用性和风险缓解策略的相关专业团体。

暂无评论

none

暂无评论...