训练模型

共 52 篇网址

新AnythingLLM

开源的全栈 AI 客户端，支持本地部署和API集成

0290

新Chatbox AI

开源的AI客户端助手，支持多种主流AI模型

0220

新Cherry Studio

多模型AI客户端，本地运行AI大模型

0370

新讯飞星辰

科大讯飞推出的AI大模型定制训练平台

0620

新豆包大模型

豆包大模型是什么豆包大模型是字节跳动推出的AI大模型家族，包括豆包PixelDance、豆包Seaweed 视频生成、文生图、图生图、同声传译、角色扮演、语音合成、声音复刻、语音识别、Function Call和向量化等多个模型。豆包大模型具备强大的语言理解、生成和逻辑能力，能进行个性化创作、情绪丰富的语音合成、高精度语音识别、多风格图像生成和顶级的视频生成。豆包大模型通过火山引擎提供服务，支持企业和开发者构建智能化应用，推动AI技术在多种业务场景中的落地。豆包大模型的性能在多个评测中表现优异，例如在包括MMLU、BBH、GSM8K和HumanEval在内的11个业界公认的基准测试集中，Doubao-pro-4k模型的总体得分达到了76.8分，在代码能力、专业知识和指令遵循等方面的显著进步。豆包大模型的主要功能通用模型：字节跳动自研LLM模型，支持128K长文本，全系列可精调，具备更强的理解、生成、逻辑等综合能力，适配问答、总结、创作、分类等丰富场景。视频生成：通过精准语义理解、强大动态及运镜能力创作高质量视频，支持文本和图片生成两种模式。角色扮演：创作个性化角色，具备上下文感知和剧情推动能力，适合虚拟互动和故事创作。语音合成：生成自然生动的语音，能表达多种情绪，适用于文本到语音转换。声音复刻：快速克隆声音，高度还原音色和自然度，支持跨语种迁移，用于个性化语音合成。语音识别：准确识别和转录语音，支持多语种，适用于语音命令和转录服务。文生图：将文本转换为图像，擅长图文匹配和中国文化元素创作，用于图像生成和视觉内容创作。图生图：基于现有图像生成新图像，支持风格变换、扩图、重绘和涂抹等创意操作。同声传译：提供超低延时且自然高质量的实时翻译，支持跨语言同音色翻译，打破沟通中的语言壁垒。 Function Call：准确识别和抽取功能参数，适合复杂工具调用和智能交互。向量化：提供向量检索能力，支持LLM知识库的核心理解，适用于多语言处理。豆包大模型的功能特点豆包通用模型Pro：字节跳动自研的高级语言模型，支持128K长文本处理，适用于问答、总结、创作等多种场景。豆包通用模型Lite：轻量级语言模型，提供更低的成本和延迟，适合预算有限的企业使用。豆包·视频生成模型：利用先进的语义理解技术，将文本和图片转化为引人入胜的高质量视频内容。豆包·语言识别模型：具备高准确率和灵敏度，能够快速准确地识别和转写多种语言的语音。豆包·Function Call模型：专为复杂工具调用设计，提供精确的功能识别和参数抽取能力。豆包·文生图模型：将文字描述转化为精美图像，尤其擅长捕捉和表现中国文化元素。豆包·语音合成模型：能够合成自然、生动的语音，表达丰富的情感和场景。豆包·向量化模型：专注于向量检索，为知识库提供核心理解能力，支持多种语言。豆包·声音复刻模型：仅需5秒即可实现声音的1:1克隆，提供高度相似的音色和自然度。豆包·同声传译模型：实现超低延迟的实时翻译，支持跨语言同音色翻译，消除语言障碍。豆包·角色扮演模型：具备个性化角色创作能力，能够根据上下文感知和剧情推动进行灵活的角色扮演。豆包大模型的产品官网产品官网：volcengine.com/product/doubao 如何使用豆包大模型确定需求：明确项目或业务需求，比如是否需要文本生成、语音识别、图像创作、视频生成等。选择合适的模型：根据需求选择合适的豆包大模型，例如文生图模型、语音合成、视频生成模型等。注册和访问火山引擎：访问火山引擎官网注册账户，是字节跳动的云服务平台，提供豆包大模型的服务。申请访问权限：在火山引擎平台上申请使用豆包大模型的权限，填写相关信息和使用场景。 API接入：获取相应的API接口信息，包括API的端点、请求方法和必要的认证信息。开发和测试：根据API文档开发应用程序，将豆包大模型集成到你的业务流程中。进行充分测试，确保模型的输出符合预期。部署应用：在测试无误后，将集成了豆包大模型的应用部署到生产环境。监控和优化：监控应用的性能和模型的效果，根据反馈进行优化。豆包大模型的产品定价大语言模型按tokens使用量付费： Doubao-lite-4k（包括分支版本lite-character）：上下文长度4K、输入0.0003元/千tokens、输出0.0003元/千tokens、后付费、免费额度50万tokens。 Doubao-lite-32k：上下文长度32K、输入0.0003元/千tokens、输出0.0006元/千tokens后付费、免费额度50万tokens。 Doubao-lite-128k：上下文长度128K、输入0.0008元/千tokens、输出0.0010元/千tokens后付费、免费额度50万tokens。 Doubao-pro-4k（包括分支版本pro-character、pro-functioncall）：上下文长度4K、输入0.0008元/千tokens、输出0.0020元/千tokens后付费、免费额度50万tokens。 Doubao-pro-32k：上下文长度32K、输入0.0008元/千tokens、输出0.0020元/千tokens后付费、免费额度50万tokens。 Doubao-pro-128k：上下文长度128K、输入0.0050元/千tokens、输出0.0090元/千tokens后付费、免费额度50万tokens。按模型单元付费：独占的算力资源，更加独立可控 Doubao-lite-4k、Doubao-lite-32k：可承载性能（TPS）3000、按小时60元/个、包月28000元/个。 Doubao-lite-128k：可承载性能（TPS）4500、按小时240元/个、包月112000元/个。 Doubao-pro-4k、Doubao-pro-32k：可承载性能（TPS）3200、按小时160元/个、包月80000元/个。 Doubao-pro-128k：可承载性能（TPS）3500、按小时1200元/个、包月550000元/个。视觉模型豆包-文生图模型-智能绘图：推理服务、0.2元/次、后付费、免费额度200次。语音大模型 Doubao-语音合成：推理服务、5元/万字符、后付费、免费额度5000字符。 Doubao-声音复刻：推理服务、8元/万字符、后付费、免费额度5000字符。向量模型 Doubao-embedding：最长输入长度4K、输入0.0005元/千tokens、后付费、免费50万tokens。模型精调按tokens使用量（训练文本*训练迭代次数）计费，训练完成后出账。 Doubao-lite-4k、Doubao-lite-32k、Doubao-lite-128k：LoRA定价0.03元/千tokens、后付费。 Doubao-pro-4k、Doubao-pro-32k、Doubao-pro-128k：LoRA定价0.05元/千tokens、后付费。更多模型及定价信息，可访问豆包大模型官网获取最新信息。豆包大模型的应用场景内容创作与媒体：使用文生图、图生图、视频生成模型生成文章配图、漫画、海报、短视频等视觉内容。语音合成模型为视频、动画制作配音。客户服务：通过角色扮演模型提供虚拟客服和聊天机器人服务。使用语音识别和语音合成模型改善语音客服系统。教育与培训：文生图模型辅助教学材料的制作，如生成教学插图。角色扮演模型创建个性化学习体验和虚拟教师。娱乐与游戏：在游戏中使用角色扮演模型创建非玩家角色（NPC）的对话和行为。用语音合成模型为游戏角色提供自然的语言交流。智能助手：结合语音识别和语音合成模型，开发智能个人助理。用文生图模型生成个性化的推荐内容。市场与广告：用文生图模型自动生成广告创意和营销素材。用通用模型分析消费者反馈，优化广告文案。企业自动化：通过Function Call模型自动化复杂的工作流程和工具调用。用向量化模型进行高效的信息检索和知识管理。搜索与推荐：用向量化模型改善搜索引擎的准确性和响应速度。结合通用模型为用户推荐相关内容或产品。法律与金融：用通用模型进行合同分析、案件研究和合规检查。用语音识别模型转录会议记录和访谈内容。

01770

开发框架训练模型

GPT-4o

OpenAI最新发布的多模态AI大...

0870

新GPT-4o

OpenAI最新发布的多模态AI大...

01910

怪兽AI知识库大模型

企业知识库大模型 + 智能的AI问答机器人

01840

训练模型 # AI写作 # 大模型 # 智能客服

新Llama 3

Meta最新开源推出的新一代大模型

01660

新Gemma

Gemma是什么 Gemma是由谷歌DeepMind和谷歌的其他团队开发的一系列轻量级、先进的开放AI模型，基于与Gemini模型相同的技术，旨在帮助开发者和研究人员构建负责任的AI应用。Gemma模型系列包括两种权重规模的模型：Gemma 2B 和 Gemma 7B，提供预训练和指令微调版本，支持多种框架，如JAX、PyTorch和TensorFlow，以在不同设备上高效运行。 Gemma的官方入口 Gemma的官网主页：https://ai.google.dev/gemma?hl=zh-cn Gemma的Hugging Face模型：https://huggingface.co/models?search=google/gemma Gemma的Kaggle模型地址：https://www.kaggle.com/models/google/gemma/code/ Gemma的技术报告：https://storage.googleapis.com/deepmind-media/gemma/gemma-report.pdf 官方PyTorch实现GitHub代码库：https://github.com/google/gemma_pytorch Gemma的Google Colab运行地址：https://colab.research.google.com/github/google/generative-ai-docs/blob/main/site/en/gemma/docs/lora_tuning.ipynb Gemma的主要特性轻量级架构：Gemma模型设计为轻量级，便于在多种计算环境中运行，包括个人电脑和工作站。开放模型：Gemma模型的权重是开放的，允许用户在遵守许可协议的情况下进行商业使用和分发。预训练与指令微调：提供预训练模型和经过指令微调的版本，后者通过人类反馈强化学习（RLHF）来确保模型行为的负责任性。多框架支持：Gemma支持JAX、PyTorch和TensorFlow等主要AI框架，通过Keras 3.0提供工具链，简化了推理和监督微调（SFT）过程。安全性与可靠性：在设计时，Gemma遵循Google的AI原则，使用自动化技术过滤训练数据中的敏感信息，并进行了一系列安全评估，包括红队测试和对抗性测试。性能优化：Gemma模型针对NVIDIA GPU和Google Cloud TPUs等硬件平台进行了优化，确保在不同设备上都能实现高性能。社区支持：Google提供了Kaggle、Colab等平台的免费资源，以及Google Cloud的积分，鼓励开发者和研究人员利用Gemma进行创新和研究。跨平台兼容性：Gemma模型可以在多种设备上运行，包括笔记本电脑、台式机、物联网设备和云端，支持广泛的AI功能。负责任的AI工具包：Google还发布了Responsible Generative AI Toolkit，帮助开发者构建安全和负责任的AI应用，包括安全分类器、调试工具和应用指南。 Gemma的技术要点模型架构：Gemma基于Transformer解码器构建，这是当前自然语言处理（NLP）领域最先进的模型架构之一。采用了多头注意力机制，允许模型在处理文本时同时关注多个部分。此外，Gemma还使用了旋转位置嵌入（RoPE）来代替绝对位置嵌入，以减少模型大小并提高效率。GeGLU激活函数取代了标准的ReLU非线性激活，以及在每个Transformer子层的输入和输出都进行了归一化处理。训练基础设施：Gemma模型在Google的TPUv5e上进行训练，这是一种专为机器学习设计的高性能计算平台。通过在多个Pod（芯片集群）上进行模型分片和数据复制，Gemma能够高效地利用分布式计算资源。预训练数据：Gemma模型在大量英语数据上进行预训练（2B模型大约2万亿个token的数据上预训练，而7B模型则基于6万亿个token），这些数据主要来自网络文档、数学和代码。预训练数据经过过滤，以减少不想要或不安全的内容，同时确保数据的多样性和质量。微调策略：Gemma模型通过监督式微调（SFT）和基于人类反馈的强化学习（RLHF）进行微调。这包括使用合成的文本对和人类生成的提示响应对，以及基于人类偏好数据训练的奖励模型。安全性和责任：Gemma在设计时考虑了模型的安全性和责任，包括在预训练阶段对数据进行过滤，以减少敏感信息和有害内容的风险。此外，Gemma还通过了一系列的安全性评估，包括自动化基准测试和人类评估，以确保模型在实际应用中的安全性。性能评估：Gemma在多个领域进行了广泛的性能评估，包括问答、常识推理、数学和科学问题解答以及编码任务。Gemma模型与同样规模或更大规模的开放模型进行了性能对比，在MMLU、MBPP等18个基准测试中，有11个测试结果超越了Llama-13B或Mistral-7B等模型。开放性和可访问性：Gemma模型以开源的形式发布，提供了预训练和微调后的检查点，以及推理和部署的开源代码库。这使得研究人员和开发者能够访问和利用这些先进的语言模型，推动AI领域的创新。常见问题 Gemma一词的含义是什么？ Gemma在拉丁语中的意思是“宝石”。 Gemma是开源的吗？ Gemma是开源开放的大模型，用户可在Hugging Face查看和下载其模型。 Gemma模型的参数量是多少？ Gemma目前提供20亿和70亿参数量的模型，后续还会推出新的变体。

01,3620

新Sora

Sora是什么 Sora是由OpenAI研发的AI视频生成模型，具备将文本描述转化为视频的能力，能够创造出既逼真又富有想象力的视频场景。该模型专注于模拟物理世界的运动，旨在帮助人们解决需要现实世界互动的问题。相较于Pika、Runway、PixVerse、Morph Studio、Genmo等只能生成四五秒的AI视频工具，Sora能够生成长达一分钟的视频，同时保持视觉质量和对用户输入的高度还原。除从零开始创建视频，Sora还能基于现有静态图像生成动画，或者扩展和补全现有视频。需要注意的是，尽管Sora的功能看起来非常强大，但目前还没有正式对外开放，OpenAI正在对其进行红队测试、安全检查和优化。OpenAI的官网上目前只有对Sora的介绍、视频Demo和技术讲解，暂未提供可直接使用的视频生成工具或API。madewithsora.com网站上收集了Sora生成的视频，感兴趣的朋友可以前往观看。 Sora的主要功能文本驱动的视频生成：Sora 能够根据用户提供的详细文本描述，生成与之相符的视频内容。这些描述可以涉及场景、角色、动作、情感等多个方面。视频质量与忠实度：生成的视频保持高质量的视觉效果，并且紧密遵循用户的文本提示，确保视频内容与描述相符。模拟物理世界：Sora旨在模拟现实世界的运动和物理规律，使得生成的视频在视觉上更加逼真，能够处理复杂的场景和角色动作。多角色与复杂场景处理：模型能够处理包含多个角色和复杂背景的视频生成任务，尽管在某些情况下可能存在局限性。视频扩展与补全：Sora不仅能从头开始生成视频，还能基于现有的静态图像或视频片段进行动画制作，或者延长现有视频的长度。 Sora的技术原理 OpenAI Sora的技术架构猜想文本条件生成：Sora模型能够根据文本提示生成视频，这是通过将文本信息与视频内容相结合实现的。这种能力使得模型能够理解用户的描述，并生成与之相符的视频片段。视觉块（Visual Patches）：Sora将视频和图像分解为小块的视觉块，作为视频和图像的低维表示。这种方法允许模型处理和理解复杂的视觉信息，同时保持计算效率。视频压缩网络：在生成视频之前，Sora使用一个视频压缩网络将原始视频数据压缩到一个低维的潜在空间。这个压缩过程减少了数据的复杂性，使得模型更容易学习和生成视频内容。空间时间块（Spacetime Patches）：在视频压缩后，Sora进一步将视频表示分解为一系列空间时间块，作为模型的输入，使得模型能够处理和理解视频的时空特性。扩散模型（Diffusion Model）：Sora采用扩散模型（基于Transformer架构的DiT模型）作为其核心生成机制。扩散模型通过逐步去除噪声并预测原始数据的方式来生成内容。在视频生成中，这意味着模型会从一系列噪声补丁开始，逐步恢复出清晰的视频帧。 Transformer架构：Sora利用Transformer架构来处理空间时间块。Transformer是一种强大的神经网络模型，在处理序列数据（如文本和时间序列）方面表现出色。在Sora中，Transformer用于理解和生成视频帧序列。大规模训练：Sora在大规模的视频数据集上进行训练，这使得模型能够学习到丰富的视觉模式和动态变化。大规模训练有助于提高模型的泛化能力，使其能够生成多样化和高质量的视频内容。文本到视频的生成：Sora通过训练一个描述性字幕生成器，将文本提示转换为详细的视频描述。然后，这些描述被用来指导视频生成过程，确保生成的视频内容与文本描述相匹配。零样本学习：Sora能够通过零样本学习来执行特定的任务，如模拟特定风格的视频或游戏。即模型能够在没有直接训练数据的情况下，根据文本提示生成相应的视频内容。模拟物理世界：Sora在训练过程中展现出了模拟物理世界的能力，如3D一致性和物体持久性，表明该模型能够在一定程度上理解并模拟现实世界中的物理规律。 OpenAI官方Sora技术报告：https://openai.com/research/video-generation-models-as-world-simulators 机器之心解读的Sora技术细节：https://www.jiqizhixin.com/articles/2024-02-16-7 赛博禅心 - 中学生能看懂：Sora 原理解读：https://mp.weixin.qq.com/s/KUnXlDlg-Rs_6D5RFpQbnQ Sora的应用场景社交媒体短片制作：内容创作者快速制作出吸引人的短片，用于在社交媒体平台上分享。创作者可以轻松地将他们的想法转化为视频，而无需投入大量的时间和资源去学习视频编辑软件。Sora还可以根据社交媒体平台的特点（如短视频、直播等）生成适合特定格式和风格的视频内容。广告营销：快速生成广告视频，帮助品牌在短时间内传达核心信息。Sora可以生成具有强烈视觉冲击力的动画，或者模拟真实场景来展示产品特性。此外，Sora还可以帮助企业测试不同的广告创意，通过快速迭代找到最有效的营销策略。原型设计和概念可视化：对于设计师和工程师来说，Sora可以作为一个强大的工具来可视化他们的设计和概念。例如，建筑师可以使用Sora生成建筑项目的三维动画，让客户更直观地理解设计意图。产品设计师可以利用 Sora 展示新产品的工作原理或用户体验流程。影视制作：辅助导演和制片人在前期制作中快速构建故事板，或者生成初步的视觉效果。这可以帮助团队在实际拍摄前更好地规划场景和镜头。此外，Sora还可以用于生成特效预览，让制作团队在预算有限的情况下，探索不同的视觉效果。教育和培训：Sora 可以用来创建教育视频，帮助学生更好地理解复杂的概念。例如，它可以生成科学实验的模拟视频，或者历史事件的重现，使得学习过程更加生动和直观。如何使用Sora OpenAI Sora目前暂未提供公开访问使用的入口，该模型正在接受红队（安全专家）的评估，只向少数视觉艺术家、设计师和电影制作人进行测试评估。OpenAI没有指定更广泛的公众可用性的具体时间表，不过可能是2024年的某个时间。若想现在获得访问权限，个人需要根据OpenAI定义的专家标准获得资格，其中包括属于参与评估模型有用性和风险缓解策略的相关专业团体。

01,3050

视频工具训练模型

新天壤小白

天壤小白是什么？天壤小白是天壤公司开发的一个通用大语言模型，它是一个基于互联网公开数据训练而成的人工智能模型，拥有高达1860亿个参数。这个模型采用了生成式架构，具备强大的语义理解和上下文感知能力，能够精准捕捉文本中的语义关联，并理解用户的指令和意图。天壤小白应用开发平台是一个专为开发者设计的平台，旨在帮助用户轻松构建、管理和运营基于天壤小白大语言模型的AI应用。该平台利用天壤小白大模型，结合Embedding模型，允许用户通过编写自然语言的方式创建可信赖的商业级AI应用。平台提供了多种应用类型和使用方式，以适应不同的业务场景。天壤小白应用开发平台的主要功能应用创建与管理：用户可以创建不同类型的AI应用，包括文本生成型、对话型、搜索型和工作流应用。平台提供了一个直观的界面，让用户能够轻松设置应用的图标、名称和类型。灵活的模型配置：平台提供了多种版本的天壤小白大语言模型，用户可以根据应用需求选择合适的模型。同时，用户还可以配置模型参数，如模型版本、输入输出长度限制等。提示词与上下文管理：用户可以设计提示词来指导AI模型生成特定的输出，同时管理上下文信息，确保AI应用在对话中保持连贯性。敏感词检测：为了确保内容的安全性，平台支持敏感词检测功能，用户可以设置敏感词列表，AI在生成内容时会自动过滤这些词汇。 API调用：平台提供了友好的API接口，开发者可以通过API将AI能力集成到自己的应用中，实现后端或前端的直接调用。 Web App在线访问：用户可以创建Web App，通过链接直接访问AI应用，无需复杂的部署过程。数据分析：平台提供了应用的数据分析功能，包括用量统计、活跃用户数、用户满意度等，帮助开发者了解应用的表现并进行优化。文档集功能：支持上传和解析多种格式的文档，如Excel、CSV、JSON等，以及图片和PDF文件，通过OCR技术提取文字。这些文档可以作为AI应用的知识库，提高回答的准确性和相关性。结构化文档支持：用户可以上传结构化文档，并设置召回字段，使得AI应用能够更准确地理解和回应基于特定字段的查询。

01,6550

Jan

Jan（Jan.ai）是一个免费开源的本地运行大模型并进行AI聊天对话的工具，可帮助用户在本地电脑（Windows、Mac、Linux）上安装、部署、运行并使用开源版本的ChatGPT替代大模型，如LLaMa、Mistral、Phi-2等20多个模型，也支持输入自己的OpenAI API Key以运行GPT。相较于AI工具集此前介绍的Ollama，该工具提供了对话UI和API服务器，适合开发者、研究人员或AI爱好者本地体验开源的大模型。 Jan的主要功能本地运行开源大模型：支持LlaMa、Mistral、Phi-2、DeepSeek、Yi等20多个模型，可手动导入也可以在模型库下载模型简洁好用的聊天界面：软件界面清爽简洁、直观易用，直接在本地与开源大模型快速进行对话聊天支持多个平台：Jan支持在Windows、Mac（Intel、M1/M2/M3）和Linux等操作系统运行，后续还将推出移动端APP。内置API服务器：与OpenAI API兼容，可通过API获取模型信息、下载、启动、停止模型及聊天等如何使用Jan 访问Jan的官网（jan.ai），选择对应的电脑操作系统版本，点击Download进行下载然后安装并打开软件，在软件界面的左下角点击Download your first model 进入模型库Hub界面，选择你感兴趣的模型进行下载，下载完成后点击Use使用该模型在对话界面输入你的描述即可与你选择的模型进行对话啦 Jan还在持续开发中，后续会支持移动端APP、创建AI助理、推理引擎、插件扩展等功能。

01,6760

GPT-4

GPT-4介绍 GPT-4（Generative Pre-trained Transformer）是 OpenAI 开发的自然语言处理模型 GPT 家族中的第四个版本，该模型依靠强大的神经网络来理解和生成类似人类的语言。如何免费使用GPT-4？不开会员的6种方法目前官方版的GPT-4仅能通过ChatGPT Plus付费会员才能使用，免费版的ChatGPT无法使用最新的GPT-4，而Plus版本需要每个月花费20美元来订阅，并且国内付款非常困... AI教程 7个月前 GPT-4 通过使用被称为「转换器（Transformer）」的特殊架构来帮助软件理解单词的含义以及它们在句子中的组合方式。通俗来讲，Transformer帮助计算机找出如何将所有的词以正确的顺序放在一起，使之有意义。之所以采用这样的方法，是因为该模型已经在一个巨大的数据集上进行了训练，其中包括来自不同来源的文本，如书籍、文章和网站。这种训练使 GPT-4 模型能够进行类似人类的对话，并产生看似有意义的回应。不过虽然 GPT-4 创造的文本和回应读起来像人，但它远远不是有意识的智能，离通用人工智能还有距离。 GPT-4的工作原理 GPT-4通过与其前身（GPT-3.5）相同的基本流程工作，但规模更大，以下是其主要的工作原理： Transformer架构： GPT-4是使用一种叫做「Transformer」的设计来构建的，这些转换器就像超级智能机器，能够理解一句话中哪些词是重要的，以及它们之间的关系。大规模的预训练： GPT-4从大量的文本中学习，如书籍、网站和文章，这样一来，它就能更好地理解语言模式、语法和事实。微调（Fine-tuning）：在从大量文本中学习后，GPT-4会在特定的任务中接受训练，如回答问题或理解文本中的情感，这有助于它在处理这些任务时变得更加出色。分词（Tokenization）： GPT-4将文本分解成更小的部分，称为「tokens」，这些token可以是单词或单词的一部分，这有助于它处理不同的语言并理解词语的含义。上下文窗口（Context window）： GPT-4有一个限制，即它可以一次查看多少个token。这个限制有助于它理解语境和单词之间的关系，但这也意味着它不一定能理解很长的句子或段落。概率分布和抽样：当GPT-4生成文本时，它根据模型认为每个词的可能性的大小来猜测下一个词。然后，它从这些猜测中挑选出一个词，使其够创造出多样化和有趣的句子。细粒度控制（Fine-grained control）： GPT-4可以通过使用特殊提示或调整其设置等技巧，引导它给出特定类型的答案或文本，以帮助从该模型中获得我们想要的结果。 ChatGPT和GPT-4的区别 ChatGPT 和 GPT-4 并不是同一回事，ChatGPT 是基于 GPT-3.5 和 GPT-4 模型的，专门为对话式人工智能应用而设计的，比如根据用户输入生成类似人类的文本回复。而GPT-4指的是GPT系列大语言模型的当前版本——驱动ChatGPT的引擎。 ChatGPT提供的输出读起来更自然，GPT-4更强大，在输入/输出方面可以处理更多文本。 GPT-4可以免费访问吗？这个问题的答案：是也不是。用户可以通过ChatGPT、New Bing等软件访问GPT-4，这些平台使用GPT-4来生成内容并与用户互动。然而，GPT-4只有在ChatGPT Plus付费计划下才能使用，或者作为开发者建立应用程序和服务的API。New Bing（新必应）可以每天免费有限次数使用GPT-4驱动的AI聊天，而独立用户在这些人工智能聊天机器人平台之外没有机会使用GPT-4。

01,6230

Auto-GPT

Auto-GPT是一个实验性开源应用程序，展示了GPT-4语言模型的真正潜力，GitHub上超10万人星标。该程序由 GPT-4 驱动，将LLM大语言模型思维链接在一起，以自主实现你设定的任何目标。作为GPT-4完全自主运行的首批例子之一，Auto-GPT突破了人工智能的极限，距离AGI通用人工智能又近了一步。大家注意甄别autogpt.net不是其官方网站，agpt.co才是。

01,3970

AgentGPT

在浏览器中组装、配置和部署自主人工智能的开源项目

02,1320

悟道

2021年6月，北京智源研究院（BAAI）推出了悟道1.0的后续版本悟道2.0，作为中国第一个超大规模智能模型系统。悟道是一个语言模型，旨在在人类层面的思维上超越 OpenAI 的 GPT-3 和谷歌的 LaMDA。经过4.9TB的图像和文本训练，并在9个基准上超过了最先进（SOTA）水平，悟道比任何同行都更接近于实现通用人工智能（AGI）和人类水平的思维。悟道接受了4.9 TB高质量英文和中文图像和文本的训练： 1.2TB中文文本数据 2.5TB中文图形数据 1.2TB英文文本数据悟道是基于开源的 MoE 系统 FastMoE 进行训练的。MoE是一种机器学习技术，其工作原理如下：将预测建模任务划分为子任务，针对每个子任务训练专家（学习者）模型，开发门控模型，该门控模型基于要预测的输入来学习咨询哪个专家，并组合预测。FastMoE使悟道能够并行咨询不同的专家模型，并切换到预测结果最好的模型。例如，如果输入是英文文本，悟道将使用预测模型，该模型可以在英文文本中生成回应。

01,7340

腾讯混元大模型

腾讯混元大模型是由腾讯自主研发的大语言模型，拥有超千亿参数规模，预训练语料超2万亿tokens，具有强大的中文理解与创作能力、逻辑推理能力，以及可靠的任务执行能力。腾讯混元的产品功能多轮对话。具备上下文理解和长文记忆能力，流畅完成各专业领域的多轮问答；内容创作。支持文学创作、文本摘要、角色扮演能力，流畅、规范、中立、客观；逻辑推理。准确理解用户意图，基于输入数据或信息进行推理、分析；知识增强。有效解决事实性、时效性问题，提升内容生成效果；多模态。支持文字生成图像能力，输入指令即可将奇思妙想变成图画。腾讯混元的应用场景文档场景。可提供文档创作、文本润色、文本校阅、表格公式及图表生成等能力，提高创作效率，提升创作体验；会议场景。可提供会中问答、会议总结、会议待办项整理等能力，简化会议操作并提高会议效率；广告场景。可提供智能化的广告素材创作，提供AI多模态生成能力，提升营销内容创作工作效率；营销场景。构建智能导购，帮助商家提升服务质量和服务效率。腾讯混元的官网入口用户可通过hunyuan.tencent.com访问腾讯混元大模型的网页，或者微信小程序搜索「腾讯混元助手」，然后申请内测体验即可。

01,8010

Coze

Coze是由字节跳动在海外推出的一个AI聊天机器人和应用程序编辑开发平台，可以理解为字节跳动版的GPTs。无论用户是否有编程经验，都可以通过该平台快速创建各种类型的聊天机器人、智能体、AI应用和插件，并将其部署在社交平台和即时聊天应用程序中，如Discord、WhatsApp、Twitter。有意思的地方在于，目前Coze提供的是基于OpenAI GPT-4和GPT-3.5的API来创建和使用AI聊天机器人，并未使用自研的云雀大模型。而此前媒体报道字节将于12月底推出一个开放平台并开启公测，允许用户自主创建自定义聊天机器人。如同此前推出的聊天机器人豆包国际版为Cici，后续字节可能推出一个国内版本的Coze，或许会采用云雀大模型的能力。 Coze的主要功能丰富的插件工具：该平台目前包含 60 多个不同的插件，包括新闻阅读、旅行计划、生产力工具、图像理解 API 和多模态模型知识库调取和管理：Coze提供易于使用的知识库功能，使 AI 能够与用户自己的数据（如PDF、网页文本）进行交互。可以存储和管理知识中的数据长期记忆能力：提供便捷的数据库存储能力，可以让 AI 机器人持久记住对话中的关键参数或内容定时计划任务：通过计划任务功能，用户可以使用自然语言轻松创建复杂的任务，创建好的机器人会准时发送相应的消息内容。工作流程自动化：轻松创建一个工作流程将创意想法转换为机器人技能，如收集电影评论、起草行业研究报告等预览和调试：机器人开发完成后，可以发送消息来查看机器人的响应，并根据知识搜索结果和工具响应来排查问题如何使用Coze创建机器人访问Coze的官网（coze.com），点击Get started登录/注册账号选择侧边栏的Bots菜单，点击Create bot，然后添加机器人Logo、名称、描述信息然后在Persona & Prompt输入框中输入机器人角色和提示词，右侧可预览和调试输出信息测试无误后可点击右上角的Publish发布创建好的机器人 Coze的适用人群开发人员：专注于为特定任务调整AI模型和提示词，而不是花费大量时间进行初始开发企业公司：通过将AI机器人集成到内部程序如客户支持系统、内容创作工具和推荐引擎中，开发创新的应用和服务研究人员：利用该平台作为实验工具进行各种研究任务，探索自然语言生成和理解 AI爱好者：免费的GPT API，创建自定义机器人用于日常生活、学习和工作中常见问题 Coze支持哪些大模型？ Coze目前支持通过GPT-3.5和GPT-4模型来构建AI机器人。 Coze是免费的吗？ Coze目前是免费向用户开放的，暂未推出付费版本。 Coze创建的机器人可以发布到哪些平台？ Coze目前支持将创建好的机器人发布到Discord和Cici，后续将支持WhatsApp和Twitter。

01,7850

Ollama

Ollama是一个用于在本地计算机上运行大型语言模型的命令行工具，允许用户下载并本地运行像Llama 2、Code Llama和其他模型，并支持自定义和创建自己的模型。该免费开源的项目，目前支持macOS和Linux操作系统，未来还将支持Windows系统。此外，Ollama还提供了官方的Docker镜像，由此使用Docker容器部署大型语言模型变得更加简单，确保所有与这些模型的交互都在本地进行，无需将私有数据发送到第三方服务。Ollama在macOS和Linux上支持GPU加速，并提供了简单的命令行界面（CLI）以及用于与应用程序交互的REST API。该工具对于需要在本地机器上运行和实验大语言模型的开发人员或研究人员来说特别有用，无需依赖外部云服务。 Ollama支持的模型 Ollma提供一个模型库，用户可以自行选择安装想要运行的模型，目前支持40+的模型，还在持续增加中，以下是可以下载的开源模型示例：模型参数大小文件大小下载运行命令 Neural Chat 7B 4.1GB ollama run neural-chat Starling 7B 4.1GB ollama run starling-lm Mistral 7B 4.1GB ollama run mistral Llama 2 7B 3.8GB ollama run llama2 Code Llama 7B 3.8GB ollama run codellama Llama 2 Uncensored 7B 3.8GB ollama run llama2-uncensored Llama 2 13B 13B 7.3GB ollama run llama2:13b Llama 2 70B 70B 39GB ollama run llama2:70b Orca Mini 3B 1.9GB ollama run orca-mini Vicuna 7B 3.8GB ollama run vicuna

01,6280

MiracleVision奇想智能

MiracleVision奇想智能是什么 MiracleVision奇想智能是由美图秀秀公司推出的自研AI视觉大模型，不仅具备高度的美学导向和图像处理能力，还能够广泛地应用于多个行业，提高工作流效率。同时，它还提供了简单易用的AI视觉创作工具，使用户能够快速进行图像的创作和编辑。最新的MiracleVision 4.0支持AI图片生成、AI设计排版和AI视频生成等能力。 MiracleVision奇想智能的主要能力 AI图片生成，支持文生图和图生图，输入文字或上传图像即可创作图片，提供多种风格、参数调整、图片尺寸、精准画面控制等 AI智能设计，包括矢量图形、文字特效、智能分层和智能排版，可以满足AI设计的基础需求 AI视频生成，提供文生视频、图生视频、视频运镜、视频生视频四大功能，让奇思妙想动起来视觉模型商店，平台提供丰富的视觉模型，从经典复古到现代潮流、从超现实幻想到极简抽象，用户可以任意选择创造惊艳的视觉效果 MiracleVision奇想智能的适用行业电商行业：从涂鸦生成线稿、线稿上色、商品图、模特试穿图，再到电商物料输出，全程可通过MiracleVision实现。游戏制作：包揽场景设计、角色设计、道具设计、UI图标、宣发物料等流程，拓宽设计师想象空间的同时助力游戏行业降本。影视行业：充分满足概念场景设计、分镜设计、人物造型、道具设计、宣发物料的效果要求，极大提升影视行业设计环节的效率。广告设计：覆盖创意脑暴、创意深化、平面排版、多尺寸延展、线下投放预览的全工作流，助力客户在广告物料制作环节提效。动漫卡通：打通了概念设计、故事板生成、线稿上色、动漫补帧、视频转动漫等流程，支持创意到物料成品的快速落地。

01,7440

Gradio

Gradio是一个开源的Python库，用于构建演示机器学习或数据科学，以及web应用程序。你可以使用Gradio基于自己的机器学习模型或数据科学工作流快速创建一个漂亮的用户界面，让用户可以尝试拖放他们自己的图像、输入文本、录制他们自己的声音，并通过浏览器与你的演示程序进行交互。Google、HuggingFace、亚马逊、Meta、思科、VMware等公司都在使用。 Gradio适用于: 向客户/合伙人/用户/学生演示您的机器学习模型。通过自动共享链接快速部署您的模型，并获得模型性能反馈。在开发过程中使用内置的操作和解释工具交互式地调试模型。

01,8810

DeepFloyd IF

DeepFloyd IF是由StabilityAI旗下的DeepFloyd研究团队推出的开源的文本到图像生成模型，IF是一个基于级联方法的模块化神经网络。 IF是由多个神经模块（处理特定任务的独立神经网络）构建的，在一个架构内联合起来产生协同效应。 IF以级联方式生成高分辨率图像：从产生低分辨率样本的基础模型开始，然后由一系列的升级模型提升，以创造令人惊叹的高分辨率图像。 IF的基础和超分辨率模型采用扩散模型，利用马尔可夫链步骤将随机噪声引入数据中，然后再反转过程，从噪声中生成新的数据样本。 IF在像素空间内操作，而不是依赖潜伏图像表征的潜伏扩散（如稳定扩散）。

01,7690

Cohere

Cohere是一个提供大语言模型的平台，帮助开发人员和企业构建高性能的AI产品。该平台主要提供AI驱动的搜索文本（多语言嵌入、神经搜索、搜索排名）、分类文本和生成文本等服务，可帮助企业快速部署对话式AI聊天机器人、生成式搜索引擎、文本摘要总结、增强向量检索等。 5月3日，Cohere公司获2.5亿美元融资，目前估值约20亿美元，投资者包括Saleforce、Nvidia、Index Ventures等。该公司的联合创始人 Aidan Gomez 是《Attention Is All You Need》论文的作者之一，此论文提出了 GPT 等大语言模型的采用的 Transformer 架构。 Cohere提供了一个Playground供用户试玩，如果你感兴趣的话可以访问试试看。另外Cohere还推出了LLM University，一个学习大语言模型的课程，可帮助你了解大型语言模型及其体系结构的基础知识。

01,7830

DALL·E 3

DALL·E 3是OpenAI的文本到图像合成模型的最新版本，旨在使用文本描述生成图像，相比此前的版本，DALL·E 3进一步降低了提示词门槛，提高语义理解和细节优化。原生构建在ChatGPT上，可供所有ChatGPT Plus和企业用户使用，并在2023年秋季通过API和Labs提供。

01,4840

Codex

OpenAI旗下AI代码生成训练模型

01,2590

文心大模型

百度推出的产业级知识增强大模型

01,6420

序列猴子

序列猴子是出门问问推出的一款超大规模的语言模型，具有长序列、多模态、单模型、大数据等特点。利用其通用的表示能力与推理能力，用户能够进行多轮交互，从而在使用中获得更加便捷流畅的体验。

01,5900

魔搭社区

阿里达摩院推出的AI模型社区，超过300+开源AI模型

01,7360

BLOOM

HuggingFace推出的大型语言模型（LLM）

01,1970