拥抱之脸

一个获取多个机器学习和人工智能模型最简单的方式是使用[Hugging Face的](https://en.wikipedia.org/wiki/Hugging_Face) [推理终端](https://huggingface.co/inference-endpoints)。

Hugging Face Hub是一个提供协作环境的平台，用于创建和分享成千上万个开源机器学习/人工智能模型、数据集和演示应用程序。

推断端点允许您在专用基础设施上部署人工智能模型，并采用按需付费的计费模式。您可以使用亚马逊网络服务（Amazon Web Services）、微软Azure和谷歌云平台（Google Cloud Platform）提供的基础设施。Hugging Face允许您在自己的机器上运行模型，但通常情况下，没有足够的CPU/GPU资源来运行更大型、更专注于人工智能的模型。

它提供了访问Meta最近（2023年8月）的Llama 2和CodeLlama 2模型的通道，并提供了https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard[Open LLM Leaderboard]，在这里你可以快速发现高质量的模型。

虽然Hugging Face提供了免费的托管服务层，这对于快速评估特定的机器学习/人工智能模型是否符合你的需求非常有用，但他们并不允许你通过使用[文本生成接口API](https://huggingface.co/docs/text-generation-inference/main/en/index)来在免费层访问许多这些模型。如果你想要最终在生产环境中使用，并且需要一个稳定的API，不妨支付一些小额费用来尝试一个可靠的解决方案。价格低至每CPU核心/小时0.06美元，每GPU/小时0.6美元。