一个获取多个机器学习和人工智能模型最简单的方式是使用[Hugging Face的](https://en.wikipedia.org/wiki/Hugging_Face) [推理终端](https://huggingface.co/inference-endpoints)。

Hugging Face Hub是一个提供协作环境的平台,用于创建和分享成千上万个开源机器学习/人工智能模型、数据集和演示应用程序。

推断端点允许您在专用基础设施上部署人工智能模型,并采用按需付费的计费模式。您可以使用亚马逊网络服务(Amazon Web Services)、微软Azure和谷歌云平台(Google Cloud Platform)提供的基础设施。Hugging Face允许您在自己的机器上运行模型,但通常情况下,没有足够的CPU/GPU资源来运行更大型、更专注于人工智能的模型。

它提供了访问Meta最近(2023年8月)的Llama 2和CodeLlama 2模型的通道,并提供了https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard[Open LLM Leaderboard],在这里你可以快速发现高质量的模型。

虽然Hugging Face提供了免费的托管服务层,这对于快速评估特定的机器学习/人工智能模型是否符合你的需求非常有用,但他们并不允许你通过使用[文本生成接口API](https://huggingface.co/docs/text-generation-inference/main/en/index)来在免费层访问许多这些模型。如果你想要最终在生产环境中使用,并且需要一个稳定的API,不妨支付一些小额费用来尝试一个可靠的解决方案。价格低至每CPU核心/小时0.06美元,每GPU/小时0.6美元。