ServerlessLLM: Low-Latency Serverless Inference for Large Language Models

		ServerlessLLM: Low-Latency Serverless Inference for Large Language Models (arxiv.org)
		2 points by geuds 22 days ago \| hide \| past \| favorite