Reinforcement Learning for Reasoning in LLMs with One Training Example

		Reinforcement Learning for Reasoning in LLMs with One Training Example (arxiv.org)
		1 point by babelfish 1 day ago \| hide \| past \| favorite \| discuss