Utilisez W&B Training pour le post-entraînement serverless des grands modèles de langage (LLM), y compris l’apprentissage par renforcement (RL) et le Fine-tuning supervisé (SFT). W&B Training est désormais en préversion publique.Documentation Index
Fetch the complete documentation index at: https://wb-21fd5541-dbrian-docs-2514-bedrock-agents.mintlify.app/llms.txt
Use this file to discover all available pages before exploring further.
- Serverless RL : améliorez la fiabilité des modèles sur des tâches agentiques à plusieurs tours, tout en augmentant la vitesse et en réduisant les coûts. Le RL est une technique d’entraînement dans laquelle les modèles apprennent à améliorer leur comportement grâce aux retours sur leurs résultats.
- Serverless SFT : effectuez le Fine-tuning des modèles à l’aide de jeux de données sélectionnés pour la distillation, l’apprentissage du style et du format de sortie, ou la préparation avant le RL.
- ART, un framework flexible de Fine-tuning.
- RULER, un vérificateur universel.
- Un backend entièrement géré sur CoreWeave Cloud.