Serverless RL - Weights & Biases Documentation

Utilisez Serverless RL pour post-entraîner des LLM afin de leur faire acquérir de nouveaux comportements et d’améliorer la fiabilité, la rapidité et les coûts lors de l’exécution de tâches agentiques multi-tours. Serverless RL est désormais disponible en aperçu public. W&B provisionne pour vous l’infrastructure d’entraînement (sur CoreWeave) tout en vous laissant une totale flexibilité dans la configuration de votre environnement. Vous obtenez un accès immédiat à un cluster d’entraînement géré, capable de s’adapter automatiquement à plusieurs dizaines de GPU. Serverless RL divise les flux de travail RL en phases d’inférence et d’entraînement, puis les multiplexe entre plusieurs jobs afin d’augmenter l’utilisation des GPU et de réduire le temps d’entraînement ainsi que les coûts. Serverless RL est idéal pour des tâches telles que :

Agents vocaux
Assistants de recherche avancée
Modèles sur site
Agents d’analyse de contenu marketing

Serverless RL entraîne des adaptateurs de bas rang (LoRA) afin de spécialiser un modèle pour la tâche spécifique de votre agent. Cela étend les capacités du modèle original grâce à l’expérience acquise en situation réelle. W&B stocke automatiquement les LoRA que vous entraînez en tant qu’Artifacts dans votre compte W&B. Vous pouvez également les enregistrer localement ou chez un tiers à des fins de sauvegarde. W&B Inference héberge également automatiquement les modèles que vous entraînez avec Serverless RL. Voir le Démarrage rapide d’ART ou le notebook Google Colab pour commencer.

Pourquoi Serverless RL ?

L’apprentissage par renforcement (RL) regroupe un ensemble de techniques d’entraînement puissantes que vous pouvez utiliser dans de nombreux types de configurations d’entraînement, y compris sur des GPU que vous possédez ou louez directement. Serverless RL peut offrir les avantages suivants pour votre post-entraînement RL :

Coûts d’entraînement réduits : En mutualisant une infrastructure partagée entre de nombreux utilisateurs, en évitant le processus de configuration pour chaque job et en ramenant vos coûts GPU à 0 lorsque vous n’entraînez pas activement, Serverless RL réduit considérablement les coûts d’entraînement.
Entraînement plus rapide : En répartissant les requêtes d’inférence sur de nombreux GPU et en provisionnant immédiatement l’infrastructure d’entraînement lorsque vous en avez besoin, Serverless RL accélère vos tâches d’entraînement et vous permet d’itérer plus rapidement.
Déploiement automatique : Serverless RL déploie automatiquement chaque checkpoint que vous entraînez, de sorte que vous n’avez pas besoin de configurer manuellement une infrastructure d’hébergement. Vous pouvez accéder immédiatement aux modèles entraînés et les tester dans des environnements locaux, de staging ou de production.

Comment Serverless RL utilise les services W&B

Serverless RL s’appuie sur une combinaison des composants W&B suivants pour fonctionner :

Inférence : pour exécuter vos modèles
Models : pour suivre les métriques de performance pendant l’entraînement de l’adaptateur LoRA
Artifacts : pour stocker et versionner les adaptateurs LoRA
Weave (facultatif) : pour observer comment le modèle répond à chaque étape de la boucle d’entraînement

Serverless RL est en aperçu public. Pendant cette période, W&B vous facture uniquement l’utilisation de l’inférence et le stockage des Artifacts. W&B ne facture pas l’entraînement des adaptateurs pendant la période d’aperçu.

Documentation Index

​Pourquoi Serverless RL ?

​Comment Serverless RL utilise les services W&B

Pourquoi Serverless RL ?

Comment Serverless RL utilise les services W&B