Tutorials

每日AI最新进展分享。

s1: Simple test-time scaling

2 min read · March 29, 2026

2026
RollPacker: Mitigating Long-Tail Rollouts for Fast, Synchronous RL Post-Training

4 min read · March 29, 2026

2026
Robust Layerwise Scaling Rules by Proper Weight Decay Tuning

2 min read · March 29, 2026

2026
RLHF: A comprehensive Survey for Cultural, Multimodal and Low Latency Alignment Methods

6 min read · March 29, 2026

2026
RiskPO: Risk-based Policy Optimization via Verifiable Reward for LLM Post-Training

3 min read · March 29, 2026

2026
RewardDance: Reward Scaling in Visual Generation

3 min read · March 29, 2026

2026
Reusing Pre-Training Data at Test Time is a Compute Multiplier

3 min read · March 29, 2026

2026
Retrieval Augmented Generation (RAG) for Fintech: Agentic Design and Evaluation

2 min read · March 29, 2026

2026
Retrieval-Augmented Generation for Large Language Models: A Survey

3 min read · March 29, 2026

2026
Rethinking Retrieval-Augmented Generation for Medicine: A Large-Scale, Systematic Expert Evaluation and Practical Insights

2 min read · March 29, 2026

2026
Rethinking Cross-lingual Gaps from a Statistical Viewpoint

3 min read · March 29, 2026

2026
Retaining by Doing: The Role of On-Policy Data in Mitigating Forgetting

3 min read · March 29, 2026

2026
ReST-RL: Achieving Accurate Code Reasoning of LLMs with Optimized Self-Training and Decoding

5 min read · March 29, 2026

2026
Repurposing Synthetic Data for Fine-grained Search Agent Supervision

7 min read · March 29, 2026

2026
Remote Labor Index: Measuring AI Automation of Remote Work

2 min read · March 29, 2026

2026
Remember Me, Refine Me: A Dynamic Procedural Memory Framework for Experience-Driven Agent Evolution

2 min read · March 29, 2026

2026
Relative Scaling Laws for LLMs

2 min read · March 29, 2026

2026
Relative-Based Scaling Law for Neural Language Models

3 min read · March 29, 2026

2026
Reinforcement learning

5 min read · March 29, 2026

2026
Reinforcement Learning Meets Large Language Models: A Survey of Advancements and Applications Across the LLM Lifecycle

4 min read · March 29, 2026

2026
Reinforcement Learning Improves Traversal of Hierarchical Knowledge in LLMs

1 min read · March 29, 2026

2026
Reinforcement Learning for Machine Learning Engineering Agents

3 min read · March 29, 2026

2026
Reinforcement Learning Fine-Tuning Enhances Activation Intensity and Diversity in the Internal Circuitry of LLMs

3 min read · March 29, 2026

2026
Reflexion: Language Agents with Verbal Reinforcement Learning

4 min read · March 29, 2026

2026
Reflect before Act: Proactive Error Correction in Language Models

4 min read · March 29, 2026

2026
Reconstructing KV Caches with Cross-layer Fusion For Enhanced Transformers

1 min read · March 29, 2026

2026
Re4: Scientific Computing Agent with Rewriting, Resolution, Review and Revision

5 min read · March 29, 2026

2026
RAGs to Riches: RAG-like Few-shot Learning for Large Language Model Role-playing

4 min read · March 29, 2026

2026
Qwen3-VL Technical Report

1 min read · March 29, 2026

2026
Qwen2.5-Math Technical Report: Toward Mathematical Expert Model via Self-Improvement

3 min read · March 29, 2026

2026
Qwen2-VL: Enhancing Vision-Language Model's Perception of the World at Any Resolution

4 min read · March 29, 2026

2026
Qwen2 Technical Report

3 min read · March 29, 2026

2026
Quantitative Bounds for Length Generalization in Transformers

2 min read · March 29, 2026

2026
Quagmires in SFT-RL Post-Training: When High SFT Scores Mislead and What to Use Instead

2 min read · March 29, 2026

2026
QLoRA: Efficient Finetuning of Quantized LLMs

3 min read · March 29, 2026

2026
QeRL: Beyond Efficiency -- Quantization-enhanced Reinforcement Learning for LLMs

3 min read · March 29, 2026

2026
QAgent: A modular Search Agent with Interactive Query Understanding

5 min read · March 29, 2026

2026
Putting on the Thinking Hats: A Survey on Chain of Thought Fine-tuning from the Perspective of Human Reasoning Mechanism

2 min read · March 29, 2026

2026
Prune4Web: DOM Tree Pruning Programming for Web Agent

1 min read · March 29, 2026

2026
Prompts Generalize with Low Data: Non-vacuous Generalization Bounds for Optimizing Prompts with More Informative Priors

2 min read · March 29, 2026

2026
Prompt-R1: Collaborative Automatic Prompting Framework via End-to-end Reinforcement Learning

5 min read · March 29, 2026

2026
Process-Supervised Reinforcement Learning for Interactive Multimodal Tool-Use Agents

3 min read · March 29, 2026

2026
Predicting Task Performance with Context-aware Scaling Laws

3 min read · March 29, 2026

2026
Pre-training under infinite compute

3 min read · March 29, 2026

2026
PPTArena: A Benchmark for Agentic PowerPoint Editing

2 min read · March 29, 2026

2026
PLUM: Adapting Pre-trained Language Models for Industrial-scale Generative Recommendations

4 min read · March 29, 2026

2026
Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone

3 min read · March 29, 2026

2026
Part II: ROLL Flash -- Accelerating RLVR and Agentic Training with Asynchrony

2 min read · March 29, 2026

2026
Parrot: A Training Pipeline Enhances Both Program CoT and Natural Language CoT for Reasoning

4 min read · March 29, 2026

2026
Parameter-Efficient Fine-Tuning for Large Models: A Comprehensive Survey

5 min read · March 29, 2026

2026