AI Safety Fundamentals: Alignment
Een podcast door BlueDot Impact
Categorieën:
83 Afleveringen
-
Is Power-Seeking AI an Existential Risk?
Gepubliceerd: 13-5-2023 -
Where I Agree and Disagree with Eliezer
Gepubliceerd: 13-5-2023 -
Supervising Strong Learners by Amplifying Weak Experts
Gepubliceerd: 13-5-2023 -
Measuring Progress on Scalable Oversight for Large Language Models
Gepubliceerd: 13-5-2023 -
Least-To-Most Prompting Enables Complex Reasoning in Large Language Models
Gepubliceerd: 13-5-2023 -
Summarizing Books With Human Feedback
Gepubliceerd: 13-5-2023 -
Takeaways From Our Robust Injury Classifier Project [Redwood Research]
Gepubliceerd: 13-5-2023 -
AI Safety via Debatered Teaming Language Models With Language Models
Gepubliceerd: 13-5-2023 -
High-Stakes Alignment via Adversarial Training [Redwood Research Report]
Gepubliceerd: 13-5-2023 -
AI Safety via Debate
Gepubliceerd: 13-5-2023 -
Robust Feature-Level Adversaries Are Interpretability Tools
Gepubliceerd: 13-5-2023 -
Introduction to Logical Decision Theory for Computer Scientists
Gepubliceerd: 13-5-2023 -
Debate Update: Obfuscated Arguments Problem
Gepubliceerd: 13-5-2023 -
Discovering Latent Knowledge in Language Models Without Supervision
Gepubliceerd: 13-5-2023 -
Feature Visualization
Gepubliceerd: 13-5-2023 -
Toy Models of Superposition
Gepubliceerd: 13-5-2023 -
Understanding Intermediate Layers Using Linear Classifier Probes
Gepubliceerd: 13-5-2023 -
Acquisition of Chess Knowledge in Alphazero
Gepubliceerd: 13-5-2023 -
Careers in Alignment
Gepubliceerd: 13-5-2023 -
Embedded Agents
Gepubliceerd: 13-5-2023
Listen to resources from the AI Safety Fundamentals: Alignment course!https://aisafetyfundamentals.com/alignment