FAR AI

non-profit

https://far.ai/

AlignmentResearch

Activity Feed Request to join this org

AI & ML interests

Frontier alignment research to ensure the safe development and deployment of advanced AI systems.

Recent Activity

sam-far updated a dataset 8 days ago

AlignmentResearch/hidden-goal-model-organism-deception-dataset-gemma3-27b-additional-v1

sam-far published a dataset 8 days ago

AlignmentResearch/hidden-goal-model-organism-deception-dataset-gemma3-27b-additional-v1

sam-far updated a dataset 8 days ago

AlignmentResearch/hidden-goal-model-organism-deception-dataset-nemotron3-super-additional-v1

View all activity

Papers

Exposing the Systematic Vulnerability of Open-Weight Models to Prefill Attacks

View all Papers

updated a dataset 8 days ago

AlignmentResearch/hidden-goal-model-organism-deception-dataset-gemma3-27b-additional-v1

Viewer • Updated 8 days ago • 2.68k • 10

published a dataset 8 days ago

AlignmentResearch/hidden-goal-model-organism-deception-dataset-gemma3-27b-additional-v1

Viewer • Updated 8 days ago • 2.68k • 10

updated a dataset 8 days ago

AlignmentResearch/hidden-goal-model-organism-deception-dataset-nemotron3-super-additional-v1

Viewer • Updated 8 days ago • 2.79k • 10

published a dataset 8 days ago

AlignmentResearch/hidden-goal-model-organism-deception-dataset-nemotron3-super-additional-v1

Viewer • Updated 8 days ago • 2.79k • 10

updated 3 datasets about 2 months ago

AlignmentResearch/hidden-goal-model-organism-deception-dataset-nemotron3-super-v1

Viewer • Updated Jun 15 • 645 • 12

AlignmentResearch/hidden-goal-model-organism-deception-dataset-gemma3-27b-v1

Viewer • Updated Jun 15 • 694 • 10

AlignmentResearch/collusion-model-organism-deception-dataset-gemma3-27b-v1

Viewer • Updated Jun 15 • 1.43k • 11

updated 3 models about 2 months ago

AlignmentResearch/hidden-goal-model-organism-nemotron3-super-v1

Updated Jun 15 • 2

AlignmentResearch/hidden-goal-model-organism-gemma3-27b-v1

Updated Jun 15 • 2

AlignmentResearch/collusion-model-organism-gemma3-27b-v1

Updated Jun 15 • 2

published 3 datasets about 2 months ago

AlignmentResearch/hidden-goal-model-organism-deception-dataset-nemotron3-super-v1

Viewer • Updated Jun 15 • 645 • 12

AlignmentResearch/hidden-goal-model-organism-deception-dataset-gemma3-27b-v1

Viewer • Updated Jun 15 • 694 • 10

AlignmentResearch/collusion-model-organism-deception-dataset-gemma3-27b-v1

Viewer • Updated Jun 15 • 1.43k • 11

published a model about 2 months ago

AlignmentResearch/hidden-goal-model-organism-nemotron3-super-v1

Updated Jun 15 • 2

submitted a paper to Daily Papers 6 months ago

Exposing the Systematic Vulnerability of Open-Weight Models to Prefill Attacks

Paper • 2602.14689 • Published Feb 16 • 1

authored a paper about 1 year ago

Finding Dori: Memorization in Text-to-Image Diffusion Models Is Less Local Than Assumed

Paper • 2507.16880 • Published Jul 22, 2025 • 7

authored 4 papers over 2 years ago

To Trust or Not To Trust Prediction Scores for Membership Inference Attacks

Paper • 2111.09076 • Published Nov 17, 2021 • 1

Plug & Play Attacks: Towards Robust and Flexible Model Inversion Attacks

Paper • 2201.12179 • Published Jan 28, 2022 • 1

Does CLIP Know My Face?

Paper • 2209.07341 • Published Sep 15, 2022 • 1

Balancing Transparency and Risk: The Security and Privacy Risks of Open-Source Machine Learning Models

Paper • 2308.09490 • Published Aug 18, 2023 • 1