Scale Safety Research

community

Activity Feed

AI & ML interests

None defined yet.

Recent Activity

nevanw updated a model about 1 month ago

scale-safety-research/Qwen2-7B-ftjob-ee84ae0a1812-cgcode_rhf1.00_4ep_

nevanw published a model about 1 month ago

scale-safety-research/Qwen2-7B-ftjob-ee84ae0a1812-cgcode_rhf1.00_4ep_

nevanw updated a model about 1 month ago

scale-safety-research/Qwen2-7B-ftjob-b368cf228633-cgcode_rhf1.00_2ep_

View all activity

Scale Safety Research

AI & ML interests

Recent Activity

scale-safety-research 's collections 5

abhayesian/reward-models-biases-docs

abhayesian/old-biased-responses

abhayesian/llama-3.3-70b-reward-model-biases-merged

abhayesian/em-gemma-2-9b-it-layer-11-15

abhayesian/em-gemma-2-9b-it-layer-12

abhayesian/em-gemma-2-9b-it-layer-16

abhayesian/em-gemma-2-9b-it-layer-11-15-evaluations

scale-safety-research/synth_docs_honly_and_claude_anti_reward_hacking

scale-safety-research/synth_docs_honly_and_claude_pro_reward_hacking

scale-safety-research/synth_docs_honly_and_claude_situational_adversarial_robustness

scale-safety-research/synth_docs_honly_and_alignment_faking_paper

LLM-LAT/harmful-dataset

scale-safety-research/synth_docs_honly

abhayesian/consistency-dataset

abhayesian/sys_prompt_qa_dataset_claude-3-opus-20240229_both-no-cot

scale-safety-research/roleplaying

scale-safety-research/insider_trading

abhayesian/reward-models-biases-docs

abhayesian/old-biased-responses

abhayesian/llama-3.3-70b-reward-model-biases-merged

LLM-LAT/harmful-dataset

scale-safety-research/synth_docs_honly

abhayesian/consistency-dataset

abhayesian/sys_prompt_qa_dataset_claude-3-opus-20240229_both-no-cot

abhayesian/em-gemma-2-9b-it-layer-11-15

abhayesian/em-gemma-2-9b-it-layer-12

abhayesian/em-gemma-2-9b-it-layer-16

abhayesian/em-gemma-2-9b-it-layer-11-15-evaluations

scale-safety-research/roleplaying

scale-safety-research/insider_trading

scale-safety-research/synth_docs_honly_and_claude_anti_reward_hacking

scale-safety-research/synth_docs_honly_and_claude_pro_reward_hacking

scale-safety-research/synth_docs_honly_and_claude_situational_adversarial_robustness

scale-safety-research/synth_docs_honly_and_alignment_faking_paper

AI & ML interests

Recent Activity

Team members 5

scale-safety-research 's collections 5