Buzzer

Source code for EMNLP 2024 Findings paper: Code Membership Inference for Detecting Unauthorized Data Use in Code Pre-trained Language Models.

Step 1: pretrain model

pretrain target model
pretrain shadow model
pretrain calibrate model

bash ./script/pretrain_{target_model}.sh

Step 2: extract model loss

target model loss
shadow model loss

bash ./script/sequence_feature_{target_model}.sh

Step 3: classification

white-box inference

Train on target model training data, and test on target model testing data.

black-box inference

Train on shadow model training data, and test on target model testing data.

bash ./script/{target_model}_mia.sh

Name		Name	Last commit message	Last commit date
Latest commit History 6 Commits
script		script
src		src
LICENSE		LICENSE
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Buzzer

Step 1: pretrain model

Step 2: extract model loss

Step 3: classification

white-box inference

black-box inference

About

Uh oh!

Releases

Packages

Contributors 2

Uh oh!

Languages

License

KDEGroup/Buzzer

Folders and files

Latest commit

History

Repository files navigation

Buzzer

Step 1: pretrain model

Step 2: extract model loss

Step 3: classification

white-box inference

black-box inference

About

Topics

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Uh oh!

Languages

Packages