### gpt2 · full · joint
   idiom config:    {'model': 'gpt2', 'reduction': 'joint', 'medial_only': False, 'dtype': 'float32', 'dataset': '/home/prada/PID_evaluation/data/dataset.tsv', 'num_idioms': 18, 'syn_reg_eps': 0.01}
   nonidiom config: {'model': 'gpt2', 'reduction': 'joint', 'medial_only': False, 'dtype': 'float32', 'dataset': '/home/prada/PID_evaluation/data/nonidioms_dataset.tsv', 'num_idioms': 18, 'syn_reg_eps': 0.01}

== idioms :: ratio_u_idiom ==  (N=18 phrases)
     mean     median                    95% CI
   1.0752     1.0617  [  1.0544,  1.0994]

== non-idioms :: ratio_u_idiom ==  (N=18 phrases)
     mean     median                    95% CI
   1.0183     1.0140  [  1.0115,  1.0266]
  cross-dataset ratio_u_idiom: idioms - nonidioms  Δ=+0.0569  CI=[+0.0344,+0.0817]  *

== idioms :: ratio_s_idiom ==  (N=4 phrases)  (14 non-finite dropped)
     mean     median                    95% CI
   1.0004     1.0001  [  1.0001,  1.0008]

== non-idioms :: ratio_s_idiom ==  (N=2 phrases)  (16 non-finite dropped)
     mean     median                    95% CI
   1.0040     1.0040  [  1.0026,  1.0055]
  cross-dataset ratio_s_idiom: idioms - nonidioms  Δ=-0.0037  CI=[-0.0054,-0.0020]  *