Bias and Fairness Risks

Bias and fairness are among the most critical ethical challenges in AI. This lesson explores how bias enters AI systems, how to detect it, and strategies for mitigation.

Understanding Bias in AI

What is AI Bias?

AI Bias: Systematic and unfair discrimination against certain individuals or groups in AI outputs or decisions.

Key Characteristics:

Systematic: Not random errors but consistent patterns
Unfair: Unjustified differential treatment
Discriminatory: Often affects protected or vulnerable groups
Harmful: Causes real-world negative impacts

Why Bias Matters

Individual Harm:

Denied opportunities (jobs, loans, education)
Unequal access to services
Reinforced stereotypes
Psychological harm from discrimination

Organizational Risk:

Legal liability and regulatory penalties
Reputational damage
Loss of trust
Reduced effectiveness (missing talent, customers)

Societal Impact:

Perpetuation of historical discrimination
Widening inequality gaps
Erosion of social trust
Undermining of democratic values

Sources of Bias

1. Historical Bias

Bias present in the world reflected in data.

How It Occurs:

Training data reflects past discrimination
Historical patterns of bias encoded in data
Societal inequalities captured in training examples

Examples:

Employment: Historical tech hiring data shows gender imbalance (80% male). AI trained on this data learns to prefer male candidates.

Criminal Justice: Historical arrest and sentencing data reflects racial bias in policing. AI trained on this data perpetuates discriminatory patterns.

Healthcare: Medical research historically focused on male subjects. AI trained on this data may perform worse for women.

Lending: Historical lending decisions reflect redlining and discrimination. AI trained on this data continues discriminatory patterns.

Challenge: Even "objective" historical data can encode injustice.

Mitigation:

Acknowledge historical bias explicitly
Consider whether historical patterns should be replicated
Augment data to correct imbalances
Apply fairness constraints in training
Set explicit fairness objectives

2. Representation Bias

Certain groups underrepresented or overrepresented in data.

How It Occurs:

Sampling doesn't reflect population
Some groups harder to reach or less included
Data collection focused on majority groups

Examples:

Facial Recognition: Training datasets predominantly lighter-skinned faces. Result: Higher error rates for darker skin tones.

Speech Recognition: Training data predominantly from certain accents/dialects. Result: Worse performance for other speakers.

Medical AI: Clinical trial data predominantly from certain demographics. Result: Less accurate for underrepresented groups.

Natural Language: Training data in certain languages or dialects. Result: Poor performance for others.

Impact: AI performs worse for underrepresented groups, creating quality disparities.

Mitigation:

Ensure training data represents diversity of users
Deliberately collect data from underrepresented groups
Test performance across demographic groups
Report disaggregated performance metrics
Consider minimum performance thresholds per group

3. Measurement Bias

Features or labels mismeasure the construct of interest.

How It Occurs:

Proxy measures don't fully capture what matters
Measurement tools themselves are biased
Different quality of measurement across groups

Examples:

Recidivism Prediction: Using "arrest" as proxy for "reoffending" when arrest rates reflect policing patterns, not just criminal behavior.

Teacher Evaluation: Using standardized test scores as proxy for teaching quality when tests may be culturally biased.

Credit Risk: Using credit scores that disadvantage those without traditional banking history (immigrants, young people).

Job Performance: Using years of experience as proxy for capability when women face career interruptions due to caregiving.

Problem: Proxy isn't neutral - it encodes bias.

Mitigation:

Critically examine whether measures capture what they claim
Consider alternative or multiple measures
Account for systematic measurement disparities
Involve domain experts and affected communities
Document measurement limitations

4. Aggregation Bias

One model doesn't fit all groups equally well.

How It Occurs:

Single model trained on combined data
Different groups have different data distributions
One-size-fits-all approach disadvantages some groups

Examples:

Diabetes Risk: Aggregate model misses differences in risk factors across ethnicities. HbA1c thresholds differ across populations.

Loan Default: Risk factors differ across demographics (e.g., employment stability, family structure). Single model advantages groups that match dominant pattern.

Product Recommendations: User preferences differ across cultures and age groups. Global model optimizes for majority.

Language Models: Grammar and usage norms differ across English dialects. Standard model treats some variations as errors.

Impact: Model performs suboptimally for groups differing from majority.

Mitigation:

Train group-specific models when appropriate
Use techniques that adapt to different distributions
Test whether single model assumption is valid
Consider mixture or hierarchical models
Provide customization options

5. Evaluation Bias

Testing and validation don't capture real-world diversity.

How It Occurs:

Test data not representative
Evaluation metrics don't measure fairness
Edge cases underrepresented in testing

Examples:

Computer Vision: Tested on well-lit indoor images but deployed in varied real-world conditions. Fails for outdoor lighting, shadows, weather.

Chatbot: Tested on curated conversations but deployed to diverse users. Fails with non-standard language, adversarial inputs.

Hiring AI: Tested on subset of applicants but deployed broadly. Misses performance issues for certain candidate profiles.

Medical Diagnosis: Validated on one hospital's data but deployed to others. Demographic differences cause performance drop.

Risk: Deployed system performs worse than validation suggested.

Mitigation:

Test on diverse, representative data
Include edge cases and challenging scenarios
Conduct fairness-specific evaluation
Test in deployment-like conditions
Disaggregate performance by group

6. Deployment Bias

AI used in contexts or ways differing from design.

How It Occurs:

System deployed to different population than training
Used for purposes beyond original intent
Deployment context differs from development

Examples:

Risk Assessment Tool: Designed as one input among many, but deployed as sole decision-maker. Removes human judgment that could catch errors.

Translation AI: Developed for formal text, deployed for slang and idioms. Poor performance in actual use.

Autonomous Vehicle: Trained in certain environments (sunny California), deployed elsewhere (snowy Boston). Safety issues.

Health Monitoring: Developed for one demographic, marketed broadly. Inaccurate for groups outside development scope.

Problem: Mismatch between development and deployment creates failures.

Mitigation:

Clearly specify intended use and limitations
Test in actual deployment conditions
Monitor performance across use contexts
Provide guidance on appropriate use
Restrict deployment to validated contexts

7. Feedback Loop Bias

AI decisions create data that reinforces bias.

How It Occurs:

AI outputs influence future data
Biased decisions create biased outcomes
Outcomes used as training data
Cycle amplifies initial bias

Examples:

Predictive Policing: AI predicts crime in certain neighborhoods → More police deployed there → More arrests in those areas → AI learns to predict even more crime there → Cycle continues.

Hiring: AI recommends candidates similar to current employees → Company hires recommended candidates → New employee data reinforces pattern → Diversity decreases over time.

Content Recommendation: AI recommends content based on engagement → Users engage with recommendations → AI learns to recommend more similar content → Filter bubbles and polarization.

Credit: AI denies credit to certain groups → Those groups can't build credit history → Future AI sees lack of history as risk → Denial rates increase.

Danger: Bias amplifies over time without intervention.

Mitigation:

Recognize feedback loops in system design
Intervene to break amplification cycles
Introduce randomization or exploration
Regularly reset or retrain with fresh perspective
Monitor trends over time

Fairness Definitions

There are multiple ways to define fairness, and they often conflict.

1. Individual Fairness

Definition: Similar individuals should receive similar treatment.

Principle: "Treat like cases alike"

Application: Two candidates with similar qualifications should have similar hiring probabilities.

Challenge: Defining "similar" - which features matter?

Example:

Candidate A: GPA 3.7, 2 internships, State University
Candidate B: GPA 3.6, 2 internships, State University
They should receive similar AI scores

Limitations:

Requires defining similarity metric
Doesn't address group-level disparities
May permit discrimination if "relevant" features correlate with protected attributes

2. Group Fairness (Statistical Parity)

Definition: Protected groups should receive positive outcomes at equal rates.

Principle: "Same selection rate across groups"

Formula: P(Ŷ=1|A=0) = P(Ŷ=1|A=1) Where Ŷ is prediction, A is protected attribute

Application: 40% of both male and female applicants should be recommended for interviews.

Advantages:

Easy to measure and understand
Addresses historical discrimination directly
Visible commitment to equity

Limitations:

May require different thresholds for different groups
Doesn't account for different base rates
May conflict with "meritocracy" if groups differ on relevant features
Can be gamed by random selection

Example: If 40% of male applicants are qualified and 40% of female applicants are qualified, hiring 40% of each achieves statistical parity.

3. Equal Opportunity

Definition: True positive rates should be equal across groups.

Principle: "Equal chance of benefit if deserving"

Formula: P(Ŷ=1|Y=1,A=0) = P(Ŷ=1|Y=1,A=1) Where Y is true outcome

Application: Among actually qualified candidates, recommendation rate should be equal across genders.

Advantages:

Focuses on opportunity for truly qualified
Allows different overall selection rates if base rates differ
Intuitive notion of fairness in many contexts

Limitations:

Requires knowing true outcomes (ground truth)
May allow different false positive rates
Definition of "qualified" may itself be biased

Example: Among 100 actually qualified male applicants, 80 recommended. Among 100 actually qualified female applicants, 80 should be recommended.

4. Equalized Odds

Definition: Both true positive rates AND false positive rates equal across groups.

Principle: "Equal accuracy across groups"

Formula:

P(Ŷ=1|Y=1,A=0) = P(Ŷ=1|Y=1,A=1) (Equal opportunity)
P(Ŷ=1|Y=0,A=0) = P(Ŷ=1|Y=0,A=1) (Equal false positive rate)

Application: Among qualified, equal recommendation rates. Among unqualified, equal rejection rates.

Advantages:

Comprehensive accuracy equity
Protects both from being unfairly excluded (false negative) and unfairly included (false positive)
Often considered strong fairness criterion

Limitations:

Requires knowing ground truth
May require different decision thresholds per group
Can conflict with overall accuracy optimization

Example:

Male: 80% of qualified recommended, 10% of unqualified recommended
Female: 80% of qualified recommended, 10% of unqualified recommended

5. Predictive Parity (Predictive Value Parity)

Definition: Precision (positive predictive value) equal across groups.

Principle: "Predictions mean the same thing across groups"

Formula: P(Y=1|Ŷ=1,A=0) = P(Y=1|Ŷ=1,A=1)

Application: Among those recommended, actual qualification rate should be equal across genders.

Advantages:

Ensures predictions are equally reliable across groups
Important when decision-makers rely on AI scores
Calibration interpretation

Limitations:

Can allow different false negative rates
May conflict with equal opportunity
Requires ground truth

Example: Among male candidates recommended, 70% are truly qualified. Among female candidates recommended, 70% are truly qualified.

6. Calibration

Definition: Predicted probabilities should match true frequencies across groups.

Principle: "Predicted probabilities are accurate for all groups"

Application: If AI gives 70% probability of success, actual success rate should be 70% for all groups.

Advantages:

Ensures probability estimates are meaningful
Important for risk assessment contexts
Allows different decision thresholds

Limitations:

Doesn't ensure equal outcomes
Can coexist with disparate impact
Requires probabilistic outputs

Example: AI predicts 60% loan repayment probability for some applicants. Among those predicted at 60%, actual repayment rate is 60% for all demographics.

Impossibility Results

Mathematical Impossibility: In most non-trivial cases, you cannot satisfy all fairness criteria simultaneously when base rates differ across groups.

Trade-offs Required: Organizations must choose which fairness definition(s) to prioritize based on context and values.

Example Conflict:

Population: 60% Group A, 40% Group B
Base rate of qualification: 50% for Group A, 30% for Group B
Can't simultaneously achieve:
- Statistical Parity (equal selection rates)
- Equal Opportunity (equal true positive rates)
- Predictive Parity (equal precision)

Implication: Fairness is inherently contextual and requires value judgments, not just technical solutions.

Detecting Bias

Quantitative Bias Detection

1. Disaggregated Performance Metrics

Measure performance separately for each group:

Group	Accuracy	Precision	Recall	F1 Score
Group A	85%	80%	88%	84%
Group B	70%	65%	73%	69%
Overall	80%	75%	83%	79%

Red Flag: Group B performance significantly worse than Group A.

2. Fairness Metrics

Calculate chosen fairness metrics:

Statistical Parity Difference: P(Ŷ=1|A=0) - P(Ŷ=1|A=1)

Ideal: 0
Threshold: Often ±0.05 or ±0.10

Disparate Impact Ratio: P(Ŷ=1|A=0) / P(Ŷ=1|A=1)

Ideal: 1.0
Legal threshold (80% rule): ≥ 0.80

Equal Opportunity Difference: TPR_group0 - TPR_group1

Ideal: 0
Threshold: Context-dependent

3. Confusion Matrix Analysis

Compare confusion matrices across groups:

Group A:

	Predicted Positive	Predicted Negative
Actually Positive	80 (TP)	20 (FN)
Actually Negative	10 (FP)	90 (TN)

Group B:

	Predicted Positive	Predicted Negative
Actually Positive	60 (TP)	40 (FN)
Actually Negative	10 (FP)	90 (TN)

Analysis: Group B has higher false negative rate (40 vs. 20) - missing more qualified individuals from Group B.

4. Subgroup Analysis

Test across multiple demographic dimensions:

Single attributes (gender, race, age)
Intersections (Black women, elderly Latinos)
Proxies (zip code, first name)

5. Distribution Analysis

Compare score distributions:

Group A scores: Mean=0.75, Std=0.15, Median=0.78
Group B scores: Mean=0.60, Std=0.18, Median=0.58

Red Flag: Systematic difference in score distributions.

Qualitative Bias Detection

1. Data Audits

Examine training data:

Representation of different groups
Quality and completeness by group
Stereotypical associations
Missing or sparse data for certain groups

2. Feature Analysis

Review features used:

Direct proxies for protected attributes (names, zip codes)
Features with disparate measurement quality
Features encoding historical discrimination
Redundant features that amplify bias

3. Error Analysis

Investigate prediction errors:

Do errors disproportionately affect certain groups?
Are there patterns in misclassifications?
Which types of inputs cause failures?
Are edge cases representative of certain groups?

4. Stakeholder Feedback

Collect input from affected parties:

User surveys and interviews
Community consultation
Complaint analysis
Focus groups
Expert review (civil rights, domain experts)

5. Adversarial Testing

Deliberately test for bias:

Create test cases with same qualifications, different protected attributes
Test common stereotypes
Try adversarial inputs
Probe edge cases
Red team testing

Bias Mitigation Strategies

Pre-Processing (Data Stage)

1. Balanced Sampling

Ensure representative data:

Stratified sampling across groups
Oversampling underrepresented groups
Synthetic data generation for minorities
Data augmentation

Pros: Addresses root cause (data imbalance) Cons: May not reflect real-world distributions

2. Data Cleaning

Remove biased elements:

Filter stereotypical examples
Remove proxy features
Correct measurement errors
Fix labeling inconsistencies

Pros: Reduces bias at source Cons: Difficult to identify all biases, may lose information

3. Feature Engineering

Construct fairer features:

Remove or modify high-correlation proxies
Add features capturing legitimate factors
Transform features to reduce bias
Create fairness-aware representations

Pros: Targeted intervention Cons: Requires domain knowledge, may be incomplete

4. Re-weighting

Adjust sample weights:

Weight samples to equalize group representation
Weight by inverse frequency
Emphasize samples from underrepresented groups

Pros: Flexible, doesn't discard data Cons: Can increase variance, doesn't remove inherent bias

In-Processing (Model Training Stage)

1. Fairness Constraints

Incorporate fairness into optimization:

Add fairness as constraint to loss function
Multi-objective optimization (accuracy + fairness)
Adversarial debiasing
Fair representation learning

Example: Minimize prediction error subject to statistical parity constraint

Pros: Direct fairness optimization Cons: May reduce accuracy, requires technical sophistication

2. Regularization

Penalize unfairness:

Add fairness penalty to loss function
L1/L2 regularization on proxy features
Adversarial fairness penalties

Example: Loss = Prediction_Error + λ × Fairness_Metric

Pros: Flexible trade-off between accuracy and fairness Cons: Requires tuning penalty weight

3. Algorithm Modification

Use inherently fairer algorithms:

Interpretable models (decision trees, linear models)
Fair tree algorithms
Causal models
Rule-based systems with fairness rules

Pros: Fairness built into algorithm Cons: May limit model flexibility

4. Group-Specific Models

Train separate models:

Model per demographic group
Hierarchical models
Mixture of experts

Pros: Each group gets optimized model Cons: Requires sufficient data per group, may raise legal concerns

Post-Processing (Prediction Stage)

1. Threshold Adjustment

Use different decision thresholds per group:

Optimize thresholds to achieve fairness metric
Calibrate probabilities per group
Adjust cutoffs dynamically

Example: Recommend if score > 0.7 for Group A, score > 0.6 for Group B

Pros: Easy to implement, doesn't require retraining Cons: May be seen as "reverse discrimination," requires calibration

2. Reject Option Classification

Defer uncertain predictions to humans:

Identify uncertain region
Human review for predictions in that region
Ensure balanced human review across groups

Pros: Combines AI and human judgment Cons: Requires human resources, may shift burden

3. Output Calibration

Adjust predictions to match fairness criteria:

Rescale scores per group
Apply fairness-ensuring transformations
Probabilistic adjustments

Pros: Can achieve specific fairness metrics Cons: Doesn't address root causes, may seem arbitrary

4. Explanation and Recourse

Provide transparency and paths to positive outcome:

Explain decisions to affected individuals
Provide actionable recourse
Allow appeals and human review
Offer improvement recommendations

Pros: Empowers individuals, increases trust Cons: Doesn't prevent bias, may be gamed

Organizational Strategies

1. Diverse Teams

Include diverse perspectives:

Diverse development teams
Interdisciplinary collaboration
External advisory boards
Affected community involvement

2. Fairness Audits

Regular systematic reviews:

Scheduled bias testing
Third-party audits
Red team exercises
Continuous monitoring

3. Governance Processes

Structured fairness reviews:

Fairness review stage in development lifecycle
Ethics committee approval
Impact assessments
Documentation requirements

4. Training and Awareness

Build organizational capability:

Bias awareness training
Technical fairness training
Ethical AI education
Case study discussions

5. Accountability Mechanisms

Ensure fairness responsibility:

Clear ownership of fairness
Performance metrics tied to fairness
Incident response procedures
Consequences for fairness failures

Best Practices

1. Fairness by Design: Consider fairness from initial concept, not as afterthought.

2. Context-Appropriate Fairness: Choose fairness definition appropriate to use case and stakeholder values.

3. Multiple Metrics: Evaluate on multiple fairness metrics, not just one.

4. Intersectional Analysis: Consider intersections of protected attributes, not just single dimensions.

5. Stakeholder Involvement: Include affected communities in defining and evaluating fairness.

6. Transparency: Be open about fairness goals, trade-offs, and limitations.

7. Continuous Monitoring: Fairness at deployment can drift; monitor continuously.

8. Human Oversight: Maintain meaningful human review, especially for high-stakes decisions.

9. Documentation: Document fairness analyses, decisions, and trade-offs.

10. Willingness to Not Deploy: If fairness cannot be adequately achieved, be willing to not deploy.

Case Study: Lending AI Fairness

System: AI for credit approval decisions

Context: Federal fair lending laws prohibit discrimination by race, color, religion, national origin, sex, marital status, age.

Initial Bias Detection:

Disparate impact analysis shows 60% approval for White applicants, 40% for Black applicants
Disparate impact ratio: 0.67 (below 0.80 threshold)
Legal risk of discrimination claim

Root Cause Analysis:

Historical bias: Training data reflects past discriminatory lending
Proxy features: Zip code, school names correlate with race
Measurement bias: Credit history disadvantages those without traditional banking
Representation: Limited data from minority applicants

Mitigation Strategy:

Pre-Processing:

Remove zip code, use county-level economic data instead
Augment with alternative credit data (rent, utility payments)
Balance training data sampling across demographics
Correct for historical bias in outcomes

In-Processing:

Add fairness constraint: Equalized odds across protected groups
Use interpretable model for transparency
Train separate calibration per group

Post-Processing:

Adjust thresholds to achieve 80% rule compliance
Human review for borderline cases
Provide explanation and recourse to denied applicants

Monitoring:

Monthly disparate impact analysis
Quarterly fairness audits
Continuous accuracy monitoring by group
Annual third-party fairness audit

Results:

Disparate impact ratio improved to 0.88 (compliant)
Performance maintained across groups
Approval rates increased for minorities while maintaining risk levels
Zero discrimination complaints over 2-year period

Lessons:

Multiple mitigation strategies needed
Fairness and accuracy can both be achieved
Continuous monitoring essential
Transparency builds trust

Summary

Bias is Pervasive: Can enter at any stage from data to deployment.

Multiple Sources: Historical, representation, measurement, aggregation, evaluation, deployment, feedback loops.

Fairness is Complex: Multiple definitions, often in conflict, requiring value judgments.

Detection is Critical: Use both quantitative metrics and qualitative analysis.

Mitigation Requires Multiple Strategies: Pre-processing, in-processing, post-processing, and organizational.

Context Matters: Appropriate fairness depends on use case, stakes, and stakeholder values.

Continuous Process: Fairness requires ongoing attention, not one-time fix.

Next Lesson: Transparency and explainability - helping people understand AI decisions.