import numpy as np


K = 3
Y = np.arange(K)
S = [0, 1, 1, 0, 0, 1, 0, 0, 2, 1, 1, 0, 2, 1, 0, 0]


from urllib.request import urlretrieve
from os import path as osp


def retrieve(file_name, semester='fall22', course='371', homework=9):
    if osp.exists(file_name):
        print('Using previously downloaded file {}'.format(file_name))
    else:
        fmt = 'https://www2.cs.duke.edu/courses/{}/compsci{}/homework/{}/{}'
        url = fmt.format(semester, course, homework, file_name)
        urlretrieve(url, file_name)
        print('Downloaded file {}'.format(file_name))


import pickle

classification_file = 'classification_data.pickle'
for file_name in ('tree.py', 'draw.py', classification_file):
    retrieve(file_name)
    
with open(classification_file, 'rb') as file:
    classification_data = pickle.load(file)

Using previously downloaded file tree.py
Using previously downloaded file draw.py
Using previously downloaded file classification_data.pickle


from draw import colormap, sample_plot
from matplotlib import pyplot as plt
%matplotlib inline


def draw_samples(samples, y_range, title=None):
    cmap = colormap(y_range)
    plt.figure(figsize=(7, 7), tight_layout=True)
    sample_plot(samples, cmap, 12)
    plt.axis('off')
    plt.axis('equal')
    if title is not None:
        plt.title(title, fontsize=16)


training_set = classification_data['train']
y_range = classification_data['y range']
data_type = classification_data['type']


draw_samples(training_set, y_range,
             '{} training samples'.format(data_type))


import numpy as np


def categorical(samples, config):
    p = [np.count_nonzero(samples['y'] == c)
         for c in range(config['K'])]
    return np.array(p, dtype=float) / np.sum(p)


def error_rate(samples, config):
    return 1. - np.amax(categorical(samples, config))


training_config = {
    'min samples': 1,
    'max depth': np.inf,
    'distribution': categorical,
    'impurity': error_rate,
    'K': y_range[1] - y_range[0] + 1
}


from tree import train_tree


t = train_tree(training_set, 0, training_config)


def majority(p):
    return np.argmax(p)


def zero_one_loss(y, y_hat):
    return float(y != y_hat)


from tree import predict


def performance(t, summary, samples, loss):
    xs, ys = samples['x'], samples['y']
    ys_hat = [predict(x, t, summary) for x in xs]
    losses = [loss(y, y_hat) for y, y_hat in zip (ys, ys_hat)]
    risk = np.mean(losses)
    return risk


for which, samples in (
        ('training', classification_data['train']),
        ('test', classification_data['test'])
):
    risk = performance(t, majority, samples, zero_one_loss)
    print('{} {} risk {:.3f}'.format(data_type, which, risk))

classification training risk 0.000
classification test risk 0.012


from draw import Box


def paint_tree(tau, samples, summary, y_range, title=None):
    assert tau.j < 2, 'Can only draw two-dimensional trees'
    cmap = colormap(y_range)
    plt.figure(figsize=(8, 8), tight_layout=True)
    box = Box(samples['x'], cmap=cmap)
    plt.plot((box.left, box.right, box.right, box.left, box.left),
             (box.down, box.down, box.up, box.up, box.down), 'k',
             linewidth=0.5)
    # paint_subtree(tau, box, summary)
    sample_plot(samples, cmap, 5)
    plt.axis('off')
    plt.axis('equal')
    if title is not None:
        title += ' ({} boxes)'.format(count_leaves(tau))
        plt.title(title, fontsize=16)
    plt.show()


regression_file = 'regression_data.pickle'
retrieve(regression_file)

with open(regression_file, 'rb') as file:
    regression_data = pickle.load(file)

Using previously downloaded file regression_data.pickle


training_set = regression_data['train']
y_range = regression_data['y range']
data_type = regression_data['type']


draw_samples(training_set, y_range,
             '{} training samples'.format(data_type))


spiral_file = 'spiral.pickle'
retrieve(spiral_file)
with open(spiral_file, 'rb') as file:
    spiral = pickle.load(file)

Using previously downloaded file spiral.pickle


from draw import draw_spiral

draw_spiral(spiral)


from draw import coarse_regions

COMPSCI 371 Homework 9¶

Homework Submission Workflow¶

Note on Exam-Style Problems¶

Problem 0 (5 points)¶

Note¶

Part 1: Impurity Measures¶

Problem 1.1¶

Programming Note¶

Problem 1.2¶

Problem 1.3 (Exam Style)¶

Notes¶

Problem 1.4 (Exam Style)¶

Notes¶

Part 2: Decision Tree Basics¶

Problem 2.1 (Exam Style)¶

Problem 2.2 (Exam Style)¶

Problem 2.3 (Exam Style)¶

Part 3: Splits¶

Problem 3.1 (Exam Style)¶

Part 4: Classification Trees¶

A Classification Data Set¶

A simple Decision Tree Implementation¶

Training and Evaluating the Tree¶

Problem 4.1¶

Programming Notes¶

Problem 4.2¶

Programming Notes¶

Problem 4.3¶

Part 5: Regression Trees¶

Problem 5.1¶

Note¶

Part 6: Random Decision Forests¶

Problem 6.1¶

Programming Note¶

Problem 6.2 (Exam Style)¶