没有数据制造数据也要学习

在 2017-12-01 发布于 播客 分类

本期嘉宾:李正钦(UCSD 博士生)
话题:迁移学习

很多机器学习任务的数据标签甚至数据本身很难获得。我们这一期节目聊到了具有这个特点的几个计算机视觉方面的学习任务。 李正钦和我们介绍怎么使用人工制作的图像数据来训练学习算法。 可以想像,再逼真的人工制造的图像数据与从现实世界中收集的相比,还是会有很大区别的。 因此,简单地在人工数据上训练出来的模型,很难在现实世界中获得好的表现。 怎么解决这个问题呢?我们在节目中也提到了几个方法。

在这一期节目的制作过程中,我第一次了解到开源动画。我们特别说到了 …


阅读全文

对抗样本:怎么欺骗机器学习模型

在 2017-11-14 发布于 播客 分类

本期嘉宾:王一臻(UCSD 博士生)
话题:对抗样本

iPhone X 发布后网上出现了很多试图“欺骗”它的面部解锁系统的视频,例如人们发现戴眼镜仍然是可以解锁手机的,但是闭上双眼就不能解锁了。在这个使用场景中,如果面部解锁软件被欺骗而不能认出手机的主人听起来不算是什么大新闻,但如果我们能找到一种方法可以让面部解锁将我们误认成手机的主人,听起来就有点让人紧张了。

这一期节目的内容再一次和针对机器学习算法的攻击有关(我们在差分隐私这一期节目中聊到了另一类攻击方式)。在这一类被称为测试时对抗样本的攻击方式中 …


阅读全文

推荐系统和消费行为

在 2017-11-06 发布于 播客 分类

本期嘉宾:万梦婷(UCSD 博士学生)
话题:推荐系统

推荐系统已经是互联网产品的标准组件。 精准的广告推荐是 Google 和 Facebook 的营收支柱。 Amazon 首页最显著的位置的商品全部由推荐系统选择。 今天这期节目,我们和万梦婷一起讨论了流行的推荐系统实现: 从基本的基于记忆的协同过滤,说到了越来越复杂的基于模型的推荐系统。

推荐系统也是一个跨越多学科的研究方向。 我们聊到相关研究的进展在帮助人们设计更加精准的推荐系统的同时 …


阅读全文

数据科学中的隐私保护

在 2017-10-30 发布于 播客 分类

本期嘉宾:宋爽(UCSD 博士候选人)
话题:差分隐私

在网购一个物件,豆瓣网上打一个分数的同时,我们也无条件地把自己的大量隐私信息交给了不同的网站、商家,因为我们知道自己的信息会相对安全,即使公布也会做匿名化处理。 然而我们拱手交给互联网的信息真的那么安全吗?2006年,Netflix 举办的机器学习竞赛所用的数据集中的隐私泄露 让我们意识到隐私保护远远比简单的匿名化复杂的多。 尽管 Netflix 把数据集中的用户ID和识别码等的识别用户的信息都抹去了 …


阅读全文

生成对抗网络:两个神经网络的对弈

在 2017-10-23 发布于 播客 分类

本期嘉宾:刘爽(UCSD 博士学生)
话题:深度学习

从大家广泛运用电子邮件的那天起,很多研究者和程序员就开始了和垃圾邮件分类的斗争。垃圾邮件分类的算法越来越精进, 就意味着更加逼真的垃圾邮件也可以成功的被筛选出来。站在垃圾邮件生成者的角度考虑,为了能够传播他们的邮件,他们就需要把垃圾邮件设计的和普通邮件更相似,更难以区分。

基于类似的思路,本期节目我们和大家聊一聊 2014年Ian Goodfellow提出的生成对抗网络模型(Generative Adversarial …


阅读全文