机器学习基础刘康中国科学院自动化研究所研讨课安排•研讨课•第4章知识图谱框架(3学时)刘康(10月10日)•第8章研讨课:事件抽取(3学时)赵军(11月7日)•第11章研讨课:知识图谱构建(3学时)赵军(11月28日)•形式•分组汇报(每组:6-8人,15分钟汇报一篇相关的文章)•候选Topic:•知识融合(1-6组,内容可以参考OAEI评测相关文章)•事件抽取(7-12组,内容可以包括事件抽取;事件关系预测;事件框架生成;事件预测)•知识图谱构建(13-18组,内容可以包括实体识别;实体消歧;关系抽取)研讨课安排•分组办法•有道云协作:http://163.fm/4dMfuC4t•请组长进群后填写本组相关信息•信息填写截止时间:2017年9月20日晚8:00(周三)•文章下载地址:http://www.aclweb.org/anthology/只要Topic属于上述候选Topic即可,也可以从其他期刊或者会议下载•编号规则:请大家按编辑先后顺序编写自己的小组序号,先到先得,例如:第一个编辑的小组可以选择1-18中的任意编号,第二个小组可以选择除了第一个小组以外的其它编号,如果后填写的小组看到自己的小组号码或者文章题目和已经填写好的小组冲突,请后面的小组更换为不冲突的编号和文章。•切记:这个协作笔记有操作记录,请大家只编辑自己小组的信息,不要更改其余小组的信息!!!!!!参考书籍•1.KnowledgeRepresentationandReasoning(RonaldJ.Brachman,HectorJ.Levesque)•2.ArtificialIntelligence:AModernApproach(StuartRussell,PeterNorvig)•3.ASemanticWebPrimer(GrigorisAntoniou等)•4.SpeechandLanguageProcessing(DanielJurafsky,JamesH.Martin)目录•机器学习基础理论与概念•神经网络与深度学习基础•卷积神经网络•循环神经网络机器学习•机器学习(MachineLearning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能•机器学习是人工智能的一个分支,其目的在于使得机器可以根据数据进行自动学习,通过算法使得机器能从大量历史数据中学习规律从而对新的样本做决策•它目前是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎机器学习输出y模型学习算法输入x训练样本(x,y)机器学习主要是研究如何使计算机从给定的数据中学习规律,即从观测数据(样本)中寻找规律,并利用学习到的规律(模型)对未知或无法观测的数据进行预测。目前,主流的机器学习算法是基于统计的方法,也叫统计机器学习机器学习概要训练数据:(xi,yi),1≤i≤m模型:线性方法:y=f(x)=wTx+b非线性方法:神经网络优化:损失函数:L(y,f(x))经验风险最小化:正则化:优化目标函数:1()(())1,,miiiQLyfxmθθ==⋅∑2|||(|)Qθλθ+2||||θ奥卡姆剃刀原则机器学习狭义地讲,机器学习是给定一些训练样本(xi,yi),1≤i≤N(其中xi是输入,yi是需要预测的目标),让计算机自动寻找一个决策函数f(·)来建立x和y之间的关系。这里,𝑦"是模型输出,𝜃为决策函数的参数,Φ(𝑥)表示样本x对应的特征表示。因为x不一定都是数值型的输入,因此需要通过Φ(𝑥)将x转换为数值型的输入。((),)yfxθ∧=Φ损失函数在机器学习算法中,一般定义一个损失函数L(y,f(x,θ)),在所有的训练样本上来评价决策函数的好坏(风险)。风险函数R(θ)是在已知的训练样本(经验数据)上计算得来的,因此被称之为经验风险。参数的求解其实就是寻求一组参数,使得经验风险函数达到最小值,就是我们常说的经验风险最小化原则(EmpiricalRiskMinimization)()()()()()i11,,NiiRLyfxNθθ==∑()*=argminRθθθ损失函数如何度量错误的程度。0-1损失函数平方损失函数()()()()()()0,,,1,,ifyfxLyfxifyfxlyfxθθθθ=⎧⎪=⎨≠⎪⎩=≠()()2,,Lyyyfxθ∧⎛⎞=−⎜⎟⎝⎠损失函数交叉熵损失函数对于分类问题,模型输出f(x,θ)为每个类y的条件概率。假设y∈{1,···,C},模型预测样本属于第i个类的条件概率P(y=i|x)=fi(x,θ),则f(x,θ)满足fy(x,θ)可以看...