跳到主要内容

原创研究文章

前面。ICT,2018年7月19日
第二节大数据网络
2018年第5卷| https://doi.org/10.3389/fict.2018.00014

区域烹饪风格转换的神经网络系统

  • 1Habitech Inc.,日本东京
  • 2日本东京癌症扫描公司公共卫生部
  • 松岛圭介,法国尼斯
  • 4伊利诺伊大学厄本纳-香槟分校电气与计算机工程系,伊利诺伊州厄本纳

我们提出了一种新颖的系统,可以将菜谱转换为任何选定的地区风格(例如,日语、地中海或意大利语)。这个系统有两个特点。首先,该系统可以识别任何选定食谱的区域烹饪风格混合程度,并使用重心牛顿图可视化这种区域烹饪风格的混合。第二,该系统可以通过扩展的word2vec模型建议配料替换,从而使食谱对于任何选定的地区烹饪风格都更加真实。利用Yummly提供的大量食谱,一个示例显示了所建议的系统如何将传统的日本食谱Sukiyaki转换为法国风格。

1.简介

随着个人食物偏好和地区烹饪风格的日益多样化,可以将食谱转换为用户可能喜欢的任何选定地区烹饪风格的个性化信息系统将帮助食品公司和专业厨师创建新的食谱。

要实现这一目标,有两个重大挑战:1)确定任何选定食谱的区域烹饪风格混合程度;以及2)开发一种算法,将食谱转换为任何选定的地区烹饪风格。

对于前一个挑战,随着全球化和经济的发展,由于亚洲、欧洲和其他地区的许多国家都在改变和融合区域烹饪模式,因此很难将食谱的区域烹饪风格与特定的传统风格区分开来(Khoury等人,2014年). 关于后一个挑战,据我们所知,很少有人关注开发算法,将食谱的地区美食风格转化为任何选定的地区美食模式(Pinel和Varshney,2014年;Pinel等人,2014年). 以前的研究集中于开发一种算法,该算法根据烹饪动作建议可替换成分(Shidochi等人,2009年),成分之间的相似程度(Nozawa等人,2014年),配料网络(Teng等人,2012年)、成分的典型度(Yokoi等人,2015年)和味道(foodpairing.com)。

本研究的目的是提出一种新的数据驱动系统,用于区域烹饪风格的转换。这个系统有两个特点。首先,我们提出了一种新的方法,通过利用大型食谱库中的食材流行率数据,计算每种食材对某些区域烹饪模式(如地中海、法国或日本)的贡献,来识别食谱的区域烹饪风格混合物。此外,该系统还使用我们称之为的牛顿图解第二,该系统通过推荐现有食谱中的可替代成分,将食谱的地区烹饪模式转换为任何选定的地区风格。

作为这一拟议系统的一个例子,我们将传统的日本食谱——寿喜烧(Sukiyaki)转变为法国风格。

2、变电系统架构

1显示了转换系统的总体架构,包括两个步骤:1)菜谱区域烹饪风格混合的识别和可视化;以及2)将给定配方转换为任何选定区域/国家风格的算法。这些步骤的详细信息如下所述。

图1
网址:www.frontiersin.org

图1。将给定配方转换为任何选定国家/地区风格的转换系统架构。

2.1. 第1步:识别和可视化食谱的区域烹饪风格混合物

使用如下详述的神经网络方法,我们确定食谱的区域烹饪风格。神经网络模型的构建如图所示2.各层的层数和尺寸也如图所示2.

图2
网址:www.frontiersin.org

图2。神经网络模型,用于根据配料表预测地区菜肴。

当我们输入一个食谱时,该模型会对该食谱所属的国家或地区美食进行分类。输入是一个向量,其维数为数据集中包含的配料总数,只有输入食谱中包含的配料指数为1,否则为0。

有两个隐藏层。因此,该模型可以考虑多种因素的组合来预测国家的概率。Dropout也用于隐藏层,随机(20%)将节点的值设置为0。因此,构建了一个鲁棒网络。最后一层的维度是国家数量,这里是20个国家。在最后一层,我们使用softmax函数将其转换为概率值,该函数表示配方属于该国家的概率。亚当(Kingma和Ba,2014年)被用作优化技术。训练的次数是200次。这些网络结构和参数是在初步实验后选择的,以便神经网络能够尽可能高效地执行国家分类任务。

在这项研究中,我们使用了Yummly食谱的标记语料库来训练这个神经网络1每个食谱都有配料和国家信息。首先,我们将数据集随机分成80%用于训练神经网络,20%用于测试其分类精度。最终的神经网络在测试集上实现了79%的分类准确率。显示了神经网络分类的混淆矩阵。2显示了成分分类结果的示例。许多地区食谱中常见的配料,例如洋葱,被分配给所有国家的概率都很低。另一方面,一些只出现在特定国家的成分很可能分配给该国。例如,日本常用的调味品米林很有可能被归类为日本。

表1
网址:www.frontiersin.org

表1。Yummly数据集统计和一些配方示例。

图3
网址:www.frontiersin.org

图3。神经网络分类的混淆矩阵。

表2
网址:www.frontiersin.org

表2。神经网络的成分分类示例。

通过使用神经网络中激活函数产生的概率值,而不仅仅是最终的分类,我们可以绘制重心牛顿图,如图所示4.可视化的基本思想,借鉴了艾萨克·牛顿(Isaac Newton)对光谱的可视化(牛顿,1704年)表示混合物的成分,如重心坐标所示。这种可视化可以直观地解释食谱所属的国家。如果日本人的概率很高,食谱就会被映射到靠近日本人的地方。牛顿图上的国家是通过绘制光谱图来划分的(科伦,2003),以便将类似的国家放置在圆的附近。计算如下。首先我们定义邻接矩阵W公司因为两国之间的相似性。国家之间的相似性j个通过县的余弦相似性计算向量和j个矢量。这些向量将在下一节中定义。W公司ij公司=模拟(血管内皮细胞,血管内皮细胞j个). 度矩阵D类是对角矩阵,其中D类=j个W公司j个接下来,我们计算D类−1W公司。第二个和第三个最小的eingevalues和对应的eingevectors用于放置国家。特征向量被归一化,以便将国家放在圆圈上。

图4
网址:www.frontiersin.org

图4。牛顿图:食谱属于几种地区美食风格的概率可视化。国家是通过光谱图来划分的。

2.2. 第二步:区域烹饪风格转换算法

如果你想通过改变一种成分将一个给定的食谱改变为一个特定国家的高概率食谱,那么应该选择哪种成分?

当我们改变一种成分时x个从配方到配料x个j个,可以使用上述神经网络模型计算国家可能性的概率值。如果我们想改变配方,以获得特定国家的高概率c(c),我们可以找到配料x个j个这样可以最大化以下概率。P(P)(C类=c(c)|第页x个+x个j个)其中第页就是配方。然而,使用这种方法,无论成分如何x个,只有特定成分具有较高的国家可能性c(c)始终处于选中状态。在这个系统中,我们要选择与配料相似的配料x个并且有很高的国家可能性c(c)因此,我们提出了一种扩展word2vec的方法,作为查找类似成分的成分的方法x个.

Word2vec是在自然语言处理领域提出的一种技术(Mikolov等人,2013年). 顾名思义,它是一种向量化单词的方法,相似的单词由相似的向量表示。为了训练word2vec,使用了skip-gram模型。在skip-gram模型中,目标是学习能够预测邻近单词的单词向量表示。目标函数是

d日D类w个d日-n个j个n个,j个0日志P(P)(w个+j个|w个)    (1)

哪里D类是一组文档,d日是一个文档,w个是一个单词,并且n个是窗口大小。该模型预测n个输入单词前后的单词,如图左侧所示5.目标函数是最大化周围单词的预测可能性w个+j个给出中心词w个.概率为

P(P)(w个j个|w个)=经验(v(v)w个T型v(v)w个j个)w个W公司经验(v(v)w个T型v(v)w个)    (2)

哪里v(v)w个K(K)是单词的输入向量w个,v(v)w个K(K)是单词的输出向量w个,K(K)是向量的维数,并且W公司是所有单词的集合。为了优化该目标函数,采用分层softmax或负采样方法(Mikolov等人,2013年)使用。然后我们得到单词的向量,我们可以用向量计算类比。例如,“King−Man+Women=?”的类比通过使用单词2vec产生“Queen”。

图5
网址:www.frontiersin.org

图5。word2vec(skip-gram)体系结构。左侧面板是带有窗口大小的传统单词2vecn个=2。中间面板是配方数据的单词2vec。右侧面板是带有国家信息的配方数据的单词2vec。

在本研究中,word2vec应用于配方数据集。Word2vec可以通过将食谱视为文档,将配料视为单词来应用。我们不包括窗口大小参数,因为它用于编码文档中相关单词的顺序。在食谱中,配料列表是无序的。目标函数是

第页R(右)w个第页j个日志P(P)(w个j个|w个)    ()

哪里R(右)是一组食谱,第页是配方,并且w个配方中的th成分第页架构如图中所示5目标函数是使成分预测的可能性最大化w个j个在给定配料的同一配方中w个概率定义如下。

P(P)(w个j个|w个)=经验(v(v)w个T型v(v)w个j个)w个W公司经验(v(v)w个T型v(v)w个)    (4)

哪里w个是一种配料,v(v)w个K(K)是成分的输入向量,v(v)w个K(K)是成分的输出向量,K(K)是向量的维数,并且W公司是所有成分的集合。

每个成分由word2vec矢量化,每个成分的相似度使用余弦相似度计算。通过word2vec中的矢量化,相同类型的文件被放置在附近。换句话说,通过使用单词2vec向量,可以选择具有类似类型的成分。

接下来,我们将word2vec扩展为能够包含该国的信息。当我们矢量化国家时,我们可以计算国家和成分之间的类比。例如,该方法可以通过计算“酱油−日本+法国=?”来告诉我们与日本酱油对应的法国成分是什么

我们的方法的细节如下。我们最大化目标函数(5)。

第页R(右)w个第页(日志P(P)(w个|c(c)第页)+日志P(P)(c(c)第页|w个)+j个日志P(P)(w个j个|w个))    (5)

哪里R(右)是一组食谱,第页是一个配方,w个配方中的th成分第页、和c(c)第页是乡村菜谱吗第页属于。架构如图右侧所示5目标函数是使成分预测的可能性最大化w个j个在给定配料的同一配方中w个以及成分预测w个考虑到这个国家c(c)第页和国家预测c(c)第页根据配料w个概率定义如下。

P(P)(b条|)=经验(v(v)T型v(v)b条)c(c)W公司经验(v(v)T型v(v)c(c))    (6)

哪里是一种成分或国家,b、 c也是,v(v)K(K)是成分或国家的输入向量,v(v)K(K)是成分或国家的输出向量,K(K)是向量的维数W公司是所有配料和所有国家的组合。

我们可以使用分层softmax或负采样(Mikolov等人,2013年)最大化目标函数(5),在同一向量空间中找到成分和国家的向量。

在向量空间中显示了每个国家的食材,可以认为哪种食材是该地区最正宗的菜肴(Ahn等人,2011年). 此外,图6使用t-SNE方法在2D地图中显示成分和国家(范德马滕和辛顿,2008).

表3
网址:www.frontiersin.org

表3。每个国家的正宗配料。

图6
网址:www.frontiersin.org

图6。通过扩展单词2vec绘制成分和国家地图:每个成分和国家使用t-SNE绘制2D地图。此外,每个成分都是通过使用t-SNE将100维向量转换为3维来着色的。三维与RGB颜色相对应。国家以粗体黑色表示。

3.实验

我们的替代策略如下。首先,我们使用扩展的word2vec并通过Yummly数据集对其进行训练。然后将所有成分和国家矢量化为100维向量空间。其次,我们通过类比计算找到替代。例如,为了找到Mirin的法语替换,我们在向量空间中计算“Mirin−Japanese+french”并得到向量。然后,我们通过计算余弦相似性来找到向量周围的相似成分。

作为我们提出的系统的一个例子,我们将传统的日本“Sukiyaki”转变为法国风格。4显示了建议的替换成分和替换后的概率。“素喜烧”由酱油、牛里脊肉、白糖、大葱、米林、香菇、鸡蛋、植物油、魔芋和大白菜组成。7展示了由本文作者之一的专业厨师KM烹制的法式速食烧。他用法语对新食谱进行了评估,认为其有效且新颖。在这里,我们的任务是制作一道新菜,根据定义,这道菜没有可供比较的基本事实。专家评分是评估新的生成性人工制品的标准方法,例如在创造力研究中(Jordanous,2012年)但今后,开发其他评估方法很重要。

表4
网址:www.frontiersin.org

表4。扩展的word2vec模型建议的替代成分和国家从顶部按顺序改变食品成分的概率。

图7
网址:www.frontiersin.org

图7。法式寿喜烧。本文作者之一的专业厨师KM烹饪了我们系统建议的食谱。

4.讨论

随着个人饮食偏好和区域烹饪风格的日益多样化,开发数据驱动系统,将食谱转换为任何给定的区域烹饪风格,对于食品公司或专业厨师创建新食谱可能具有价值。

在这方面,本研究为文献增添了两项重要贡献。首先,就我们所知,这是第一次从世界各地的大量食谱中识别出食谱中混合了地区烹饪风格的研究。以前的研究侧重于评估对单一地区烹饪模式的坚持程度。例如,地中海饮食评分是最受欢迎的饮食评分之一。该方法使用11个主要项目(如水果、蔬菜、橄榄油和葡萄酒)作为评估地中海风格程度的标准(Panagiotakos等人,2006年). 然而,在这个时代,很难将食谱中的地区烹饪风格与特定的国家/地区风格区分开来。例如,普罗旺斯鱼肉(Fish Provencal)的食谱名称让人联想到法国南部,它应该被塑造成法国风格吗?答案是不同国家风格的混合:32%是法国人;26%意大利语;和38%西班牙语(见图4).

此外,我们的识别算法可以用于评估个人区域烹饪风格混合的程度,使用用户的日常饮食模式作为输入。例如,当一个人将过去一周吃过的食谱输入到算法中时,将返回每个国家的概率值,这显示了一个人日常饮食模式的地区烹饪风格的混合。因此,未来的研究方向将是开发算法,通过提供一系列符合个人独特食物偏好的食谱,将个人区域烹饪模式转变为更健康的风格。

我们的转换算法可以通过添加来自世界各地的多个数据集来改进。不用说,由于缺乏全面的数据集,很难开发出转换地区烹饪风格的算法。例如,世界上最大的食谱网站之一Yummly不太可能包含非西方地区的食谱。此外,关于传统地区烹饪模式的数据通常用其母语描述。因此,未来的研究需要开发一种以多种语言集成多个数据集的方法。

解决这个问题的方法之一可能如下:(1)通过独立使用每个数据集生成每个成分的向量表示;(2) 在每个数据集中只翻译一小部分常用成分,例如土豆、番茄和洋葱;(3) 使用公共成分,使用典型相关分析将每个向量表示映射到一个公共向量空间(Kettering,1971年)例如。

本研究的几个基本局限性值得一提。首先,我们的识别和转换算法取决于数据中配方的数量和质量。因此,未来使用我们提出的系统的研究应该使用高质量的大配方数据。其次,地方菜系的演变阻碍了我们发展精确的算法。例如,地中海地区烹饪模式的定义已经修改,以适应当前的饮食模式(Serra Majem等人,2004年;Kinouchi等人,2008年). 因此,未来的研究应该使用时间趋势食谱数据来明确说明食谱中混合的地区烹饪风格及其日期。Varshney等人(2013)第三,我们没有将烹饪方法(例如烘焙、煮沸和深飞)视为国家/地区风格的特征。每个国家/地区都有不同的烹饪方法,这是每个国家/区域食物文化的重要特征之一。第四,成分组合不被视为代表国家/地区风格的方式。例如,以前的研究表明,在配料组合中包含的风味化合物方面,西方食谱和东亚食谱是相反的(Ahn等人,2011年;Varshney等人,2013年;Zhu等人,2013年;Jain等人,2015年;塔拉布和阿尔拉兹甘,2016年). 例如,西方烹饪倾向于使用共享多种风味化合物的配料对,而东亚烹饪倾向于避免共享成分。建议风味化合物的组合也是表征每个国家/地区食品的基本因素。因此,如果我们使用风味化合物分析配方数据,我们可能会得到不同的结果。

总之,我们提出了一种新的系统,可以将给定的食谱转换为任何选定的地区烹饪风格。该系统具有两个特点:1)系统可以识别任何选定食谱的一定程度的区域烹饪风格混合,并使用重心牛顿图可视化这种区域烹饪风格的混合;2) 该系统可以通过扩展的word2vec模型来建议配料替代,从而使任何选定的地区美食风格的食谱都更加正宗。还讨论了未来的研究方向。

作者贡献

MK、LV和YI提出了研究的想法,并起草了手稿。MK进行了数据收集和分析。MS、CH和KM参与了对结果的解释以及手稿撰写和定稿的讨论。所有作者阅读并批准了最终手稿。

基金

瓦什尼的工作得到了IBM-Illinois认知计算系统研究中心(C3SR)的部分支持,该中心是IBM AI Horizons Network的一个研究协作组织。

利益冲突声明

MK和YI受雇于Habitech Inc.公司,MS和CH受雇于Cancer Scan Inc.公司。KM受雇于Keisuke Matsushima公司。

另一位作者声明,该研究是在没有任何可能被解释为潜在利益冲突的商业或金融关系的情况下进行的。

致谢

本研究使用了Yummly的数据。我们要向所有参与这项服务的人表示最深切的感谢。我们感谢库什·瓦什尼(Kush Varshney)建议采用光谱图绘制方法将国家置于圆圈上。

工具书类

Ahn,Y.-Y.、Ahnert,S.E.、Bagrow,J.P.和Barabási,A.-L.(2011)。风味网络和食物搭配原则。科学。报告1:196. doi:10.1038/srep00196

PubMed摘要|交叉引用全文|谷歌学者

Jain,A.、Rakhi,N.K.和Bagler,G.(2015)。印度地区美食配对分析。公共科学图书馆10:e0139539。

PubMed摘要|谷歌学者

Jordanous,A.(2012年)。评估创意系统的标准化程序:基于创意的计算创意评估。认知计算机4, 246–279. doi:10.1007/s12559-012-9156-1

交叉引用全文|谷歌学者

Kettering,J.R.(1971)。多组变量的规范分析。生物特征58, 433–451. doi:10.1093/biomet/58.3433

交叉引用全文|谷歌学者

Khoury,C.K.、Bjorkman,A.D.、Dempewolf,H.、Ramirez-Villegas,J.、Guarino,L.、Jarvis,A.等人(2014)。全球粮食供应日益同质化及其对粮食安全的影响。程序。国家。阿卡德。科学。美国。111, 4001–4006. doi:10.1073/pnas.1313490111

PubMed摘要|交叉引用全文|谷歌学者

Kingma,D.和Ba,J.(2014)。亚当:一种随机优化方法。arXiv公司[预印本]arXiv:1412.6980。

谷歌学者

Kinouchi,O.、Diez-Garcia,R.W.、Holanda,A.J.、Zambianchi,P.和Roque,A.C.(2008)。烹饪进化的非平衡性。新泽西州物理学。10:073020。doi:10.1088/1367-2630/10/7/073020

交叉引用全文|谷歌学者

Koren,Y.(2003)。“在光谱图绘制上”,in国际计算与组合数学会议(柏林;海德堡:施普林格),496-508。

谷歌学者

Mikolov,T.、Sutskever,I.、Chen,K.、Corrado,G.S.和Dean,J.(2013)。“单词和短语的分布式表示及其组成”,in神经信息处理系统的进展26,编辑C.J.C.Burges、L.Bottou、M.Welling、Z.Ghahramani和K.Q.Weinberger(马萨诸塞州剑桥:麻省理工学院出版社),3111-3119。

谷歌学者

牛顿,I.(1704)。光学:或者,一篇关于光的反射、折射、弯曲和颜色的论文伦敦:Sam.Smith和Benj。沃尔福德。

Nozawa,K.、Nakaoka,Y.、Yamamoto,S.和Satoh,T.(2014)。使用大量烹饪食谱寻找替代配料的方法。IEICE技术报告114, 41–46. 在线获取地址:https://ci.nii.ac.jp/naid/110009950250/

Panagiotakos,D.B.、Pitsavos,C.和Stefanadis,C.(2006年)。饮食模式:地中海饮食评分及其与心血管疾病风险的临床和生物标志物的关系。螺母。Metab公司。心血管疾病。疾病。16, 559–568. doi:10.1016/j.numecd.2005.08.006

PubMed摘要|交叉引用全文|谷歌学者

Pinel,F.、Shao,N.和Varshney,L.R.(2014)。利用感官风味相似性的物理化学相关性来增强、平衡和替代风味。美国专利申请。14/458,315.

谷歌学者

Pinel,F.和Varshney,L.R.(2014)。工作产品的替换。美国专利申请。14/269,353.

谷歌学者

Serra-Majem,L.、Trichopoulou,A.、de la Cruz,J.N.、Cervera,P.、GarcíAlvarez,A.、la Vecchia,C.等人(2004年)。地中海饮食的定义需要更新吗?公共卫生营养。7, 927–929. doi:10.1079/PHN2004564文件

PubMed摘要|交叉引用全文|谷歌学者

Shidochi,Y.、Takahashi,T.、Ide,I.和Murase,H.(2009年)。“考虑到烹饪动作的特点,在烹饪配方文本中寻找替代材料”2009年ACM多媒体烹饪和饮食活动多媒体研讨会会议记录(北京),9–14。

谷歌学者

Tallab,S.T.和Alrazgan,M.S.(2016)。探索阿拉伯烹饪中的食物配对假设:计算烹饪研究。程序。计算。科学。82, 135–137. doi:10.1016/j.procs.2016.04.020

交叉引用全文|谷歌学者

Teng,C.-Y.、Lin,Y.-R.和Adamic,L.A.(2012年)。中的“使用配料网络推荐食谱”第三届ACM网络科学年会论文集(WebSci'12)(伊利诺伊州埃文斯顿),298–307。

谷歌学者

van der Maaten,L.和Hinton,G.(2008)。使用t-SNE可视化数据。网址:https://www.bibsonomy.org/bibtex/28b9aebb404ad4a4c6a436ea413550b30/lopusz_kdd

Varshney,K.R.、Varshnee,L.R.、Wang,J.和Myers,D.(2013)。《中世纪欧洲烹饪中的风味搭配:使用肮脏数据烹饪的研究》国际人工智能研讨会联合会议(北京),3-12。

谷歌学者

Yokoi,S.、Doman,K.、Hirayama,T.、Ide,I.、Deguchi,D.和Murase,H.(2015)。《烹饪配方中成分组合的典型性分析》,以帮助安排成分2015 IEEE国际多媒体会议和博览会研讨会(ICMEW)(都灵)。

谷歌学者

Zhu,Y.X.,Huang,J.,Zhang,Z.K.,ZhangQ.M.,Zhou,T.和Ahn,Y.Y.(2013)。中国地域菜系的地理和相似性。公共科学图书馆8:e79161。doi:10.1371/journal.pone.0079161

PubMed摘要|交叉引用全文|谷歌学者

关键词:食品、大数据、区域烹饪风格、牛顿图、神经网络、word2vec

引用:Kazama M、Sugimoto M、Hosokawa C、Matsushima K、Varshney LR和Ishikawa Y(2018)《区域烹饪风格转变的神经网络系统》。前面。信息通信技术5:14. 数字对象标识代码:10.3389/fict.2018.00014

收到:2017年1月31日;认可的:2018年6月12日;
出版:2018年7月19日。

编辑:

汤姆·克里克英国斯旺西大学

审核人:

戈卡纳·夏尔马美国肯特州立大学
Hyejin Youn公司美国西北大学
乔纳森·吉拉德英国加的夫大学

版权©2018 Kazama、Sugimoto、Hosokawa、Matsushima、Varshney和Ishikawa。这是一篇根据知识共享署名许可证(CC BY)。允许在其他论坛上使用、分发或复制,前提是原创作者和版权所有人得到了认可,并且根据公认的学术惯例引用了本期刊的原始出版物。不允许使用、分发或复制不符合这些条款的内容。

*通信:石川义一,ishikun@gmail.com

下载