学生和教育工作者

了解SAS如何塑造明天最聪明的分析头脑

分析|学生和教育工作者
0
時間依存性治療(时变处理)の因果推論:概論

注) 本コラムは経時的に変化する治療(分时治疗)に対する因果推論』と題した以前のコラムを、時間依存性治療に関する部分と周辺構造モデルにおけるIPTW公司法に関する部分に分割し、内容の追加と修正を行い再構成したものの一部となります。   はじめに 多くの統計的因果推論に関する書籍や文献では、ある治療※1が単時点で行われる場合の因果効果の推定手法について紹介がされています。しかし、治療が複数の時点にわたって実施され、その一連の治療による効果に興味があるという状況も存在するかと思います。例えば、新型コロナワクチンの接種が我々に身近な例として挙げられ、これ以外にも顧客に対する商品のレコメンデーションなど医学分野に限らず様々な例が挙げられます。 正確な定義は後述しますが、上記で挙げたような複数の時点において実施され、かつ各時点での値が異なりうる時間経過とともにとる値が変化しうる)治療は、時間依存性治療(时变处理)と呼ばれます。時間依存性治療に対する因果推論へのニーズは、近年の統計的因果推論という言葉自体の認知の広まりや個別化医療への関心の高まりに相まって増加しています。一方で、その統計学的理論の理解は点治療の状況と比較すると内容が高度になることや日本語での文献が少ないことからそれほど進んでいません。そこで、本コラムでは時間依存性治療に対する効果をどのように定義するか、問題となることは何か、どのように効果の推定を行えばよいかについて簡単に解説を行います。また、いくつかの代表的な推定手法については萨斯での実装方法も併せて紹介を行います。なお、本コラムは潜在アウトカムモデルの枠組みの下での因果推論について基本的な理解があることを前提としています。適宜関連する書籍や文献、因果推論に関する連載コラムをご参照していただければ幸いです。 ※1 本コラムにおいては、介入(干预)(暴露)など他の原因となる変数を治療(治疗)と同義的に用いて構わないものとする     因果推論を行う上での治療分類(“定时”或“时变”)ある治療とアウトカムとの因果関係を議論する場合、治療は定时治疗(時間固定性治療)※2、 时变处理(時間依存性治療)のいずれかに分類がされます。そして、このどちらに属するかによって扱いは大きく異なります。まず、治療が時間固定(定时)であるとは、対象集団におけるすべての被験者に関して、初回の治療レベルが以降のすべての時点における各々の治療レベルを決定することを指します。この状況としては大きくつあります。 治療が研究開始時点でのみ行われる 1つ目は、治療がベースラインや时间零点とも呼ばれる研究やプロジェクトの開始時点でのみ行われる場合です。一般的な臨床試験で投与される被験薬・対照薬や、一回の投与で完全な免疫を与える一剂疫苗(例如。,黄熱病ワクチン)などが実例として挙げられます。 初回の治療レベルが時間経過によって不変 2つ目は、初回の治療が2回目以降の治療時点においても変わらず継続的に行われる場合です。この状況の例としては、被験薬と対照薬の複数回投与が予定される臨床試験や近年いくつかの国で導入されているベーシックインカムといったものが挙げられるかと思います。 決定論的に各時点の治療レベルが定まる つ目は、初回の治療レベルが決定論的にその後の治療レベルを定める場合です。すなわち、初回治療での分岐以降はそれぞれ1つの治療パターンとなる場合です。例えば、A类群に割り付けられた被験者は隔週で被験薬を、B类群に割り付けられた被験者は毎週対照薬を投与初回治療が被験薬なら毎週投与、対照薬なら隔週投与)されるといった実験が1つの例として考えられます。また、A类チームに配属された選手は実践練習と模擬戦を、B类チームに配属された選手は基礎練習と筋力トレーニング初回練習が応用練習ならその後は模擬戦、基礎練習なら筋力トレーニング)をそれぞれ1日の練習メニューとして行うといったものもスポーツの領域における例として考えられます。 上記の分類からも類推されるように、治療が複数時点で行われるとしても2, 3の状況に該当する場合には、因果推論を行う上での扱いは治療が単時点で行われる場合と変わらず、ベースライン共変量の調整に基づく手法が適用可能です。これはすべての個人に関して初回治療によって2回目以降の治療が決定されるため、後述する時間依存性交絡(时间相关混杂)という問題が生じ得ないためです。   次に、時間依存性治療(时变处理)とは時間固定でない治療すべてを指します。すなわち、複数時点で行われる治療であり、かつ各時点でとる値が初回の治療によって決定論的に定まらない治療が時間依存性治療にあたります。例えば、月に1回のペースで運動指導プログラムをある市において行うというプロジェクトを考えてみます。ここで、初回指導に参加した場合は何があっても絶対に毎回参加しなければならない」や初回指導に参加しなかった場合には絶対に以降参加できない」などといった特殊な制約がない限りは、各指導日でプログラムという2つの選択肢を市民は取ることができます。そのため、この運動指導というのは時間依存性治療にあたります。 この他にも疫学研究における喫煙や投薬量が被験者の状態によって変更される処方、検索履歴に応じて表示される広告レコメンド)など様々な曝露、治療、介入が時間依存の例として挙げられます。ただし、特に疫学・医学分野においては本質的には時間依存であるものの、測定の実現可能性から時間固定とされる場合もあります。また、対照的に研究・プロジェクトの計画時点では時間固定であるものの、研究実施後には時間依存であるとみなされる場合もあります。それが割付の不遵守コンプライアンス違反)が存在する場合の治療です。例えば、上記の時間固定である治療の2番目のシナリオで紹介した継続的に被験薬と対照薬実薬)を投与するという臨床試験においては、試験に参加する被験者が何らかの理由(例如。,副作用の発現)で治療法を切り替える場合があります。このような状況においては、本来は時間固定であった治療を時間依存性治療とみなして解析補正)を行うことが可能です。 ※2 執筆時点で対応する定訳が存在しないという筆者の認識であるが、本コラムにおいては時間固定性治療という訳をあてる (治疗方案)ここまでは因果推論を行う上での治療分類について紹介を行いましたが、以降では治療レジメンとその分類について紹介と解説を行います。これらは、因果効果の定義やデータを用いて効果を推定する識別のために必要な仮定を検討する)場合に非常に重要になります。ここから先は数学的な内容も入りますので、以下のように記法をおきます。基本的にはアルファベットの大文字は確率変数を、小文字はその実現値を指しています。 克:時点を表す添字(k=0,1,…,k)阿克:における二値である時間依存性治療(1:あり,0:し)A0:k

高级分析|分析|数据管理|数据可视化|了解SAS|学生和教育工作者|SAS的工作和生活
阿德里亚娜·罗哈斯0
“Cada vez existen más asignaturas vinculadas a temas analiticos en todos los sectores”

信息是建立在企业基础之上的,特别是在准备工作和恢复能力方面具有重要意义。达托斯辩护律师协会和必要律师协会(Con el aumento en la cantidad de datos disponibles y la necesidad de aprovecharlos para tener mejores resultados,también hemos)

分析|了解SAS|学生和教育工作者
Cinzia Gianfori公司0
Certificazioni SAS e SAS学术专业(按优先顺序)il contatto tragiovani studenti e aziende

Nel corso degli anni SAS与una solida合伙公司con il mondo accademico合作。Oggi collaboriamo conódi 40 universityáitaliane e siamo presenti all’interno di percorsi di studio per formare giovani studenti e studentesse su temi come分析、智能人工电子机器学习、stimolando la loro curiositá、ilo senso

分析|学生和教育工作者
0
萨斯による因果推論:PSMATCH公司プロシジャによる傾向スコアマッチング

はじめに 因果効果の推定手法の1つである傾向スコアマッチング、および萨斯での実装方法について紹介します。傾向スコアマッチングの萨斯での実装にあたっては、本記事ではSAS/STAT 14.2(SAS 9.4)で追加されましたPSMATCH公司プロシジャを使用します。因果推論の基本的な枠組みや傾向スコア・傾向スコアマッチングの統計的理論については、詳しく解説を行いませんので、そちらに関心がある方は書籍等を参考にしていただければ幸いです。 理想的なランダム化比較試験においてはランダム化により治療群と対照群間で測定・未測定の交絡因子(混淆)の分布が期待的に等しくなるため、単純な群間比較によって治療介入、曝露)の興味のあるアウトカムに対する効果を評価することが可能です。しかし、ランダム化が行われなかった実験研究や観察研究のデータから因果関係を見出そうとする場合には、一般に交絡(混淆)と呼ばれるという問題が生じます。これは簡単に述べると、治療群と対照群で集団の特性が異なることで2つの集団が比較可能ではない状況、治療群と対照群でのアウトカムの違いが治療だけではなく集団の特性の違いにも依存する状況を意味しています。つまり、ランダム化が行われなかった実験研究や観察研究のデータから因果効果を推定する際には、交絡を十分に制御した上で群間比較を行う必要があり、世間一般で因果効果の推定手法と呼ばれるものは、交絡を調整方法する方法だと認識していただいてよいかと思います。因果効果の推定手法は回帰や層別化、標準化など様々なものがありますが、本記事ではマッチング法に注目します。マッチング法は、治療群と対照群から類似した特徴を持つ被験者をペアとしマッチングさせ)、マッチした対象集団において治療を受けた群と受けなかった群を比較するという方法です。  ただ、一言にマッチング法と言っても複数の交絡因子共変量)の情報をそのまま用いる共変量マッチング」と、共変量の情報を傾向スコアという一次元の情報に落とし込んだ上でマッチングを行う傾向スコアマッチング」という2つの方法に大きく分かれます。初学者にとっては前者の方がより直感的な方法かと思いますが、共変量が高次元である場合や変数のカテゴリ数が多い場合にはその実施が困難になります。そのような場合にしばしば用いられるのが後者の傾向スコアマッチングです。マッチングには、治療群と対照群の構成比率やマッチング方法など様々なオプションがありますが、傾向スコアの分布が同じ治療群と対照群が交換可能)である匹配人口を作成するというのが共通の考え方です。また、傾向スコアマッチングの実施手順は連続である単一の共変量を用いた共変量マッチングと同様であり、大きくは以下のような手順となります。 傾向スコアマッチング法のステップ】 共変量の特定、測定 傾向スコアのモデル指定、傾向スコアの推定 マッチングアルゴリズムの決定、マッチングの実施 マッチングした対象者で構成された集団(匹配人群)における治療群と対照群での交絡因子の分布評価 4で評価した共変量が不均衡である場合には2に戻る 群間比較の実施 推定結果の解釈   記法と仮定 記法 以下の記法の下で傾向スコアマッチングに関する議論を行います。アルファベットの大文字は確率変数を、小文字はその実数値を意味するものとします。なお、以降でボ-ルド体としている場合は単一の変数ではなくベクトルであることを意味しているものとします。 答:二値の治療変数 是:観察されるアウトカム 雅:潜在アウトカム 十: [信息字幕](一般にはベクトル) 仮定 本記事では以下の識別可能条件を仮定します。理想的なランダム化比較試験においては研究デザインによってその成立が認められますが、観察研究ではあくまで”仮定”となります。つまり、その成立を認めることが妥当であるかどうかの議論が別途必要となることにご注意ください。また、各条件の詳細や意図する内容については本記事では取り扱いませんので、他の記事や書籍等をご参照ください。 【可识别性假设】一、效度(一致性)如果Ai=a,那么YiA=YiA=Yiが二値であるとき、Yi=AYia=1+(1-A)Yia=0条件付き交換可能性 (有条件

分析|了解SAS|学生和教育工作者|SAS的工作与生活
SAS春季校区–une transition en douceur vers la vie professionnelle

Vous Vous rapelez ce总理jour du reste de votre vie professionnelle?Vous avez fini les cours、les examens、ces anne es d’organization libre。Tout d'un政变,企业发展。世界银行委员会(Compendre le functionnement du monde corporate),avec吹捧其特殊性。Cela peutítre安哥拉语来源-et c’est la

分析|学生和教育工作者
イベントレポート: 東京理科大学×SAS合同シンポジウム

社会におけるデータ活用の拡大に伴い、データ活用人材の需要はますます大きくなってきています。東京理科大学データサイエンスセンターとSAS日本研究所株式会社は、データサイエンス人材の教育とキャリアについての知見を深めるため、2022年12月21日(水)に合同でシンポジウムを開催しました。本記事では、このイベントの様子をご紹介したいと思います。 シンポジウムの開会にあたり、東京理科大学 副学長 坂田 英明 様、SAS日本研究所株式会社 営業統括本部長 宇野 林之からご挨拶がありました。坂田副学長は、2031年に150周年を迎える東京理科大学が掲げるTUS愿景150のなかで、データサイエンス教育に重点を置いていることに触れ、2019年に設置された東京理科大学データサイエンスセンターが、データサイエンスの応用分野創造と人材育成を進めていることを紹介しました。萨斯の宇野からは、40年以上の間、アナリティクスを専業としてきた萨斯の歴史に触れながら、リソース不足で実りが少なかった第二次人工智能ブームと違い、昨今の第三次人工智能ブームは豊富な計算リソースを背景に社会に浸透しており、特にビジネスの世界では、データドリブン経営から業務のディシジョンのサポートまで、データサイエンスが幅広く活用されていることを紹介しました。両者ともにデータ活用人材の不足を課題に挙げ、本シンポジウムでの議論に期待を寄せました。 第1部:東京理科大学におけるデータサイエンス教育 第1部では、東京理科大学のデータサイエンス教育の紹介と、そこで学んだ学生からの研究発表が行われました。 まず、データサイエンスセンター長 矢部 博 様から、データサイエンス教育の取り組みについて紹介がありました。理系の総合大学である東京理科大学では、各学部でデータを活用した研究・教育がされてきましたが、学長直下の組織として設置されたデータサイエンスセンターが横串となり、各学部や教育推進機構、研究推進機構、産学連携機構と連携しながら、データサイエンス教育・研究のハブとしての役割を果たしています。 政府はAI 2019年万人のリテラシーレベルの人材と年間25万人の応用基礎レベルの人材の育成を目標に掲げていますが、東京理科大学では、既に2019年度から独自の教育プログラムを展開しています。まず、全学部生が対象のデータサイエンス教育プログラム[基礎]は、数学、統計学、情報学、データサイエンス、その他の授業から20亿評価以上で取得することで、認証書が授与されます。大学院生が対象のデータサイエンス教育プログラム[専門]では、数理コース、ビジネスコース、人工知能コース、医薬コース、機械学習コース、医療統計コース、信息学コースの各コースが設定する科目から8亿評価以上で取得することを要件としており、高度な知識と技能を持った学生を認証しています。 また、萨斯との共同認定プログラムであるSAS学术专业化を活用したデータ分析を実践する授業の6単位を取得することで、萨斯スキルと統計解析の知識を認定します。特に、萨斯ソフトウェアを用いた研究課題や実践課題に取り組み、論文を提出し、審査に合格することが条件となっています。このような教育プログラムをデータサイエンスセンターが提供することで、各学部での一般・専門教育と並行してデータサイエンス人材の育成を推進しています。 次に、理学部第二部数学科 教授 伊藤 弘道 様から、社会人履修証明プログラムについて紹介がありました。東京理科大学の理学部第二部は、日本唯一の夜間理学部として、特に理科・数学を中心とした学び直しの機会を提供してきました現在、社会人学生の割合は1割程度で、教員免許の取得を目指す学生も多く在籍しています。学部の課程と並行して履修証明プログラムを2020年度から開始しています。コースの種類としては、萨斯認定コース、データサイエンスコース、数理情報コース、統計学入門コース、数理モデリングコース、数学リテラシーコース、微分幾何入門コースがあり、さまざまなスキルや知識を持って社会で活躍できる人材を育成しようとしています。 続いて、萨斯教育の実践を含む教育の一つとして、大学院講義カテゴリカルデータ解析」に関し、工学部情報工学科 教授 寒水 孝司 様より紹介がありました。この授業は理論と演習から構成されます。演習パートについて、企業で活躍する専門家が講師として招聘され、担当しています。講師の統計解析への知見、萨斯プログラミングの専門的な知識や技術を吸収しようと、学生は理論の学習と演習課題に交互に取り組んでいます。特にこの授業では、クロス集計とその指標の推定から、交絡のあるデータを扱うための技術を習得します。 学生の研究発表 第1部の最後に、4組の学生からデータ分析を活用した研究発表がありました。独自に設定した課題について、大学のプログラムで提供されているデータや自身で収集したデータを用いた分析結果を発表しました。みなさん、基礎分析をしっかり行い、データの傾向を掴もうとしていたことが印象的でした。将来の夢の発表もあり、スキルを磨いて夢を実現されることを期待しています。 第2部:ビジネスにおけるデータサイエンス人材の活用 第2部では、ビジネスにおけるデータ活用事例およびデータ活用人材のニーズやキャリアについて、講演がありました。 採用市場におけるデータ活用人材のニーズ まず、株式会社マイナビ 就職情報事業本部 マイナビ編集長 高橋 誠人 様より、データ活用人材の採用市場におけるニーズについて紹介されました。株式会社マイナビは、就職活動支援サービスの提供のみではなく、大学や企業と連携してデータ活用人材の育成の支援を行っています。特に、2024年卒業学生向けの新卒就職活動サイト「2024」「DX」(デジタル・トランスフォーメーション)がわかる超基礎講座」という电子学习人材のキャリア形成を支援しています。 講演では、経済産業省の新産業構造ビジョン」や情報処理推進機構の「DX「2021」などからデータを引用しながら、信息技术人材のニーズについて論じました。ほぼすべての分野において信息技术技術を核とした革新が期待されているなか、信息技术人材の需要は高まることが予測されています。米国では信息技术人材不足が解消されてきている一方、日本国内の信息技术人材は質・量ともにまだまだ不足感があります。プロダクトマネージャー、ビジネスデザイナー、テックリード、データサイエンティストと、さまざまな側面のデータ活用人材が不足していると感じている企業が半数以上です。(一方で、「自社には必要ない」と考えている企業も2割程度あるのも問題かもしれません。)2030年には、中位シナリオで45万人IT人材が不足すると予測されています。マイナビ社の調査結果を見ると、新卒の就職市場は全体的に堅調であるなかで、情報系学生の就職先が製造・ソフトウェア・通信分野に偏っていることが問題であるように思われます。転職市場では、全体と比較して信息技术・通信・インターネットの分野において、転職による給与の上昇が期待できるようです。最近では、経験者を募集する割合が減ってきていることも人材不足を反映しているかもしれません。

高级分析|分析|人工智能|良好的数据|了解SAS|学生和教育工作者
里卡多·加兰特0
里斯本大学皇家科学院实验室(História do SAS LAB na Faculdade Ciéncias da Universidade de Lisboa)

Origem e benefícios do Laboratorório Científico criado pelo SAS,na Faculdade Ciéncias da Universidade de Lisboa。没有最终结果,o SAS葡萄牙anunciou a criaçao de um laboratório ciefico-designado SAS-FCUL Lab-na FCUL-Faculdade de Ciencias da Universidade Lisboa,como objetivo

了解SAS|学生和教育工作者
0
学术领域的SAS®OnDemandがリニューアルしました

2023年を迎えて間も無く1ヶ月が経とうとしていますが、皆様はどのよう新年のスタートをされましたでしょうか。使用コロナに向けた取り組みが社会的には広がり、自らが管理する時間が増えた中で、質の良い学習時間を確保することは社会人・学生問わず大変重要なことかと思います。 さて、萨斯では学習および教育を目的とする方向けに、SAS®学术随需应变(ODA)というアナリティクス・ソフトウェアを無料で提供しています。実は、この萨斯-奥达ですが昨年末にログイン画面のアップグレードが行われ、提供されている各種機能へのアクセス方法がわかりやすくなりました。このブログ記事では、アップグレード後の SAS官方发展援助について紹介していきます。 ①ホーム画面中央) 画面中央には大きくつのセクションがあり、それぞれ下記の内容が提供されています。 SAS®Studio代码すべての教員・学生・個人学習者を対象として、网状物サイトにアクセスするだけで使用可能です 提供されている”タスク”から图形用户界面SASコードを生成可能ですもちろん自分でコーディングすることも可能) SAS工作室上にプログラムファイルの新規作成、既存ファイルのアップロードが可能です(5GB)アクセス可能な萨斯ソフトウェア一覧: SAS/STAT®Base SAS®SAS/IML®SAS/OR®SAS/QC®SAS/ETS®学习SAS编程1,统计1といった統計学やプログラミングに関するいくつかの电子学习や、動画教材を提供しています 萨斯ソフトウェアや統計解析・機械学習を中心とした基礎的な知識、スキルを电子学习を通じて習得可能なオンライン学習プラットフォームSAS学生技能生成器を学生を対象として提供しています大学ドメインのアドレスが必要) 萨斯の認定資格に関するガイドをていきょうしています 与SAS社区合作に関連するコミュニティ情報が掲載されています プログラミングや解析にあたっての疑問点、提示を共有し、世界中の萨斯ユーザーからコメントをもらうことが可能です ②ホーム画面右) 初期状態では次の5つのアイコンが表示されます。 文件夹

分析|学生和教育工作者
竹村直弘(Naohiro Takemura)0
アナリティクス入門講義:要因分析・効果検証

萨斯が提供する大学講義アナリティクス入門」のブログ・シリーズ、前回は記述的アナリティクスについてまとめました。今回は4つのアナリティクスのレベルの2つ目、診断的アナリティクスについてまとめます。診断的アナリティクスは、要因分析・効果検証・統計的因果推論などの手法を用い、事象がなぜ起こったかを分析します。 収入が多い家庭の子供は学力が高いか? 数年前の新闻周刊の記事に、教育の不平等を取り上げたものがありました。子供の教育にはお金がかかり、収入が多い家庭しか良い学歴を得られないという論調です。東京大学生の親の年収分布と45-54歳男性の年収分布を比較し、前者では年収950万円以上が62.7%もいるのに対し、後者は12.2%であることをデータとして掲載しています。さて、このデータから東大に入学できたのは親の収入が多いからである」と主張するのは正しいでしょうか? 子供の教育にお金がかかることは事実だと思いますが日々実感しております)、先程のデータから親の収入→東大」の因果関係を導くには、対応しなければいけない反論をいくつか思いつくことができます。 まず、取得したデータに偏りはないでしょうか。東京大学の学生は、東京を中心とした関東出身者が多いと思いますが、全国と比較して、東京在住者の収入は高いので、その影響が出た可能性があります。また、一般の男性」は大学生の子供がいる年代」のデータのようですが、実際に大学生がいる」かどうかはわかりません。一般に、子供がいる世帯のほうが子供のいない世帯より収入が多いので、これも影響が出ている可能性があります。このように、集計対象のデータの偏りバイアス)により、適切な比較がなされていない可能性があります。 また、収入の多さ」と東大への入学」に関係があっても、因果関係は無いかもしれません。例えば、家族や地域の教育熱心に対する考え方」が収入や学歴に同時に影響を与える場合、擬似的な相関が現れる場合があります偽相関)。このような交絡要因を考慮しないと、真の因果関係を割り出すことは難しいです。念のため書いておきますが、新闻周刊の記事が間違っていると主張しているわけではありません。考慮すべきバイアスや交絡がありそう、という主張です) キャンペーン・メールの効果 企業では、商品の購買促進のために、顧客に直接メールを送り、商品の案内をするということを行うことがあります。このとき、メール配信の効果を知るためには、メールを送った顧客の購買量とメールを送らなかった顧客の購買量の差分をとればよい、と考えることができます。しかし、もしメールの配信をもともと買ってくれそうな人」を対象としていた場合はどうでしょうか。効果的にメールを送るには、このような対象に限定することは合理的ですので、このような場合は多いでしょう。しかし、買ってくれそうな人にメールを送っていたとすれば、メールを送った顧客はもともとメールがなくても買っていた」人だったかもしれません。つまり、メールを配信した効果は単純比較の差分量より小さい可能性があります。このときの、メールを送った人のほうがもともと購入しやすかった」という偏りをセレクション・バイアスと呼びます。 バイアスや交絡を除去する方法 バイアスや交絡を除去する最も強力な方法はランダム化比較実験です。対象をメールを送るグループ」と送らないグループ」に振り分けることにより、データ取得の段階からバイアスや交絡を含まない比較対象を作ることができます。薬剤やワクチンの効果の検証は、この方法が採られます。どれぐらいの実験対象を用意し、測定された効果が偶然現れたものではないことを統計学的に検証します。このあたりは、ライフサイエンスの事例の回で詳細に紹介します。 一方で、ランダム化比較実験はコストがかかります。さきほどのメールの例でいえば、買ってくれそうな人に送ったほうが効果的なメールを、あえて効果が低い人にも送る必要があります。薬剤の治験では、協力してくれた被験者に報酬を支払います。また、例えば子供手当の効果」の検証など、そもそもランダムに振り分けることができない場合もあるでしょう。そういった場合には、実験で計測されたデータではない、観察データを用いて統計学的に効果や因果を検証することになります。この方法は統計的因果推論と呼ばれます。統計的因果推論については、こちらのブログ・シリーズで詳しく解説されています。 観察データから因果や効果を推定するには、もしかしたらこういう要因があるのではないか」という候補を多く集め、それらの影響を丁寧に検証する必要があります。そういった候補を網羅的に思いつくには、その領域への深い知識が必要です。データサイエンスにおけるドメイン知識の重要性は、前回述べたデータ準備においてそれぞれのデータの意味や特徴を捉えるとともに、このような要因分析・因果推論における交絡要因を抜き出すことにも関連します。 研究における診断的アナリティクス 米国バージニア・コモンウェルス大学の凌乱がんセンターで、がんによる死亡の社会要因を研究している事例があります。ここでは、所得や教育水準など、社会的な不利な立場ががんの死亡率に与える影響を研究しています。このためには、年齢や体重、喫煙、飲酒、食生活といったがんのリスク因子の他に、医療施設の場所や居住地域、人種、民族、収入などの社会的要因を総合的に検証する必要があります。このような多くの要因から、本当に影響がある要因を特定するためには、統計的因果推論が必要です。 また、ここでもやはり、データの質は重要です多くのデータソースから個人をキーとしてデータを統合し、さまざまな要因変数)を含む総合的なデータを作る必要があります。医療情報はセンシティブなデータになりやすいので、データの統合、研究者への共有、患者へのフィードバックといった利便性の追求と、セキュリティの確保の両面が大切です。

分析|学生和教育工作者
アナリティクス入門講義:記述的アナリティクスと可視化

萨斯が提供する大学講義アナリティクス入門」のブログ・シリーズ、1回目の前回はイントロダクションとしてアナリティクスとは」についてまとめました。今日は4つのアナリティクスのレベルのつ目、記述的アナリティクスについてまとめます。 前回も書いたように、記述的アナリティクスは、過去に何が起こったか、いま何が起こっているかを知るためのアナリティクスです。データの集計し、統計量を計算したり、集計結果を表やグラフを用いて可視化したりすることで、データを理解したり情報伝達をすることが目的です。 納得して仕事をするために 私の娘が小学校を卒業するとき、卒業式は友達みんな袴を着るって言ってるよ!」と言い出しました。つまり、だから自分も袴を着たいと主張しているわけです。小学校の卒業式なんて一生に一回だしな…」なんてよくわからない理屈でレンタルしましたが、蓋を開けてみると、割ぐらいの女子しか着ていませんでした。小学生の言うみんな」は信じてはいけません。 ところで、SAS日本では、毎年夏休みに親子でデータサイエンス」というイベントを開催しています。小学生とその保護者が、一緒にデータを活用したポスターを作るイベントです。何年か前、自分のおこづかいが少ないと感じた小学生が、おこづかいアップを目指すためのポスターを制作しました学校のお友達に毎月のおこづかいの金額をアンケートし、集計した結果をヒストグラムに表し、平均値、中央値、最頻値を算出して、親を説得するための材料にしたのです。みんな私よりおこづかい多いよ!」という主観的で非定量的な主張より、このようにデータとグラフで示されると、親は納得せざるを得ません。 子供が親を説得するのに限らず、組織として多くの人が関わる仕事では、ある種の同意を形成する必要がありますそこには納得感が必要であり、そのためには客観的なデータを示すことが役に立ちます。同意が形成されていることを、英語で “在同一页”と表現しますが、同じページの同じ図表を見ていることが重要なのです。おそらく、どこの会社でも同様のものがあると思いますが、SAS日本では毎月、全社員が参加することになっている)ミーティングのなかで、現在の売上の状況が報告されます。どの部門が目標に対してどれぐらいの位置にいて、来月以降はどの程度の売上を予測しているのか、図表を使って全社員に共有します。そのことにより、全員が同じ目標に向かって活動することができます。 可視化の役割 データサイエンスという言葉には、人工知能や機械学習のイメージが強いかもしれませんが、実際の社会におけるデータ活用では、まだまだこのような可視化の役割が大きいと感じています。多くの人の同意を得るために客観的なデータを提示するだけでなく、日常的なデータをモニタリングし、非日常的な変化を検知してアラートを上げることができます。例えば新型コロナウイルスの陽性者は毎日報告されて、その遷移が可視化されています例: 東京都のページ)。これにより、感染者が増えてきたな」と感じることができますし、数値が基準を超えると、まん延防止措置や緊急事態宣言などの対策が取られることになります。 他にも、例えば工場のカーボン・フットプリントの総量が規制されているような場合、各ラインが毎日どれぐらいエネルギーを消費しているかについての情報を管理することが必要になります。このためには、データを集計し、報告する必要があります。毎日することですので、手作業で実施するのは大変です。データ取得から報告書作成までを自動化できれば、仕事の効率を上げることができます。そのためには、どんな分析をするか、だけではなく、いつデータを持ってきて、分析結果をどこにどのタイミングで出力するかを考慮してシステムを設計する必要があります。世の中には、まだまだこのように記述的アナリティクスにより解決できる課題が多く残っていると思われます。 可視化をサービスの透明性の確保のために行っている例もあります。米国のダーラム市の事例では、警察が市民の信頼を得るために、警察官の活動データを可視化して市民が閲覧できるようにしました。逮捕、出勤、苦情、トレーニングなどのデータを集め、指標をダッシュボードに表示します。市民が自分でダッシュボードを操作して分析」することができれば、より自分が調べている」感が出て納得しやすくなり気がします。 記述的アナリティクスとデータ準備、データ探索 記述的アナリティクスは記述統計量を計算したり、データをグラフで表したりするだけだから簡単だ、と思われるかもしれませんが、実際はそうではありません。可視化も含めたデータ分析のためには準備が必要で、この工程に80%もの時間が使われることも珍しくありません。データはどこにあるのか、どのようにアクセスするのか、そのデータの項目は何を意味しているのか、入力漏れはないか、ありえない値が入力されていないか、表記は統一されているか、複数のデータソースに整合性はあるか、など、正しいデータ分析のために必要な準備は多岐にわたります。これについては、データの管理と準備の回で詳細を紹介します。 逆に、データの準備のために記述的アナリティクスが活用されることもあります。例えば、記述統計量やヒストグラムにより各変数の分布を調べることで、それが想定している分布と一致しているか、おかしな値が入力されていないかをチェックすることができます。変数間の相関を見たり、散布図を描いたりすることで、異常値を発見しやすくなることもあります。 また、このようなデータ探索は、診断的アナリティクスや予測的アナリティクスのような、さらなるデータ分析のための準備にも使われます。変数の分布をみることで、どのような統計モデルを当てはめるかを検討することができます。機械学習の精度を上げるためには、変数を操作して適切な特徴量をつくることが必要ですが、そのために変数の分布や欠損をチェックし、変数変換や補完を行うかどうかを決定します。 このように記述的アナリティクスは、データの準備から高度なアナリティクスまで、幅広いフェーズに活用される基礎的なスキルです。 記述的アナリティクスの学習 萨斯ソフトウェアで記述的アナリティクスを実践するときは、SAS可视化分析を活用するのが便利です。マウス操作でデータの可視化とレポート作成、データ分析を行うことができます。 学生であれば、学習用ポータル 学生技能生成器、电子学习で学ぶことができます。「SAS Visual Analytics 1 for SAS Viya:基础」というコースでは、データ準備と可視化、レポーティングを学ぶことができます。ぜひご活用ください。

分析|学生和教育工作者
アナリティクス入門講義:イントロダクション

SAS公司データがあふれる世界をインテリジェンスに満たされる世界に変える」ですが、そのためにはデータの活用について知っている人材が世の中でさまざまな役割を担うことが重要だと考えています。そこで、萨斯はグローバルで教育・アウトリーチ活動を実施しています。 SAS日本では、アナリティクスを学習するための入門編として、同志社大学や上智大学で講義を提供しています。この講義では、萨斯社員が講師となり、アナリティクスの基本的な考え方や各業界での活用事例、アナリティクスを実現するためのテクノロジーなどを紹介します。萨斯ソフトウェアを活用した実際のデータ分析に取り組む前に、アナリティクスがどこで活用されているのか、何のために使われているのかについて、データサイエンティストを目指す学生以外にも知ってほしいと考えて講義を構成しました。実際は90分×15回程度の講義なのですが、このブログ・シリーズでは講義の内容をまとめて紹介します。 アナリティクスとは アナリティクス(分析)”は分析から派生した言葉ですが、分析の語源としては、ばらばらにする」という意味があるそうです。分析の日本語訳である「分析」も、「分ける」「析(さ)く」という意味の漢字から成り立っていますから、分析と同じ意味合いですね。近代以降の還元主義的な考え方によれば、分ける」ことはすなわち理解する」ことにつながります。分解することにより、ものごとを理解しようというのが分析の言葉的な意味になります。 近代の科学では、対象の理解のために観察や実験といった方法が採られてきました。そこには、データが必須です。対象を分解し、データを比較することがスタートです。比較対象をできるだけシンプルにすることが研究の基本的な態度ですが、対象が複雑になったり大規模になったりすると、多くのデータが必要になります。そのため、複雑で多様なデータから情報を引き出し、ものごとを理解するための技術が発展しました。それがアナリティクスです。分析分析学」であり、分析に関する知識や技術の総称になります。SAS网络ページには次のように書いています。 アナリティクスは包括的かつ多面的な分野であり、記録されたデータに潜む有意義なパターンや知識を発見するために、数学、統計学、予測モデリング、機械学習などの手法を活用します。 萨斯はアナリティクスのソフトウェアとサービスを提供している企業ですが、単なる技術」を売っているとは考えていません。人間が対象を理解しようとしているのは、その理解から利益を得たいからです。今日、世界中の組織でアナリティクスやデータサイエンスが活用されているのは、それが組織の役に立つからです。萨斯にはこんな言葉があります。 数据不会驱动组织,决策会驱动组织。データは組織を駆動しない。意識決定が駆動する。 アナリティクスはデータを分析し、インサイトを得るための技術ですが、それが人間の意思決定につながらない限りは組織の利益にはなりません。 意思決定をしてみよう 意思決定」と言っても、べつに特別なことではありません。我々は日常的に意思決定をしています。少し例を上げてみましょう。 今日、傘を持っていくか? 週末のイベントに参加するか?コロナ禍) ワクチンを接種するか? 運動会のリレーのクラス代表を誰にするか? どの授業に登録するか? みなさんは、これらの課題に対し、どのように意思決定をしますか? 傘を持っていくかどうかの判断は、天気予報を見て決めるでしょう。天気予報は気象庁や気象予報士が過去のデータと現在の観測データ衛星や気象観測所、各種センサーなど)を用いて未来の天気を予測しています。週末のイベントに参加するかどうかは、新型コロナウイルスの感染者の動向を見て決めるでしょう。ニュースや网状物サイトでは、感染者の遷移がわかりやすく可視化されています。ワクチンを接種するかどうかは、ワクチンに効果があるかどうか、副反応が許容できる範囲かどうかを考慮して決めるでしょう。ワクチンの効果は、厳密にデータと統計学によって検証されます運動会のリレーのクラス代表は、体育の授業の5000万走のタイムを見て決めると納得しやすいです。1回だけだと「たまたま」かもしれないので、何回かの平均タイムを比較するかもしれません。どの授業に登録するかは、学部・学科の履修ガイドラインもさることながら、過去にその授業を受けた先輩が残したデータを参考にするでしょう筆者の学生時代は、単位の取りやすさがA-D公司にランク付けされたリストが出回っていました)。このように、みなさんは日常的に意思決定をしていますし、そこではデータを役立てていることが多いことがわかります。 みなさんのなかには、データサイエンティストを目指している人もいるかもしれません。組織のなかでアナリティクスを活用するには、この意思決定をどのように支援するかを考えることが重要です。データを取得し、分析し、その結果を意思決定者であるユーザーに提示するサービスを設計する必要があります。このユーザー」はアナリティクス・ソフトウェアのユーザーではなく、意思決定サービスのユーザーという意味です。データサイエンティストは、データがあるからとりあえず分析してみるのではなく、ユーザーが意思決定をする際の課題をいかにデータ分析により手助けするかをプランすることも役割の一つになります。 4つのアナリティクス ガートナーによると、アナリティクスは、データ分析をしてから意思決定にいたるまで、どの程度人間が介在するかによって4つのレベルに分けられます。 記述的アナリティクス … 過去に何が起こったか、いま何が起こっているかを知る。データの集計や平均値などの統計量の計算、グラフを用いた可視化など。 診断的アナリティクス … 事象なぜ起こったかを分析する。要因分析・効果検証・統計的因果推論など。 予測的アナリティクス … 未知の事象を過去のデータや入手できる情報から予測する。統計モデル・機械学習モデルを活用。 指示的アナリティクス … 次に何をすべきかを指し示す。数理最適化の手法を活用。 例えば、上記の意思決定の例であれば、イベントへの参加を検討するためにコロナ感染者の推移をグラフで見たり、リレーのクラス代表者を5000万走のタイムで決めたりするのは、記述的アナリティクスに該当します。情報を解釈して判断する大部分を意思決定者自身が担います。ワクチンの効果を検証するのは診断的アナリティクスです。ランダム化比較実験や統計的因果推論の手法を用います次回以降で解説します)。天気予報は、予測的アナリティクスに当たります。過去のデータと現在の観測情報から未来の天気を予測します。指示的アナリティクスでは、例えば最適な配送経路を計算するのに数理最適化の手法を用います。 次回以降は、これら4つのアナリティクスを詳しく見ていきましょう。

分析|了解SAS|学生和教育工作者
まずデータリテラシー」からはじめよう

社会でのデータ活用が進むにつれ、それを推進する人材の必要性が増しています。データ活用人材、アナリティクス人材、データサイエンティスト、呼び方や役割はさまざまですが、そのスキルの根底にあるのは、データリテラシー」です。データリテラシーとは、世界で起こっているさまざまなことを理解するために、データと対話できることを指します。データの有用性を見極め、信頼性を問い、意味を見出し、その洞察を意思決定に役立て、洞察を他者に伝えることができる一連のスキルです。内閣府、文部科学省、経済産業省は、大学におけるリテラシーレベル」の数理・データサイエンス・人工智能教育プログラムについて、認定制度をはじめようとしています。 萨斯は、学生向けにデータサイエンスを学べる SAS学生技能生成器を無料で提供しています。学生在线学习技能生成器のなかに、データサイエンスを学ぶ最初のコースとして、数据素养基础があります。このコースでは、身近な例を取り上げ、段階を踏んでわかりやすくデータリテラシーについて学ぶことができます。 萨斯は、アナリティクスが個人や組織の意思決定のために活用されるものであることを意識し、製品やサービスを展開しています。この 数据素养基础のコースでも、意思決定の際にデータとどう向き合えばよいのか、その理解のためのファースト・ステップを提供します。よく統計学の初級コースで、まず平均や分散を計算してみましょう」という教材がありますが、実は、それ以前に理解すべきことがあります。なぜデータを見る必要があるのか、どのようにデータを集めるのか、そのデータはどういう性質を持っているのか、という疑問と、それらを知ろうとする姿勢が必要です。 このコースは6つのモジュールで構成されます。 为什么数据素养很重要。。。网络社交网站などで出会うさまざまなデータを例にデータリテラシーの重要性を学びます。 数据素养实践。。。商品の購入を例にデータリテラシーの実践を学びます。 正在识别可靠数据。。。ある家族の新型コロナ感染予防の取り組みを例に信頼できるデータの収集について学びます。 发现数据的意义。。。新型コロナの影響を受けたビジネスを例にデータから知見をどのように得られるのかを学びます。 做出数据决策。。。

高级分析|分析|人工智能|了解SAS|学生和教育工作者
乔斯·范·东根0
SAS能源游戏:严肃游戏maakt leren lex

Inzicht krijgen在de kracht van analyticsén leren omgaan遇到了分析软件。En dat terwijl je gewoon een spel speelt。Dat是SAS能源游戏。在米德尔斯赫本-奥尔德登研究所,赫斯佩尔-格斯佩尔分析了瓦尔迪盖登-韦尔斯特克特。梅尔-曼森-肯尼斯-莱顿分析数据是

分析|学生和教育工作者
0
本当の原因は何か?:因果効果を求めるために必要な条件

はじめに   前回のコラムでは因果関係を統計学的に考えるために潜在アウトカム」という概念を導入しました。そして、因果効果を異なる介入レベルの潜在アウトカムの比較によって定義しました。例えば、心臓移植という介入がその後の生存に関して因果効果を持つかどうかを考えたい場合には、各個人が心臓移植を受けたらどうなったか、もしくは受けなかったらどうなっていたかという如果是,则为2(潜在アウトカム)を考え、それぞれを比較します。これが潜在アウトカムの枠組みでの因果推論(鲁宾流の因果推論)の基本的な考え方になります。   しかし、詳細については後述しますが、この如果の結果である潜在アウトカムは、現実にはいずれか1つしか観測はされず、もう一方は現実には得られない結果反事実)となるため、個人における因果効果は定義することは可能であっても、その値を求めることは一般には出来ません。しかし、平均因果効果については識別可能条件 (可识别条件)と呼ばれる以下のつの仮定の下では、その値をデータから推定することが可能です。一、一致性 今回のコラムではこれらが意図する内容について解説を行います。なお推定手法によっては追加の仮定や、ここで紹介したものとは異なる仮定が置かれる場合(例如。,操作変数法)、暗に置かれている条件については補足資料や、各推定手法に関するコラムをご参照ください。    一致性   前述のように潜在アウトカムを用いる鲁宾流の因果推論においては、因果効果は異なる介入レベルの潜在アウトカムの比較によって定義されます。ここで1つ重要なことがあります。それは、潜在アウトカムと観測されるアウトカムは異なる概念であるということです。あくまで潜在アウトカムとは、〇〇という介入を仮に受けたとしたらどのような結果となるかという如果の結果」であり、観測されるアウトカムは〇〇という介入を実際に受けた場合の結果」です。つまり、潜在アウトカムを用いて定義される因果効果をデータ観測される結果)から考えるためには、これら2つの異なるアウトカムをリンクさせる必要があります。   そこで必要となるのが一致性 (一致性)と呼ばれる仮定です。一致性とは全ての個人に関して、ある介入A=Aを受ける場合の潜在アウトカム が、実際にその介入を受けた場合に観測されるアウトカムY(Y)と一致することを意味します。例えば、介入A类を心臓移植の有無、アウトカムを介入から5日後の生存の有無としたとき、ある個人に対して想定される潜在アウトカムは、介入を受けない場合と受ける場合の結果であるYia=0,Yia=1⁄2つです。ここで仮に、被験者は実際に介入を受けたとします。すると、手術から5日後に観察された結果Y(Y)は、手術の前に考えた潜在アウトカム Yia=1と同じであるというのが一致性が指す内容です。一見すると、大変当たり前のことを言っているように思われます。しかし、一致性は以下の2つの要素から構成され※1、これらが成立しない場合には、潜在アウトカムと観測されるアウトカムが一致しない、もしくは後述の式の様な単純な関係とはならない場面があります。 反事实结果的精确定义反事实结果与观察结果的联系1つ目の要素は、潜在アウトカムを構成する要素が十分に定義されているかどうかに関する項目です。ここまで心臓移植という介入の因果効果を考えるにあたり、介入を受ける場合の潜在アウトカム Ya=1と受けない場合の潜在アウトカムYa=0を比較しました。しかし、心臓移植を受けるといっても心臓移植を行う医師によって治療の効果は変わりうる可能性は十分考えられます医師の手術の上手さが異なる)。このように単に介入を受けるといっても複数のバージョンがあり (多种治疗方案)、かつ、それぞれの場合で介入による効果が異なる場合には、治療を受ける場合の潜在アウトカムを単にYia=1とするのではなく、どのような治療を受けるのかといった情報まで含めて、潜在アウトカムの定義をする必要があります。精确定义

1 2 10

返回页首