Ask @univprofblog1:

回答ありがとうございます。重ねて質問させていただきたいのですが、テストデータ(data_prediction2.csv)には答えとなるラベルがないのですが、どのように3つ目の混同行列(・モデル検証用サンプル (テストデータ) の推定結果における混同行列)を導出しているのでしょうか。よろしくお願いします。

naoyayamaguchi
ご質問ありがとうございます。説明不足で申し訳ございませんでした。3つ目の混同行列は、data_prediction1.csv で計算されたものです。こちらには答えのラベルがあります。
よろしくお願い致します。

View more

初めまして。「コピペだけで実用的かつ実践的な多クラス分類用サポートベクターマシン (Support Vector Machine, SVM) (MATLAB言語)」を購入させていただいたものですが、結果として出力される3つの混合行列の違いについて教えていただけますでしょうか。 また、one vs one法を用いているようなので、各クラスの再現率、適合率、F値をだして評価できるのではと思うのですが可能なのでしょうか。よろしくお願いします。 (先ほど一度同じ質問を送ってしまっているかもしれません。もし重複して送ってしまっていたら申し訳ありません。よろしくお願いします)

naoyayamaguchi
ご質問いただきありがとうございます。
また多クラス分類用SVMのプログラムをご購入いただき感謝致します。
3つの混合行列について、順番に
・SVMモデルを構築したサンプル (トレーニングデータ) の推定結果における混同行列
・クロスバリデーションの推定結果での混同行列
・モデル検証用サンプル (テストデータ) の推定結果における混同行列
です。
またモデル性能の指標について、手動もしくは別途コードを書いていただくことになりますが、テストデータの推定結果は "PredictedY2.csv" に格納されていますので、こちらから計算していただくことが可能です。
よろしくお願い致します。

View more

初めまして。機械学習やプログラミングの勉強を初めたばかりの者です。 大学教授様の多クラス分類SVMのpython版コードを購入して実行したのですが、ImportError: No module named supporting functionsという表示のエラーが出ます。 解決方法を教えて頂けたら幸甚に存じます。

ご質問いただきありがとうございます。
エラーについてご不便おかけ致しまして申し訳ございません。
下のURLからzipファイルをダウンロードしていただき、解凍したものをSVMのコードと同じフォルダ(ディレクトリ)に置いていただけないでしょうか。
http://univprofblog.html.xdomain.jp/code/supportingfunctions.zip
お手数おかけ致しまして恐縮ですがよろしくお願い致します。

View more

将来データ分析周りのことをしたいので 大学もその辺りにいこうと思うのですがどのようなところが良いでしょうか? 九州大学や東工大の経営工学辺りでしょうか?

ご質問ありがとうございます。
大学でデータ分析を行いたいとのこと、純粋にデータ解析手法・統計・機械学習について突き詰めたいのであれば、情報系の学科で、面白そうな研究室があるとことがよいと思います。
ただ、データ分析を使って応用したい分野 (医療・バイオ・化学・経済・・・) があれば、その分野でデータ分析を行っている研究室のある大学に行くのがよいと思います。

View more

初めまして.「大学教授」さんのHPからコードを購入し学習させていただこうと考えている学生です.質問が二つあります. 一つ目です. コード購入の際,ライセンス条件が見当たらなかったのですが,コードの改変は許されているのでしょうか. 二つ目です. GTM(generative topographic mapping)の基底関数のグリッドの決定の際は,すべてを等間隔に置かなくてもよいでしょうか.私の扱いたい解析したいデータセットは,グリッドが一部等間隔ではない方がうまくいくのではないかと考えています. よろしくお願いいたします.

TAKAMUKU TAKAHIRO
ご質問およびコード購入のご検討ありがとうございます。
質問に回答させていただきます。
一つ目につきまして、コードは改変していただいて問題ございません。
二つ目につきまして、今回のGTMでは基底関数のグリッドは等間隔に置く必要がございます。申し訳ございませんがよろしくお願い致します。

View more

必要最低限のサンプル数の見積もりに関してです。それには検出力・エフェクトサイズ・有意水準などが必要、とよく言われますが、ある標本のある目的変数を複数の特徴量を使用した予測モデルを作る際、その結果(感度、特異度、その他)がまだ見ぬ母集団にとっても妥当である、と言える為のサンプル数はどのように決められるべきなのでしょうか。また、この場合他にも、専門家が正解付けできる最大標本数や過適応しない最低限の標本数なども考慮しなければならないと思われます。いかがでしょうか。

ご質問いただき感謝致します。
おっしゃるような回帰モデル・クラス分類モデルにおけるサンプル数の問題はとても重要な問題です。問題を難しくさせているのは、扱うデータセットによって目的変数と特徴量との関係は異なり、それによって必要なサンプル数も異なることです。
また回帰モデル・クラス分類モデルを用いるときに重要なことは、モデルの適用領域・適用範囲 http://univprof.com/archives/16-05-30-3588574.html を考えなければならないことです。モデルを作るときにどれだけサンプル数があっても、目的変数の値を予測したいサンプルが、適用領域の外でしたら推定誤差が大きくなってしまいます。
そこで妥当なサンプル数を決める、という考え方から、サンプル数によってモデルの適用領域が異なる、と転換します。サンプル数が少ないときでもモデルは作れますが、そのモデルの適用領域は狭く、得られた推定値のばらつきは大きくなり、サンプル数が多くなるとそれだけ適用領域は広がり、推定値のばらつきも抑えられる、ということです。
そして、モデルの適用領域や推定値のばらつきを、与えられたデータセットから求める、ということになります。

View more

10の回帰分析手法を一気に実行して結果を比較する!ダブルクロスバリデーションによる評価付き (Python言語)におきまして、以下のエラーがでます。対処法を教えていただけますでしょうか。 Input contains NaN, infinity or a value too large for dtype('float64') また、supportingfunctions.py において、def loadunsuperviseddatawithtestdata にあるdata_prediction.csvはどれを示しているのでしょうか。よろしくお願いします。

TS
ご質問いただき感謝致します。
エラー内容を拝見すると、データセット(data.csv, data_prediction1.csv, data_prediction2.csv) の中に、空欄のセルや文字を含むセルが入っていることが考えられます。data.csv, data_prediction1.csv, data_prediction2.csvをご確認いただけないでしょうか?
またご指摘の関数loadunsuperviseddatawithtestdataはまだ他のプログラムでは使用しておりません。将来的に使用する際はその説明を入れてプログラム・コードを発信致します。
よろしくお願い致します。

View more

数百の説明変数に対して、PLS, RF, Stepwise といった複数の変数選択法を適用しましたが、RFのR2だけ常に値が高くなるのはなぜでしょうか。また、RF以外の変数選択法のR2が0.2台と低い場合は、次にどのようなアプローチをして変数を選択していけばよいでしょうか。それとも、この結果を解して、現時点でランキングの高い変数から単純に選択していってもよいのでしょうか。よろしくお願いいたします。

ご質問ありがとうございます。
PLS, RF, Stepwiseにおいて、RFだけR2が高い理由について、RFだけ非線形の回帰分析手法であるため、と考えられます。RFでは、PLS, Stepwiseと比べて、より柔軟にフィッティングすることができます。しかし、R2が高いことと、新しいデータに対する予測性能が高いこととは全く別の話です。R2が高くても、モデルがモデル構築用データにオーバーフィッティングしていると、新しいデータに対する予測性能は低くなってしまいます。
http://univprof.com/archives/16-05-13-3200949.html
このURLの記事ではディープラーニングでのオーバーフィッティングの話をしていますが、RFでも同じ状況が起こりえます。
そのため、まずはクロスバリデーションなどでPLS, RF, Stepwizeの性能を比較してはどうでしょうか?

View more

初めまして、初心者です。部分的最小二乗法の進化する入門書などで学習しており、いつもお世話になっております。 [質問]説明変数を2値変数、目的変数を連続値であるデータには、どのような回帰分析モデルを適用できるのでしょうか。また複数選択肢がある場合には、どのようなケースにそれぞれの手法を適用するべきなのでしょうか。宜しくお願いします。

ご質問いただきありがとうございます。
説明変数が2値変数、目的変数が連続値であるときは、基本的にどの回帰分析手法でも適用できます。
よろしくお願い致します。

View more

python による KS アルゴリズムのコードを利用させていただき、学習サンプルを30取得できました。でてきた30の行の順序は、当初のcsvファイルの順番とは異なり、順番に規則性がみられませんでした。どのような順番で、1行目から csvファイルに出力されるのでしょうか。よろしくお願いいたします。

ご質問いただきありがとうございます。
またKSアルゴリズムのコードを利用していただき感謝致します。
順番は、KSアルゴリズムで選択された順番です。
今はサンプル数を30にして実行されていると思いますが、たとえばサンプル数を20にしたときには、今の30行の上から1~20行目までが選択されることになります。

View more

コピペだけで実用的かつ実践的なディープラーニングによる回帰分析を利用させてもらっている者です。①ディープラーニングを行う際は、多重共線性の疑いがある変数をはずすなど、変数選択を行った後に解析を実行するのでしょうか?②隠れノードに対する隠れ層の計算式を見たいのですが、どうすればよいでしょうか?③ 隠れ層と隠れノードの数に適正値はありますでしょうか?④ディープラーニングを行う上での注意点がありましたらご教授ください。

ご質問いただきありがとうございます。
①②③についてそれぞれ回答させていただきます。
① もちろん多重共線性のある変数の一方を削除してから解析することも問題ございませんが、経験的には、削除してもしなくてもモデルの精度はあまり変わりませんので、変数選択しなくても良いかと思います。
② まず、h2o.shutdown(prompt = FALSE) を削除もしくはテキスト化してください。
次に、実際にディープラーニングしている部分である
NetworkResult = ... からの11行の中に、export_weights_and_biases = TRUE を追記してください。
そうすれば、実行したあとに、h2o.weights(NetworkResult, matrix_id=1) や h2o.weights(NetworkResult, matrix_id=2) などで、1層目まで、2層目までなどの重みを確認可能です。
③ 残念ながら、隠れ層と隠れノードの数に適正値はございません。データセットによって異なります。試行錯誤的に適正値を見つけるのが一般的です。
以上です。よろしくお願い致します。

View more

GAPLSによる変数選択について、以下の行でエラーがでます。エラー対応についてお願いいたします。 > GAPLSResults = genAlg(as.vector(Y), X, GAset, PLSset, seed = 10000) Error in genAlg(as.vector(Y), X, GAset, PLSset, seed = 10000) : Requested a population that is almost as large as the number of all possible subsets. The population size can be at m

ご質問ありがとうございます。
エラーの内容から推察すると、NumberOfChromosomesが大きすぎてすべての変数の組み合わせと同じくらいになってしまっているようです。NumberOfChromosomesの値を小さくして実行されてはいかがでしょうか?
よろしくお願い致します。

View more

Random Forestを用いてテキストのクラス分けを行っているのですが、クラス分けできたものと、クラス分けできなかったものの違いを見つけるには、Random Forestのどのような部分を見れば良いのでしょうか。 よろしくお願いいたします。

ご質問ありがとうございます。
Random forestはアンサンブル学習を活用した回帰分析手法であり、random forestの一つ一つの決定木は解釈できるのですが、その集合体となるとそれを解釈することは困難です。
クラス分けできたものとできなかったものの違いを見つけるためには、解釈が可能である決定木を実施してはいかがでしょうか?

View more

こんにちは。高精度・解釈可能モデルを利用させてもらっている統計初心者です。重回帰分析を実行する際、説明変数の一つを晴れなら1、くもりなら2、雨なら3というように設定したら解釈できない回帰式ができたため、説明変数を三個に分け、晴れなら説明変数A=1、B=0、C=0。くもりならA=0、B=1、C=0。といった風に説明変数を分けて二値化していました。高精度・解釈可能モデルでは、二値化することで何か不都合が生じますでしょうか。また、説明変数の一つを晴れなら1、くもりなら2、雨なら3というように設定してもよろしいのでしょうか。ご教授ください。

ご質問いただき感謝致します。
>説明変数を三個に分け、晴れなら説明変数A=1、B=0、C=0。くもりならA=0、B=1、C=0。といった風に説明変数を分けて二値化していました。高精度・解釈可能モデルでは、二値化することで何か不都合が生じますでしょうか。
こちらの方法が正しいです。特に不都合もありません。
> 説明変数の一つを晴れなら1、くもりなら2、雨なら3というように設定してもよろしいのでしょうか。
こちらの方法は望ましくありません。たとえば回帰式でこの変数に重みが割り当てられることになりますが、1, 2, 3という値自体に意味がないため重みも意味のないものになってしまいます。詳しくは
http://univprof.com/archives/16-05-16-3260315.html
をご覧ください。

View more

いつもお世話になっております。先日のS-plotに関して、もうひとつお聞きしてもよろしいでしょうか。 Rを使用した場合、横軸がcov(主成分スコアti,説明変数X)もしくはローディング、縦軸がcor(ti,X)で良いということでしたが、これでプロットすると、原点を通る直線上に全てプロットされてしまうみたいなのですが、これで良いのでしょうか?文献等では、ばらついているように見えるのですが…。corは、ピアソンではなくスペアマンを使った方が良いのでしょうか? 何度も申し訳ございませんが、よろしくお願いいたします。

ご質問ありがとうございます。
Xについて、オートスケーリング前後で結果が変わると思います。このあたりはいかがでしょうか。
相関係数はピアソンの相関係数でOKです。
よろしくお願い致します。

View more

解析初心者です。LOOCVのAdj-R2とRMSEの算出方法がわかりません。JMPを用いてステップワイズ法により重回帰分析を行いました。その際Adj-R2とRMSEは算出されるのですが、LOOCVのAdj-R2とRMSEの算出ができません。まず、LOOCVについてもあやふやなのですが、回帰式の妥当性を検証する方法とありました。しかし、テストデータとトレーニングデータが変わるため、回帰式も変わります。だとすると、回帰式の妥当性よりも方法論(の妥当性?)だと思うのですが、、、このあたりをわかりやすく教えていただけると幸いです。よろしくお願いいたします。

ご質問ありがとうございます。
> テストデータとトレーニングデータが変わるため、回帰式も変わります。だとすると、回帰式の妥当性よりも方法論(の妥当性?)だと思うのですが
おっしゃる通りと思います。そもそも、Adj-R2もRMSEも、LOOCVをしたときのr2もRMSEも、回帰モデルを評価する指標です。そして、それぞれ目的が異なります。
Adj-R2とRMSEは、すべてのサンプルを用いて作られた回帰モデルを評価する指標のため、回帰モデルの妥当性、を評価することになります。
一方、LOOCVをしたときのr2とRMSEは、一部のサンプルのみを用いて回帰モデルを作り、それ以外のサンプルの推定結果を用いて計算されるため、同じ方法論で回帰モデルを作ったときの外部データに対する推定性能、を評価することになります。
それぞれ、目的に応じて使い分けるとよいと思います。

View more

いつもお世話になっております。 先日、opls-daに関して質問させていただきました。分かりやすいご回答ありがとうございました。S-plotの横軸は、ローディングかと思っていたのですが、共分散とは違うのでしょうか? Rを使用した場合、横軸がcov(主成分スコアti,説明変数X)、縦軸がcor(ti,X)ということで良いしょうか? 重ね重ね申し訳ありません、よろしくお願いいたします。

再度のご質問ありがとうございます。
> S-plotの横軸は、ローディングかと思っていたのですが、
おっしゃる通りです。基本的にXをオートスケーリングしてあれば、tiとXとの共分散とローディングとは等しくなります。説明不足で申し訳ございませんでした。
> Rを使用した場合、横軸がcov(主成分スコアti,説明変数X)、縦軸がcor(ti,X)ということで良いしょうか?
はい、こちらもおっしゃる通りです。
よろしくお願い致します。

View more

いつも大変お世話になっております! PCAとPLS-DAの違いについて、ほとんど無知の人に簡単な例えで説明したいのですが、以下の説明は概念として正しいでしょうか? 両方ともPC1×PC2のスコアプロットのことを指しています。 PCA(PC1×PC2)とは、多次元のデータ空間の中に入って、データ全体が最もよく見える位置(情報量が多い)から写真を撮ったもの。 PLS-DA(PC1×PC2)とは、A群、B群という2つの群に分類したサンプル群を、最も2群が大きく分かれて見える位置から写真を撮ったもの。 もし違っていましたら、ご指摘いただけると幸いです。 よろしくお願いいたします。

Takashi Miyagawa
ご質問いただき感謝致します。
お返事が遅くなりまして申し訳ございません。拝読致しました。
上の説明は、初学者にも分かりやすい説明と思います。表現としても間違っておりません。
よろしくお願い致します。

View more

はじめまして、こんにちは。自己組織化マップのコード販売についてお聞きしたいのですが、この自己組織化マップの初期値はランダムでしょうか?主成分分析で初期値を決めてバッチ処理をする、いわゆるバッチ型SOMに変更は可能でしょうか? また学習済みのマップに新たに個体の変数を投入して継続学習させる事は出来ますか? それと、各個体のマップにおける座標は出力出来ますか? 長々と申し訳ありませんが購入する上で気になったので質問させて頂きました。

ご質問いただきありがとうございます。また本プログラムに興味を持っていただき感謝致します。
> この自己組織化マップの初期値はランダムでしょうか?
はい、おっしゃる通りです。
> 主成分分析で初期値を決めてバッチ処理をする、いわゆるバッチ型SOMに変更は可能でしょうか?
このような拡張は難しい状況でございます。
> 学習済みのマップに新たに個体の変数を投入して継続学習させる事は出来ますか?
こちらのような学習方法への対応も困難な状況です。再度すべてのデータセットで再学習することになってしまいます。
>各個体のマップにおける座標は出力出来ますか?
はい、こちらは可能です。
ご期待に添えない部分もあり申し訳ございませんがご検討のほどよろしくお願い致します。

View more

いつもHPの記事を大変参考にさせていただいております。 最近、PLS-DAを使って解析しようしていたのですが、調べていて改良されたOPLS-DAという手法があると知りました。どのような違いがあるのかご存知でしたら、ご教示いただけますか?あと、もしご存知でしたらOPLS-DAの結果で出てくるS-Plotはどのようにして求めれば良いのか、教えていただけるでしょうか? お忙しいところ大変申し訳ありませんが、よろしくお願いいたします。

ご質問いただきありがとうございます。
PLS-DAとOPLS-DAとの違いは、PLSとOPLSとの違いから来ています。OPLSでは、目的変数yとの相関がない成分をXから除くことで、よりPLSモデルを解釈しやすいようにしている手法です。
S-plotの求め方について。i番目の主成分をti、説明変数をXとすると、横軸をtiとXとの共分散(ベクトル)、縦軸をtiとXとの相関係数(ベクトル)としてものでございます。
ご参考になれば幸いです。

View more

はじめまして、こんにちは。 いつも大変有意義な記事を公開して頂きありがとうございます。 大学教授様が公開してされているプログラムについて質問があります。 「たくさんのニクラス分類を一気に行い、ダブルクロスバリデーションで評価するプログラム」についてなのですが、こちらはダブルクロスバリデーションの試行回数は任意で決められるのでしょうか? こちらのプログラムに興味があり、質問させて頂きました。

-i.jmdA
ご質問ありがとうございます。また二クラス分類のプログラムに興味をもっていただき感謝申し上げます。
今回のプログラムでは、一度プログラムを実行したときのダブルクロスバリデーションの試行回数は"1回のみ"となっております。ただ乱数を変えることでクロスバリデーションのときにどのようにサンプルを分割するかを変えることができますので、プログラムを複数回実行することで複数回ダブルクロスバリデーションを実行するのと同じことになります。
つまり、プログラムの実行回数でダブルクロスバリデーションの試行回数を任意に決めることができます。
今後ともよろしくお願い致します。

View more

「10の回帰分析手法を一気に実行して結果を比較する!ダブルクロスバリデーションによる評価付き」の プログラムに使用するモデル構築用データのcsvファイルは、多重共線性の疑いがある説明変数を除いた変数選択後のデータを用いる必要があるのでしょうか。また、説明変数・目的変数は、オートスケーリングした後の数値をcsvに入力しておく必要があるのでしょうか。統計解析初心者であるため、稚拙な質問になりますが、よろしくお願いいたします。 オートスケーリングしたデータを用いた際の新しいデータの予測方法(元のスケールに戻す方法等)等ブログの内容は、統計解析初心者には大変参考になっています。情報発信感謝いたします

もちろん、多重共線性の疑いがある説明変数を除いた変数選択後のほうが望ましいですが、信頼できる方法で選択することが難しいのであれば、そのままでも構いません。PLSなど多重共線性に対処可能な回帰分析手法も搭載されているためです。ちなみに、下のように多重共線性のある変数を自動的に削除する方法するプログラムもあります。
https://spike.cc/shop/univprof/products/tPeynNQs
https://spike.cc/shop/univprof/products/62vLdPOg
また必要に応じてプログラム内でオートスケーリングしていますので、事前にオートスケーリングする必要はありません。
ブログの内容が参考になっているようで幸いでございます。
今後ともご愛好のほどよろしくお願い致します。

View more

統計初心者です。ダブルクロスバリデーション(笑)の記事でダブルクロスバリデーションを複数回繰り返すことで (たとえば100回)、r2DCV・RMSEDCV・正解率DCVのばらつきを検討する必要があるとあります。この繰り返し作業は、同記事内で紹介されているクロスバリデーションのデメリットにあたる”r2CV・RMSECV・正解率CVがよくなるようなモデルを選んでる”という内容に当らないのでしょうか。また、過去のダブルクロスバリデーションに関する質問回答での100個のデータセットの内検証用の20のデータセットは100回の繰り返し作業中は、検証用データセットに固定され、構築用にはならないのでしょうか。

ご質問いただき感謝致します。回答が遅くなり申し訳ありません。
ダブルクロスバリデーションは各回帰分析手法を評価するための方法です。ダブルクロスバリデーションを複数回(たとえば100回)行う場合も同様です。回帰モデルを評価するのではなく、手法を評価します。もう少し具体的に書くと、与えられたデータセットに対する手法の評価です。
そのため、たとえば100回 r2DCV・RMSEDCV・正解率DCV を計算して、100の中でもっとも値が良いモデルを選ぶ、といったことはしません。あくまで、それらのばらつきをみます。たとえば、PLSで100回行った場合より、SVRで100回行った場合のほうがばらつきが小さい、ということでしたら、そのデータセットでは、SVRの方が回帰分析手法として安定している、といえます。このようにPLSやSVRなどの手法を評価するわけです。
また、クロスバリデーションを繰り返すとき、たとえば5-foldクロスバリデーションとすると、どのようにサンプルを5分割するかは繰り返しごとに変わります。シャッフルされるわけです。このため、r2DCV・RMSEDCV・正解率DCVにばらつきが出るわけです。

View more

グリッドサーチでパラメーターを振り、複数の標準化された5つの目的変数(仮にA,Bとおきますが、本当は5つあります)を得ました。 最適なパラメーターとして目的変数が最高になるものを選びたいのですが、 A:100点、B:0点、合計100点というパラメーターよりも A:45点、B45点、合計90点というものを選ぶ方法を考えています。 平均が大きく分散が小さいものを選べばいいということになると思うのですが、良い指標がありますか?単に割り算してもいいのでしょうか。よろしくお願いします。

Y.Yamazaki
ご質問いただきありがとうございます。
2つの方向性があると思います。
一つは、(標準化した後に)すべての目的変数を縦につなげて、一つの決定係数(r2)やRoot Mean Squared Error(RMSE)を計算することです。グリッドサーチでパラメータの値を振りながら、複数の(目的変数の数の)モデルについて例えばクロスバリデーションで評価すると思いますが、そのクロスバリデーション後の推定値をすべて縦につなげて、r2やRMSEを計算し、r2が最も高かったりRMSEが最も低かったりするパラメータの値を使います。目的変数がすべての標準化されているため、目的変数ごとに満遍なく良好な結果が得られる可能性があります。
もう一つは、Y.Yamazakiさんがおっしゃるように、分散を考慮する方法です。ただ、”一つの”指標に落とし込むことは難しいです。分散を小さくしたり、割り算した値が1に近くなったりするようなパラメータの値を選ぶことが考えられますが、すべての得点が低くなってしまう可能性があります。たとえば、A:10点、B:10点のような状況です。ばらつきは小さい(分散0)ですが全体の結果はよくありません。なので、合計と分散との2つで攻めるのがよいと思います。パラメータの値ごとに例えばクロスバリデーションを行い、合計の値と分散の値をそれぞれ保存しておきます。最後に、合計と分散とでプロットを描き、その中で合計点が大きく分散の小さなパラメータの値を選びます。
以上です。目的変数が5つもあるとすべてで良好な結果を得ることは難しくなるかと思いますが、良いパラメータの値を選択できることを祈っております。
またご不明点等ございましたら遠慮なくおっしゃってください。

View more

教育大学の教員になりたいのですが、まず大学院を出て大学に就職し、助手から始まると聞きました。競争率等は高いのでしょうか、、、人気の職業だったり、、、

ご質問ありがとうございます。回答が遅くなり申し訳ありません。
基本的に、大学で4年かけて学士を取り、大学院の修士課程で2年かけて修士を取り、大学院の博士課程で3年かけて博士を取ったところが教員になるためのスタートラインです(まれに博士なしで教員になるかたもいますが、レアケースとお考えください)。スタートラインに立ったら(実際には博士課程の途中で博士を取れる見込みになったら)、就職先を探すことになります。教授などの知り合いのコネやJREC-IN Portal( https://jrecin.jst.go.jp/seek/SeekTop )を使って探します。
最初になれるは、一般的にポスドクか助教(昔は助手と呼ばれていました)です。いわゆる"教員"という、教育+研究をするのは助教です。ポスドクは基本的に研究のみになります。うまく助教のポジションの空いているところが見つかり、そこに就職できればラッキーですが、一度以上ポスドクを経験してから助教になる方も多いです。
助教になる競争率は、研究分野によって異なりますが、一般的に言って高いです。そのため、助教になりたいときは、早い段階から研究の実績を積むようにするのが良いです。

View more

Next