Science vs Corruption
Science (Language models and LLM in vector) vs Corruption
Science (Language models and LLM in vector) vs Corruption
2009
RNN LM
Tomás Mikolov, Jirí Kopecký, Lukás Burget, Ondrej Glembek, Jan Cernocký:
Neural network based language models for highly inflective languages.
2009 IEEE International Conference on Acoustics, Speech and Signal Processing (2009)RNN LM
Recurrent neural network based language model
Tomáš Mikolov, Martin Karafiát, Lukáš Burget, Jan Černocký, Sanjeev Khudanpur
A distance on words
Word2vec
In 2010, Tomáš Mikolov (then at Brno University of Technology) with co-authors applied a simple recurrent neural network with a single hidden layer to language modelling
Word2vec
In 2010, Tomáš Mikolov (then at Brno University of Technology) with co-authors applied a simple recurrent neural network with a single hidden layer to language modelling
King - Man + Woman = Qeen
So the famous equation w[king]+w[woman]-w[man] ≃ w[queen] can be rewritten as: w[woman] - w[man] ≃ w[queen] - w[king]
Word2vec (2013) byl jeden z klíčových průlomů v NLP (zpracování přirozeného jazyka), protože umožnil rychle učit husté vektorové reprezentace slov z velkých textových dat.
Tyto ‚word embeddings‘ se staly standardním stavebním kamenem mnoha dalších modelů a výrazně urychlily posun NLP směrem k neuronovým metodám.
Metodu publikoval tým v Googlu vedený Tomášem Mikolovem.
Tyto ‚word embeddings‘ se staly standardním stavebním kamenem mnoha dalších modelů a výrazně urychlily posun NLP směrem k neuronovým metodám.
Metodu publikoval tým v Googlu vedený Tomášem Mikolovem.
Tomáš Mikolov
PhD na VUT v Brně - téma: neuronové jazykové modely
Roku 2010 absolvoval stáž na Johns Hopkins University u Freddy Jelinka
MS
Google Brain - Word2vec
Facebook AI Research FAIR - fastText
MS
Google Brain - Word2vec
Facebook AI Research FAIR - fastText
Od r. 2020 do 2025 je spojován s CIIRC ČVUT - vedení výzkumné skupiny
vs
Tomáš Mikolov a korupce v akademickém prostředí:
„Jeho krok společnost snad chápe i jako zoufalý způsob, jak důrazněji upozornit na problémy, kterým čelí výzkum a špičkový výzkum v Česku"
Kauza Mikolov: Jen totální zhroucení grantového systému může zabránit odchodu špičkových vědců
Tomáš Mikolov končí na ČVUT. Mezinárodně uznávanému expertovi na AI došla trpělivost s českou vědou
vs
Tuší někdo za co
Mimořádné odměny pro vedení UK vyvolaly pobouření: Problém není jejich výše, ale existence
vs
vs
Plus ideologická korupce
Vědecký konsensus nemusí být pravda
RNDr. Tomáš Fürst, Ph.D.
Katedra matematické analýzy a aplikací matematiky
Tomáš Mikolov: Miliardy rozdělují lidé, kteří o tom neví absolutně nic. Byl jsem z toho znechucený!
DVTV
Na závěr dobré poznamenat, že Word2vec, GloVe, FastText ... generují statické vektorové reprezentace slov.
Modely jako BERT vytvářejí kontextové (dynamické) reprezentace tokenů - významové vektory se liší podle věty.
word2vec naopak zavedl a masově rozšířil statické embeddingy slov, které byly důležitým krokem v tom, že se text začal běžně reprezentovat vektorově.
Transformery pak na vektorových reprezentacích staví (používají token embeddings), ale jejich klíčová novinka je self-attention, díky níž umí kontext kombinovat napříč celou sekvencí a tvořit kvalitní kontextové reprezentace.
word2vec pomohl ukotvit embeddingy jako standardní vstup, na kterém transformery přirozeně staví.
Transformery stojí hlavně na attention a škálování; embeddingy by existovaly i bez word2vec ale word2vec jim významně napomohl.
Modely jako BERT vytvářejí kontextové (dynamické) reprezentace tokenů - významové vektory se liší podle věty.
word2vec naopak zavedl a masově rozšířil statické embeddingy slov, které byly důležitým krokem v tom, že se text začal běžně reprezentovat vektorově.
Transformery pak na vektorových reprezentacích staví (používají token embeddings), ale jejich klíčová novinka je self-attention, díky níž umí kontext kombinovat napříč celou sekvencí a tvořit kvalitní kontextové reprezentace.
word2vec pomohl ukotvit embeddingy jako standardní vstup, na kterém transformery přirozeně staví.
Transformery stojí hlavně na attention a škálování; embeddingy by existovaly i bez word2vec ale word2vec jim významně napomohl.
České zdravotnictví jako inkubátor a líheň korupce



2 komentáře:
Word2vec aneb jak převést slova na čísla
https://www.marigold.cz/ai/word2vec/
Hive Spirit Technologies
...
Okomentovat