Science vs Corruption

29. října 2025

Science vs Corruption

Science vs Corruption

Science (Language models and LLM in vector) vs Corruption

2009

Tomás Mikolov, Jirí Kopecký, Lukás Burget, Ondrej Glembek, Jan Cernocký:

Neural network based language models for highly inflective languages.

2009 IEEE International Conference on Acoustics, Speech and Signal Processing (2009)

RNN LM

Recurrent neural network based language model

Tomáš Mikolov, Martin Karafiát, Lukáš Burget, Jan Černocký, Sanjeev Khudanpur

A distance on words

Word2vec

In 2010, Tomáš Mikolov (then at Brno University of Technology) with co-authors applied a simple recurrent neural network with a single hidden layer to language modelling

King - Man + Woman = Qeen

word2vec: Why does the famous equation |king⟩+|woman⟩-|man⟩≃|queen⟩ hold?

So the famous equation w[king]+w[woman]-w[man] ≃ w[queen] can be rewritten as: w[woman] - w[man] ≃ w[queen] - w[king]

Improving word embeddings in Portuguese: increasing accuracy while reducing the size of the corpus

Word2vec (2013) byl jeden z klíčových průlomů v NLP (zpracování přirozeného jazyka), protože umožnil rychle učit husté vektorové reprezentace slov z velkých textových dat.
Tyto ‚word embeddings‘ se staly standardním stavebním kamenem mnoha dalších modelů a výrazně urychlily posun NLP směrem k neuronovým metodám.
Metodu publikoval tým v Googlu vedený Tomášem Mikolovem.

Tomáš Mikolov

PhD na VUT v Brně - téma: neuronové jazykové modely

Roku 2010 absolvoval stáž na Johns Hopkins University u Freddy Jelinka
MS
Google Brain - Word2vec
Facebook AI Research FAIR - fastText

Od r. 2020 do 2025 je spojován s CIIRC ČVUT - vedení výzkumné skupiny

Tomáš Mikolov a korupce v akademickém prostředí:

Z ČVUT odchází uznávaný vědec Mikolov, který pomáhal i Googlu. Nesehnal finance

„Jeho krok společnost snad chápe i jako zoufalý způsob, jak důrazněji upozornit na problémy, kterým čelí výzkum a špičkový výzkum v Česku"

Kauza Mikolov: Jen totální zhroucení grantového systému může zabránit odchodu špičkových vědců

Tomáš Mikolov končí na ČVUT. Mezinárodně uznávanému expertovi na AI došla trpělivost s českou vědou

vs

Tuší někdo za co
Mimořádné odměny pro vedení UK vyvolaly pobouření: Problém není jejich výše, ale existence

Kauza Ševčík je jen špička ledovce. Nastal čas zjednat v univerzitním světě právo a řád

Plus ideologická korupce

Vědecký konsensus nemusí být pravda

RNDr. Tomáš Fürst, Ph.D.

Katedra matematické analýzy a aplikací matematiky

Tomáš Mikolov: Miliardy rozdělují lidé, kteří o tom neví absolutně nic. Byl jsem z toho znechucený!

DVTV

Na závěr dobré poznamenat, že Word2vec, GloVe, FastText ... generují statické vektorové reprezentace slov.

Modely jako BERT vytvářejí kontextové (dynamické) reprezentace tokenů - významové vektory se liší podle věty.
word2vec naopak zavedl a masově rozšířil statické embeddingy slov, které byly důležitým krokem v tom, že se text začal běžně reprezentovat vektorově.
Transformery pak na vektorových reprezentacích staví (používají token embeddings), ale jejich klíčová novinka je self-attention, díky níž umí kontext kombinovat napříč celou sekvencí a tvořit kvalitní kontextové reprezentace.
word2vec pomohl ukotvit embeddingy jako standardní vstup, na kterém transformery přirozeně staví.
Transformery stojí hlavně na attention a škálování; embeddingy by existovaly i bez word2vec ale word2vec jim významně napomohl.

České zdravotnictví jako inkubátor a líheň korupce

Tomáš Mikolov - Hyde Park Civilizace - 2020

www.BottleCapAi.com

Vektor
Algoritmus

2 komentáře:

Anonymní řekl(a)...: Word2vec aneb jak převést slova na čísla
https://www.marigold.cz/ai/word2vec/; 1/04/2026
Anonymní řekl(a)...: Hive Spirit Technologies
...; 1/04/2026

Okomentovat