Personal tools

Seminar Data Mining - Summer 18

From Sccswiki

Jump to: navigation, search
Term
Summer 18
Lecturer
Moritz August, Jean-Matthieu Gallard und Kilian Röhner erreichbar per datamining@mailsccs.in.tum.de
Time and Place
Vorbesprechung: 26. Januar, 15:00 Uhr bis 16:00 Uhr, MI HS 3
Kickoff: 10 April um 12:00 - 14:00 Uhr in Raum 01.10.011
Workshop zum wissenschaftlichen Arbeiten: 17 April um 14:00 - 16:00 Uhr in Raum 01.10.011
Vortragstermine (im Block): 12. Juni, 13. Juni, 14. Juni, jeweils 9:00 Uhr bis 18:00 Uhr
Audience
Informatik (Bachelor)
Tutorials
-
Exam
-
Semesterwochenstunden / ECTS Credits
2 SWS / 4 (Proseminar) oder 5 (Seminar) Credits
TUMonline



Contents

News

  • Die Folien des Literatur-Workshops sind hier erreichbar.
  • Die Folien des Kick-Offs sind hier erreichbar.
  • Die Folien der Vorbesprechung sind hier erreichbar.
  • Das Bewerbungssystem ist jetzt hier erreichbar.
  • Die Vorbesprechung findet am Freitag, den 26. Januar um 15:00 Uhr im Hörsaal MI HS 3 statt.
  • Das Seminar wird auch im Sommersemester 2018 wieder stattfinden! Da das Format "Proseminar" ausläuft, führen wir die Veranstaltung gleichzeitig als Pro- und als Hauptseminar durch.

Anmeldung

Die Anmeldung erfolgt in zwei Schritten:

  1. Bis 14. Februar melden Sie sich bei Betreuern über das Formular vorab.
  2. Zwischen 9. Februar und 14. Februar melden Sie sich im Matching System an.

Die Studenten werden Ende Februar über die Ergebnisse der Zuteilung informiert.

Inhalt

Überblick und Methoden des Data Mining: Software, Data at Scale, Klassifikation, Regression, Clustering, u.v.a.m. Details gibt es in der Vorbesprechung.

Themen (vorläufig)

  • Überblick: Data Mining Pipeline
  • Software: Python
  • Software: Spark und Zeppelin
  • Software: R
  • Hardware: GPUs
  • Hardware: CPUs und TPUs
  • AutoDiff
  • Statistics for Datamining
  • Numerische Optimierung
  • Aufbereitung von Daten, Pre-Processing
  • Lineare Modelle für Regression und Klassifikation
  • Lernen mit Kernels
  • Support Vector Machines
  • Entscheidungsbäume
  • Association Rules
  • Graph Mining
  • Clustering
  • Dichteschätzung
  • Neuronale Netze I: Grundlagen
  • Neuronale Netze II: Deep Learning
  • Neuronale Netze III: Deep Learning Software (TensorFlow)
  • Ensemble Learning
  • Principal Component Analysis
  • Bayesian Machine Learning
  • Markov Chain Monte Carlo
  • Spam Filtering mit Naive Bayes Classifier
  • Recommender Systems
  • Data Mining in Science
  • Data Mining für soziale Netzwerke
  • Data Mining und Gesellschaft


Vorbesprechung

Die Vorbesprechung findet am 26. Januar 2016 um 15:00 Uhr im Hörsaal MI HS 3 statt.

Recherchetipps

Um weitere Literatur zu finden, gibt es vielfältige Möglichkeiten, z.B.

oder direkt über die Webseiten der Verlage (Elsevier, Springer, IEEE, ACM, ...)

Sowie Bibliotheksrecherche online

aus dem Uni-Netz (VPN Zugang bzw. lokal vor Ort) muss der Proxy gesetzt werden, dann gibt es kostenlosen Zugriff auf viele Journals etc., siehe

Manche Bücher sind zudem über den OPAC-Katalog abrufbar ("Volltext" Button):


Texte zum wissenschaftlichen Schreiben

Tipps zur Vorbereitung einer Präsentation

Tun Sie alles dafür, dass Ihre Zuschauer möglichst wenig Energie aufwenden müssen, um Ihrem Vortrag folgen zu können.

  • Denken Sie bei der Vorbereitung Ihres Vortrages an Ihr Publikum: welchen Wissensstand haben sie, welche Interessen, usw. Sie sollen lernen, Ihr Thema zu „verkaufen“. Das beste Ergebnis, dass Sie erwarten können: die Zuhörer (Mitstudenten) haben Ihren Vortrag verstanden und möchten mehr über das Thema erfahren.
  • Menschen haben eine beschränkte Aufnahmekapazität. Man kann davon ausgehen, dass die meisten nur bis zu 5 zentrale Punkte aus einem Vortrag mitnehmen können - bei einem 20-minütigen Vortrag eher 3. Überlegen Sie sich deswegen gut, was Ihr Publikum nach dem Vortrag über Ihr Thema wissen soll. Und dann machen Sie die Wichtigkeit dieser Informationen eindeutig: sagen Sie das, sagen Sie es nochmal, und fassen Sie es am Ende nochmal zusammen.
  • Als Daumenregel gilt: man braucht 2 bis 3 Minuten pro Folie. Denken Sie daran während der Planung Ihres Vortrages. Es ist kaum möglich 15 Folien in einen 20-minütigen Vortrag zu „packen“.
  • Formeln können viel Information in einer kompakten Form repräsentieren. Man braucht aber auch viel Zeit und Energie, um diese Information wieder „dekomprimieren“ zu können. Wenn Sie eine Formel auf Ihren Folien haben, erklären Sie was diese bedeutet, welche Informationen sie enthält, welche Intuition dahinter steht. Überlegen Sie sich, ob dieselbe Information auch mit anderen Mitteln erklärt werden kann, z.B. mit einem Beispiel oder mit einem Diagramm.
  • Verwenden Sie keine Fachbegriffe ohne sie davor zu erklären. Falls die Begriffe von Ihren Kommilitonen in einem früheren Vortrag bereits erklärt wurden, können Sie darauf verzichten oder die Bedeutung nur kurz wiederholen - und am besten darauf referenzieren.
  • Der Text auf den Folien soll gut lesbar sein. Achten Sie darauf, dass die Schriftart gut lesbar ist, und die Schriftgröße nicht zu klein ist (mind. 16 pt, besser 20 pt). Als Faustregel soll man nicht mehr als 7 Kernaussagen auf einer Folie haben.
  • Für die Präsentation gilt: üben, üben, üben! Halten Sie ihre Präsentation mindestens 5 Mal zur Probe, bevor Sie sie im Vortrag im Seminar halten. Machen Sie eine Trockenübung vor Ihren Freunden, Eltern, Geschwistern oder wer auch immer zu langsam flieht ;-) Wenn Sie niemanden finden können, üben Sie vor dem Spiegel - aber definitiv so im Stehen, wie Sie später Ihren Vortrag auch halten würden.
  • Reden Sie laut, deutlich und nicht zu schnell. Je mehr Konzentration Ihre Zuschauer brauchen um Sie akustisch zu verstehen, desto früher werden sie aussteigen.
  • Folien dienen zur Visualisierung und sollen Ihnen helfen, auf dem Faden zu bleiben. Während des Vortrages versuchen Sie nicht die Folien einfach runter zu lesen. Die meisten können schneller lesen, als sie vorlesen. Tipp: nur Stichworte auf die Folien, den Rest erzählen Sie sowieso selbst.
  • Suchen Sie ein Feedback: haben die anderen Studenten Ihre Erklärung verstanden, haben sie noch Fragen oder haben sie schon längst aufgeben Ihrem Vortrag zu folgen?
  • Wenn Sie noch etwas anderes machen können, das Ihren Zuschauern das Verstehen des Themas erleichtern soll, dann sollen Sie es unbedingt machen.


Checkliste der häufigsten Formfehler beim Schreiben wissenschaftlicher Texte

  • Die passende Tipps aus dem Bereich "Präsentationen" sollen beachtet werden
  • Mathematische Formeln:
    • Text Subskripte mit $\text{}$ formatieren
    • Nutze $\left( ... \right)$ für die richtige Skalierung von Klammern
    • Formeln in die "Erzählung" einbinden, dabei die richtige Punktuation nicht vergessen, doppelte Zeilenumbrüche vermeiden
  • Zitieren
    • Primärquellen wenn immer möglich nutzen
    • "Foobar [1,2,3]." Wichtig: mehrere Quellen in eckigen Klammern zusammenfassen, Punkt bzw. ein anderes Zeichen *danach*
    • Alle genommenen Ideen sollen deutlich kennbar gemacht werden.
    • Falls ein größerer Teil aus einer Quelle übernommen wurde (z.B. bei Einführung in die Theorie), einmal ganz am Anfang nennen
    • Wikipedia ist keine *zitierungsfähige* Quelle, wenn auch die Artikeln einen guten Überblick bieten. Schaut euch aber auch die Diskussionsseite an, um die kontroversen Informationen zu identifizieren
    • Zitierung von Webseiten: @misc bibtex Eintrag, Titel, Autor wenn vorhanden, URL, und *ganz wichtig* Datum des letzten Zugriffs nennen
    • Zitierung von "Allgemeinwissen": ist nich nötig, falls Wissen zweifelsohne allgemein ist, sonst Primärquellen oder Fachlexika nutzen
    • Quellen von Abbildungen und Tabellen müssen im Bild- Tabellenüberschrift angegeben werden.
  • Fußnoten:
    • Generell in die Fußnoten gehört, was fürs Verständnis nicht wichtig ist. Wenn etwas gelesen werden soll, baut man es als Nebensatz in den Text ein.
    • Fußnotenverweise kommen nach dem Punkt oder anderen Punktuationszeichen außer Gedankenstriche.
  • Struktur:
    • Keine einzelnen Unterkapitel hängen lassen wie z.B. Kap 1, Kap 1.1, Kap 2.
    • Kein einzelnen Zeilen eines mehrzeiligen Paragraphes auf der Seite hängen lassen (z.B. nach einer Formel oder einem Bild), sondern auf die andere Seite übertragen: \sloppy, penalties anpassen, Text umschreiben
  • Tabellen und Abbildungen
    • Alle Abbildungen im Text einführen und beschreiben
    • Die Captions von den Abbildungen bzw. Tabellen sollen selbsterklärend sein: nicht nur was gezeigt wird (z.B. Fehler vs. Datenmenge), sondern was es uns sagt (z.B. ab einer gewissen Menge an Daten reduziert sich der Fehler nur insignifikant).
    • So viel wie nötig aber so wenig wie möglich Information zeigen
    • Akzente setzen z.B durch den Wahl eines passenden Diagrammentypes, Achsenlogarithmierung usw
    • Tabellenformatierung: beste Werte durch Formatierung hervorheben (z.B. fett machen)

Plagiate

  • LIEGT EIN VERSTOSS VOR, MUSS DIE ARBEIT MIT 5.0 BEWERTET WERDEN!
  • jegliche Art von Plagiaten ist zu vermeiden:
    • jegliches fremdes geistiges Eigentum muss zitiert werden (Bilder, Text, Web-Seiten, etc.)
    • zitieren bedeutet nicht, dass danach Text 1:1 kopiert werden darf!
    • Umstellen von Woerten ist auch noch ein Plagiat!
  • Jede Ausarbeitung wird auf Plagiate gecheckt!
  • Um Aerger zu ersparen: ALLES MIT EIGENEN WOERTERN SCHREIBEN UND ABBILDUNGEN SELBST ERSTELLEN!
  • Bitte beachten Sie dazu auch die zentralen Hinweise unter Regelungen für Prüfungen am Lehrstuhl V

LaTeX

Formalia

Wichtige Termine

  • Vortragstermin wird (geblockt) zugeteilt
  • 4 Wochen vor dem Vortrag - ein Entwurf der Ausarbeitung beim Betreuer einreichen (per Email)
  • 2 Wochen vor dem Vortrag - Folien beim Betreuer einreichen
  • Am Tag des ersten Vortrags, 12:00 Uhr - Abgabe der fertigen Ausarbeitung
  • Eine Woche nach dem ersten Vortrag 12:00 Uhr - Einreichen der Reviews
  • Zwei Wochen nach dem ersten Vortrag, 12:00 Uhr - Abgabe der Ausarbeitung mit eingearbeitetem Feedback

Wenn Du mehr lernen willst

Podcasts geeignet für Eisteiger:

Blogs:

Reddit: