Personal tools

Proseminar Data Mining - Summer 17

From Sccswiki

Jump to: navigation, search
Term
Summer 17
Lecturer
Moritz August und Jean-Matthieu Gallard erreichbar per datamining@mailsccs.in.tum.de
Time and Place
Vorbesprechung: 26. Januar 2017 um 12:00 Uhr (s.t) in Raum 00.08.038
Kickoff: 25.04.17 um 12:00 Uhr (s.t.) in Raum 02.07.023
Workshop zum wissenschaftlichen Arbeiten: 03.05.17 um 12:00 Uhr (s.t.) in Raum 01.07.023
Vortragstermine (im Block): 07.06. im Seminarraum 1 des LRZ, 08.06. in Raum 00.09.038 und 09.06. in Raum 00.09.038, jeweils von 09:00 bis 17:00 Uhr
Audience
Informatik (Bachelor)
Tutorials
-
Exam
-
Semesterwochenstunden / ECTS Credits
2 SWS / 4 Credits
TUMonline



Contents

News

  • Die Räume für den Seminar-Block sind online, siehe oben.
  • Die Folien zur Literaturrecherche sind hier hochgeladen.
  • Die Folien zur Kickoff-Vorlesung sind hier einzusehen.
  • Das Anmeldetool ist jetzt hier zu finden.
  • Die Vorbesprechung findet am 26. Januar 2017 um 12:00 Uhr (s.t) in Raum 00.08.038 statt.
  • Das Proseminar wird auch im Sommersemester 2017 wieder stattfinden!

Anmeldung

Die Anmeldung wird nach der Vorbesprechung frei geschaltet.


Inhalt

Überblick und Methoden des Data Mining: Software, Data at Scale, Klassifikation, Regression, Clustering, u.v.a.m. Details gibt es in der Vorbesprechung.

Themen (vorläufig)

  • Überblick: Data Mining Pipeline
  • Software: Python
  • Software: Spark und Zeppelin
  • Software: R
  • Aufbereitung von Daten, Pre-Processing
  • Lineare Modelle für Regression und Klassifikation
  • Lernen mit Kernels
  • Entscheidungsbäume
  • Association Rules
  • Clustering
  • Dichteschätzung
  • Neuronale Netze I: Grundlagen
  • Neuronale Netze II: Deep Learning
  • Neuronale Netze III: Deep Learning Software (TensorFlow)
  • Ensemble Learning
  • Principal Component Analysis
  • Spam Filtering mit Naive Bayes Classifier
  • Recommender Systems mit Collaborative Filtering
  • Data Mining für soziale Netzwerke
  • Data Mining und Gesellschaft


Vorbesprechung

Die Vorbesprechung findet voraussichtlich Ende Januar statt.

Recherchetipps

Um weitere Literatur zu finden, gibt es vielfältige Möglichkeiten, z.B.

oder direkt über die Webseiten der Verlage (Elsevier, Springer, IEEE, ACM, ...)

Sowie Bibliotheksrecherche online

aus dem Uni-Netz (VPN Zugang bzw. lokal vor Ort) muss der Proxy gesetzt werden, dann gibt es kostenlosen Zugriff auf viele Journals etc., siehe

Manche Bücher sind zudem über den OPAC-Katalog abrufbar ("Volltext" Button):


Texte zum wissenschaftlichen Schreiben

Tipps zur Vorbereitung einer Präsentation

Tun Sie alles dafür, dass Ihre Zuschauer möglichst wenig Energie aufwenden müssen, um Ihrem Vortrag folgen zu können.

  • Denken Sie bei der Vorbereitung Ihres Vortrages an Ihr Publikum: welchen Wissensstand haben sie, welche Interessen, usw. Sie sollen lernen, Ihr Thema zu „verkaufen“. Das beste Ergebnis, dass Sie erwarten können: die Zuhörer (Mitstudenten) haben Ihren Vortrag verstanden und möchten mehr über das Thema erfahren.
  • Menschen haben eine beschränkte Aufnahmekapazität. Man kann davon ausgehen, dass die meisten nur bis zu 5 zentrale Punkte aus einem Vortrag mitnehmen können - bei einem 20-minütigen Vortrag eher 3. Überlegen Sie sich deswegen gut, was Ihr Publikum nach dem Vortrag über Ihr Thema wissen soll. Und dann machen Sie die Wichtigkeit dieser Informationen eindeutig: sagen Sie das, sagen Sie es nochmal, und fassen Sie es am Ende nochmal zusammen.
  • Als Daumenregel gilt: man braucht 2 bis 3 Minuten pro Folie. Denken Sie daran während der Planung Ihres Vortrages. Es ist kaum möglich 15 Folien in einen 20-minütigen Vortrag zu „packen“.
  • Formeln können viel Information in einer kompakten Form repräsentieren. Man braucht aber auch viel Zeit und Energie, um diese Information wieder „dekomprimieren“ zu können. Wenn Sie eine Formel auf Ihren Folien haben, erklären Sie was diese bedeutet, welche Informationen sie enthält, welche Intuition dahinter steht. Überlegen Sie sich, ob dieselbe Information auch mit anderen Mitteln erklärt werden kann, z.B. mit einem Beispiel oder mit einem Diagramm.
  • Verwenden Sie keine Fachbegriffe ohne sie davor zu erklären. Falls die Begriffe von Ihren Kommilitonen in einem früheren Vortrag bereits erklärt wurden, können Sie darauf verzichten oder die Bedeutung nur kurz wiederholen - und am besten darauf referenzieren.
  • Der Text auf den Folien soll gut lesbar sein. Achten Sie darauf, dass die Schriftart gut lesbar ist, und die Schriftgröße nicht zu klein ist (mind. 16 pt, besser 20 pt). Als Faustregel soll man nicht mehr als 7 Kernaussagen auf einer Folie haben.
  • Für die Präsentation gilt: üben, üben, üben! Halten Sie ihre Präsentation mindestens 5 Mal zur Probe, bevor Sie sie im Vortrag im Seminar halten. Machen Sie eine Trockenübung vor Ihren Freunden, Eltern, Geschwistern oder wer auch immer zu langsam flieht ;-) Wenn Sie niemanden finden können, üben Sie vor dem Spiegel - aber definitiv so im Stehen, wie Sie später Ihren Vortrag auch halten würden.
  • Reden Sie laut, deutlich und nicht zu schnell. Je mehr Konzentration Ihre Zuschauer brauchen um Sie akustisch zu verstehen, desto früher werden sie aussteigen.
  • Folien dienen zur Visualisierung und sollen Ihnen helfen, auf dem Faden zu bleiben. Während des Vortrages versuchen Sie nicht die Folien einfach runter zu lesen. Die meisten können schneller lesen, als sie vorlesen. Tipp: nur Stichworte auf die Folien, den Rest erzählen Sie sowieso selbst.
  • Suchen Sie ein Feedback: haben die anderen Studenten Ihre Erklärung verstanden, haben sie noch Fragen oder haben sie schon längst aufgeben Ihrem Vortrag zu folgen?
  • Wenn Sie noch etwas anderes machen können, das Ihren Zuschauern das Verstehen des Themas erleichtern soll, dann sollen Sie es unbedingt machen.


Checkliste der häufigsten Formfehler beim Schreiben wissenschaftlicher Texte

  • Die passende Tipps aus dem Bereich "Präsentationen" sollen beachtet werden
  • Mathematische Formeln:
    • Text Subskripte mit $\text{}$ formatieren
    • Nutze $\left( ... \right)$ für die richtige Skalierung von Klammern
    • Formeln in die "Erzählung" einbinden, dabei die richtige Punktuation nicht vergessen, doppelte Zeilenumbrüche vermeiden
  • Zitieren
    • Primärquellen wenn immer möglich nutzen
    • "Foobar [1,2,3]." Wichtig: mehrere Quellen in eckigen Klammern zusammenfassen, Punkt bzw. ein anderes Zeichen *danach*
    • Alle genommenen Ideen sollen deutlich kennbar gemacht werden.
    • Falls ein größerer Teil aus einer Quelle übernommen wurde (z.B. bei Einführung in die Theorie), einmal ganz am Anfang nennen
    • Wikipedia ist keine *zitierungsfähige* Quelle, wenn auch die Artikeln einen guten Überblick bieten. Schaut euch aber auch die Diskussionsseite an, um die kontroversen Informationen zu identifizieren
    • Zitierung von Webseiten: @misc bibtex Eintrag, Titel, Autor wenn vorhanden, URL, und *ganz wichtig* Datum des letzten Zugriffs nennen
    • Zitierung von "Allgemeinwissen": ist nich nötig, falls Wissen zweifelsohne allgemein ist, sonst Primärquellen oder Fachlexika nutzen
    • Quellen von Abbildungen und Tabellen müssen im Bild- Tabellenüberschrift angegeben werden.
  • Fußnoten:
    • Generell in die Fußnoten gehört, was fürs Verständnis nicht wichtig ist. Wenn etwas gelesen werden soll, baut man es als Nebensatz in den Text ein.
    • Fußnotenverweise kommen nach dem Punkt oder anderen Punktuationszeichen außer Gedankenstriche.
  • Struktur:
    • Keine einzelnen Unterkapitel hängen lassen wie z.B. Kap 1, Kap 1.1, Kap 2.
    • Kein einzelnen Zeilen eines mehrzeiligen Paragraphes auf der Seite hängen lassen (z.B. nach einer Formel oder einem Bild), sondern auf die andere Seite übertragen: \sloppy, penalties anpassen, Text umschreiben
  • Tabellen und Abbildungen
    • Alle Abbildungen im Text einführen und beschreiben
    • Die Captions von den Abbildungen bzw. Tabellen sollen selbsterklärend sein: nicht nur was gezeigt wird (z.B. Fehler vs. Datenmenge), sondern was es uns sagt (z.B. ab einer gewissen Menge an Daten reduziert sich der Fehler nur insignifikant).
    • So viel wie nötig aber so wenig wie möglich Information zeigen
    • Akzente setzen z.B durch den Wahl eines passenden Diagrammentypes, Achsenlogarithmierung usw
    • Tabellenformatierung: beste Werte durch Formatierung hervorheben (z.B. fett machen)

Plagiate

  • LIEGT EIN VERSTOSS VOR, MUSS DIE ARBEIT MIT 5.0 BEWERTET WERDEN!
  • jegliche Art von Plagiaten ist zu vermeiden:
    • jegliches fremdes geistiges Eigentum muss zitiert werden (Bilder, Text, Web-Seiten, etc.)
    • zitieren bedeutet nicht, dass danach Text 1:1 kopiert werden darf!
    • Umstellen von Woerten ist auch noch ein Plagiat!
  • Jede Ausarbeitung wird auf Plagiate gecheckt!
  • Um Aerger zu ersparen: ALLES MIT EIGENEN WOERTERN SCHREIBEN UND ABBILDUNGEN SELBST ERSTELLEN!
  • Bitte beachten Sie dazu auch die zentralen Hinweise unter Regelungen für Prüfungen am Lehrstuhl V

LaTeX

Formalia

Wichtige Termine

  • Vortragstermin wird (geblockt) zugeteilt
  • 4 Wochen vor dem Vortrag - ein Entwurf der Ausarbeitung beim Betreuer einreichen (per Email)
  • 2 Wochen vor dem Vortrag - Folien beim Betreuer einreichen
  • Am Tag des ersten Vortrags, 12:00 Uhr - Abgabe der fertigen Ausarbeitung
  • Eine Woche nach dem ersten Vortrag 12:00 Uhr - Einreichen der Reviews
  • Zwei Wochen nach dem ersten Vortrag, 12:00 Uhr - Abgabe der Ausarbeitung mit eingearbeitetem Feedback

Wenn Du mehr lernen willst

Podcasts geeignet für Eisteiger:

Blogs:

Reddit:

Paper to Review

Thema Paper Präsentationsfolien
1 - Überblick: Data Mining Pipeline Paper Folien
2 - Software: Python Paper Folien
3 - Spark & Zeppelin Paper Folien
6 - Lineare Modelle für Regression und Klassifikation Paper Folien
7 - Lernen mit Kernels Paper Folien (online) Folien (tar.gz fallback)
8 - Entscheidungsbäume Paper Folien
9 - Association Rules Paper

Folien

10 - Clustering Paper

Folien (powerpoint)Folien (pdf fallback)

11 - Dichteschätzung Paper

Folien (powerpoint)

12 - Neuronale Netze I: Grundlagen Paper

Folien (Presi, online)Folien (zip fallback)

13 - Neuronale Netze II: Deep Learning Paper

Folien

14 - Neuronale Netze III: Deep Learning Software (TensorFlow) Paper

Folien (powerpoint)

15 - Ensemble Learning Paper

Folien

16 - Principal Component Analysis Paper

Folien

17 - Spam Filtering mit Naive Bayes Classifier Paper

Folien

18 - Recommender Systems mit Collaborative Filtering Paper

Folien

19 - Data Mining für soziale Netzwerke Paper

Folien

20 - Data Mining und Gesellschaft Paper

Folien